pandasを使用してkaggleデータを遊ぶ(一)


最近pandasでデータを処理することを勉強していますが、pandasの使いやすさは本当に爽やかで、データを探して遊びたいと思っています.同僚はkaggleのデータが多くて、遊ぶ価値があると言っています.
データ#データ#
私が処理したデータはkaggleデータ分析コンテストサイトからダウンロードしたサンフランシスコの分類犯罪データです.下図に示すように、データは9列あり、X、YはGPS座標、その他は文字列であり、describeで概要を直接見ることはできません.
初歩的な分析
数値列を除外し、文字列をdescirbe分析し、データ値タイプ、数量最大タイプを知ることができます.
       PdDistrict       Category DayOfWeek Resolution
count      878049         878049    878049     878049
unique         10             39         7         17
top      SOUTHERN  LARCENY/THEFT    Friday       NONE
freq       157182         174900    133734     526790

その後、列ごとにタイプ別に対応する数を表示します.print(df['PdDistrict'].value_counts())をアラートで表示する場合
SOUTHERN      157182
MISSION       119908
NORTHERN      105296
BAYVIEW        89431
CENTRAL        85460
TENDERLOIN     81809
INGLESIDE      78845
TARAVAL        65596
PARK           49313
RICHMOND       45209
Name: PdDistrict, dtype: int64

ビジュアル化
多くの人は数字に敏感ではなく、データの理解を高める図があります.pandasが持つplot関数はdataframeを迅速にグラフィック化することができる.デフォルトは線状の動き図で、以下はタイプ別に警情を分析します.
直感的ではなく、横座標が重複しており、ヒストグラム形式を使用して、タイプを横方向に完全に表示します.座標の回転を制御する時、私はこのplot関数が多くのバグがあることを発見して、制御するのもとても不便です.より詳細な制御図の表示を行うには、matplotlibを直接使用することをお勧めします.もちろんdataframeのplot関数も最終的にmatplotlibを直接呼び出すことをお勧めします.
category.plot(figsize=(26, 10), title=u'      ', rot=0, kind='barh', legend=True)

pycharmで遊びに来たのでpltを入れなければshow、plotは表示されません.だから私は最終的にmatplotlibをインポートしなければなりません.