pandasを使用してkaggleデータを遊ぶ(一)
最近pandasでデータを処理することを勉強していますが、pandasの使いやすさは本当に爽やかで、データを探して遊びたいと思っています.同僚はkaggleのデータが多くて、遊ぶ価値があると言っています.
データ#データ#
私が処理したデータはkaggleデータ分析コンテストサイトからダウンロードしたサンフランシスコの分類犯罪データです.下図に示すように、データは9列あり、X、YはGPS座標、その他は文字列であり、describeで概要を直接見ることはできません.
初歩的な分析
数値列を除外し、文字列をdescirbe分析し、データ値タイプ、数量最大タイプを知ることができます.
その後、列ごとにタイプ別に対応する数を表示します.print(df['PdDistrict'].value_counts())をアラートで表示する場合
ビジュアル化
多くの人は数字に敏感ではなく、データの理解を高める図があります.pandasが持つplot関数はdataframeを迅速にグラフィック化することができる.デフォルトは線状の動き図で、以下はタイプ別に警情を分析します.
直感的ではなく、横座標が重複しており、ヒストグラム形式を使用して、タイプを横方向に完全に表示します.座標の回転を制御する時、私はこのplot関数が多くのバグがあることを発見して、制御するのもとても不便です.より詳細な制御図の表示を行うには、matplotlibを直接使用することをお勧めします.もちろんdataframeのplot関数も最終的にmatplotlibを直接呼び出すことをお勧めします.
pycharmで遊びに来たのでpltを入れなければshow、plotは表示されません.だから私は最終的にmatplotlibをインポートしなければなりません.
データ#データ#
私が処理したデータはkaggleデータ分析コンテストサイトからダウンロードしたサンフランシスコの分類犯罪データです.下図に示すように、データは9列あり、X、YはGPS座標、その他は文字列であり、describeで概要を直接見ることはできません.
初歩的な分析
数値列を除外し、文字列をdescirbe分析し、データ値タイプ、数量最大タイプを知ることができます.
PdDistrict Category DayOfWeek Resolution
count 878049 878049 878049 878049
unique 10 39 7 17
top SOUTHERN LARCENY/THEFT Friday NONE
freq 157182 174900 133734 526790
その後、列ごとにタイプ別に対応する数を表示します.print(df['PdDistrict'].value_counts())をアラートで表示する場合
SOUTHERN 157182
MISSION 119908
NORTHERN 105296
BAYVIEW 89431
CENTRAL 85460
TENDERLOIN 81809
INGLESIDE 78845
TARAVAL 65596
PARK 49313
RICHMOND 45209
Name: PdDistrict, dtype: int64
ビジュアル化
多くの人は数字に敏感ではなく、データの理解を高める図があります.pandasが持つplot関数はdataframeを迅速にグラフィック化することができる.デフォルトは線状の動き図で、以下はタイプ別に警情を分析します.
直感的ではなく、横座標が重複しており、ヒストグラム形式を使用して、タイプを横方向に完全に表示します.座標の回転を制御する時、私はこのplot関数が多くのバグがあることを発見して、制御するのもとても不便です.より詳細な制御図の表示を行うには、matplotlibを直接使用することをお勧めします.もちろんdataframeのplot関数も最終的にmatplotlibを直接呼び出すことをお勧めします.
category.plot(figsize=(26, 10), title=u' ', rot=0, kind='barh', legend=True)
pycharmで遊びに来たのでpltを入れなければshow、plotは表示されません.だから私は最終的にmatplotlibをインポートしなければなりません.