CSVデータの読み込みとデータの探索


まず第一に、我々はNASAからMeteorite_Landings.csvデータセットを使用するつもりです.
ダウンロードしたら、コードにジャンプしましょう!🚀
import pandas as pd

# Loading csv into our dataframe
meterorites_df = pd.read_csv('dir/to/csv_file')
パンダを使用すると、データセットを理解するために異なるメソッドを使用できます.例えば、我々はデータフレームの形を見ることができます↔️
df_meteorites.shape
(45716, 10)head ()を使用するとデータの最初の5行が表示されます💆‍♂️
df_meteorites.head()

また、あなたはどのように多くの行を参照してください頭(n)に設定することができます
df_meteorites.head(15)

最後の行をよく使うことができます.
df_meteorites.tail()

df_meteorites.tail(15)

そして今、私のお気に入りの方法は、サンプル(n)を使用することです
df_meteorites.sample(20)
このメソッドは、ランダムにデータの行からサンプルを取得します.データグラムが含むことができる異なったデータ型の平均を見るのに便利です

の情報を取得し、データフレームを記述する強力な方法を見てみましょう👀
df_meteorites.info()

45416であるIDの非NULL値を比較することによって、各カラムに対してNaN値がどれだけあるかを見ることができます.例えば、4425である.45716(私たちが形を使用することによって得られる合計行)と年45425の非NULL値の引き算です.
これはinfo ()メソッドからデータを使用する方法の例です.それは可能性の世界だ.
また、各列に対するデータ型、および各列のデータ型を参照することができます🧐
df_meteorites.convert_dtypes().dtypes

最後に、あなたに見せたい最後の方法は、その前に記述を与えます.use description ()の前にfloatデータをフォーマットします.これは、例えば➡️ 標準偏差、平均、各数値フィールドから最大値.
そのためには、次の行を使います
pd.options.display.float_format = '{:,.2f}'.format
今、我々はデータを記述することができます
df_meteorites.describe(include='all')
df_meteorites.describe(include='all')
データを理解したら、DataFrameを問い合わせることができます.ここでは関数query ()の例を示します.
私たちは、すべての隕石が2013年に着陸したのを見たい
df_meteorites.query('year == 2013 and fall == "Found"')

あなたが他のいくつかのヒントやフィードバックを追加したい場合は、感謝するよりも、私の最初の記事を読んでのおかげであなたを参照してください✌️