DataFrameの作成:pythonで辞書でDFデータフレームを初期化する


DataFrameはpandasデータ処理でよく用いられるデータ構造である.私たちはDataFrameを2次元データテーブルと見なすことができ、Series数構造に比べて、DataFrameは複数の列からなることができるので、彼の機能はSeriesよりも強く、DataFrameをexcelテーブルのsheetと見なすことができ、それを使って元のexcelが手動で完成しなければならない仕事をたくさん完成することができ、データ処理の自動化を実現することができ、考えてみると興奮しています.まず、DataFrameデータ構造を作成する方法を学び、pythonでは辞書をパラメータとして使用し、DataFrameの構築関数を使用してデータフレームを初期化することができます.この点は実はSeriesデータ構造も同じです.特に注意したいのは、DataFrameのDとFは大文字で、実はSeriesのSも大文字で、大文字でないとpythonがエラーを報告します.以下のコードを使用してデモを行うことができます.
import pandas as pd
dict_data = {
	'student':["Li Lei","Han Meimei","Tom"],
	'score'	:[95,98,92],
	'gender':['M','F','M']
}

df_data = pd.DataFrame(dict_data)
print(df_data)

実行後、次の結果が得られます.
      student  score gender
0      Li Lei     95      M
1  Han Meimei     98      F
2         Tom     92      M
[Finished in 3.9s]

この辞書のkey値は、DataFrameデータの各列のヘッダとして、データベースの規定に従ってフィールドと呼ぶことができ、DFデータではcolumnsパラメータを使用してこれらのヘッダ情報を格納していることがわかります.辞書のvalueはリストで、リストのn番目の要素はこのフィールドの下のn番目の行の値に対応しています.DFはindexインデックス、すなわち0列目の数値番号0/1/2を自動的に生成することに気づいた.これは行番号のインデックスにも使えます.もちろんインデックスを変更することもできます.これはSeriesと同じです.
データの結果を見ると、確かにexcelテーブルに似ています.nice!