pythonデータマイニングデータ分析pandasの紹介と簡単な例

851 ワード

pandasはpythonの下で最も有力なデータマイニングとデータ分析のツールの一つであり、SQLのようなデータベースの増加、削除、検索、変更をサポートし、豊富なデータ処理関数を持ち、時間系列の分析機能をサポートし、欠落したデータの柔軟な処理をサポートする.pandasの基本的なデータ構造はSeriesとDataFrameで、seriesはシーケンスで、1次元配列に似ていて、dataframeは1枚の2次元の表に相当して、2次元配列に似ていて、その各列はすべて1つのseriesに相当して、seriesの中の要素を位置決めするために、pandasはindexオブジェクトを提供して、各seriesはすべて1つの対応するindexを持っていて、異なる要素をマークするために、indexの内容は必ずしも数字ではなく、アルファベット、中国語などであってもよく、SQLのプライマリ・キーに類似しており、dataframeは同じindexを複数持つseriesの組合せ(本質的にseriesの容器)に相当し、各seriesには異なるseriesを識別するための唯一のヘッダーがある.
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])
d2 = pd.DataFrame(s)
d.head()
d.describe()
print(d)
print(d2)

#pd.read_excel('data.xls')
#pd.read_csv('data.csv', encoding='utf-8')