Pandens-Series知識点のまとめ
5082 ワード
1、Seriesの作成
リスト・padasによると、2つの主要なデータ構造があり、第一はSeriesであり、1次元配列に似たデータ構造であり、データのセットと関連するデータラベルのセットから構成されている.私たちは直接リストに基づいてSeriesを生成することができます.
インデックスは、相対位置の下付きまたはindexによってSeriesの要素にアクセスできます.
リスト・padasによると、2つの主要なデータ構造があり、第一はSeriesであり、1次元配列に似たデータ構造であり、データのセットと関連するデータラベルのセットから構成されている.私たちは直接リストに基づいてSeriesを生成することができます.
obj = pd.Series([4,7,-5,3])
obj
#
0 4
1 7
2 -5
3 3
dtype: int64
indexとvalues属性によって、objのインデックスと値が得られます.obj.index
#RangeIndex(start=0, stop=4, step=1)
obj.values
#array([ 4, 7, -5, 3])
索引はデフォルトでは0-n-1ですが、索引の値を指定できます.obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj2
#
d 4
b 7
a -5
c 3
dtype: int64
dictによって直接辞書dictでSeriesを作成できます.このとき辞書のキーは索引として、辞書の値は対応する値とします.sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
obj3 = pd.Series(sdata)
obj3
#
Ohio 35000
Oregon 16000
Texas 71000
Utah 5000
dtype: int64
辞書を使ってもインデックスを指定しても、インデックスにマッチする値が見つけられます.states = ['California','Ohio','Texas','Oregon']
obj4 = pd.Series(sdata,index = states)
obj4
#
California NaN
Ohio 35000.0
Texas 71000.0
Oregon 16000.0
dtype: float64
2、Seriesのいくつかの特性インデックスは、相対位置の下付きまたはindexによってSeriesの要素にアクセスできます.
obj2[2]
#-5
obj2['a']
#-5
obj2[['a','b','d']]
#
a -5
b 7
d 4
dtype: int64
スライスは下付きでスライスするのと違って、ラベルを使ってスライスする時、端は含まれます.obj['b':'c']
#
b 1.0
c 2.0
dtype: float64
再インデックスは、インデックスの値を変更するのではなく、reindex関数を使ってSeriesを再インデックスすることができます.obj2 = pd.Series([4,7,-5,3],index=['d','b','a','c'])
obj3 = obj2.reindex(['a','b','c','d','e'])
obj3
#
a -5.0
b 7.0
c 3.0
d 4.0
e NaN
dtype: float64
reindexを使用すると、追加されたインデックスが元のデータに値しない場合、その対応する値はNAになります.この時、私たちはfill_を使用することができます.value属性はデータを塗りつぶします.obj4 = obj2.reindex(['a','b','c','d','e'],fill_value=0)
obj4
#
a -5
b 7
c 3
d 4
e 0
dtype: int64
reindex関数は、まだ一つのmethod属性があります.差分値を充填しますが、インデックスは単調に増分されたり、単調に減少されたりしなければならないので、時間系列のような規則的なデータに一般的に使われます.# obj5 = obj2.reindex(['a','b','c','d','e'],method='ffill')
obj3 = pd.Series(['blue','Purple','yellow'],index = [0,2,4])
obj3.reindex(range(6),method='ffill')
#
0 blue
1 blue
2 Purple
3 Purple
4 yellow
5 yellow
dtype: object
データ演算は、インデックスと値の間のリンクを保持するSeriesのnumpyの配列演算(例えば、ブール型データに基づいてフィルタリング、スカラー乗算、数学関数の適用など)を行うことができます.np.exp(obj2)
#
d 54.598150
b 1096.633158
a 0.006738
c 20.085537
dtype: float64
Seriesは、インデックス値からデータ値へのマッピングであり、辞書パラメータが必要とされる多くの関数で使用されることができるので、一定長の秩序辞書として見なすことができます.b' in obj2
#True
Seriesの最も重要な機能は、算術演算において異なるインデックスのデータが自動的に配置されます.obj3 + obj4
#
California NaN
Ohio 70000.0
Oregon 32000.0
Texas 142000.0
Utah NaN
dtype: float64
ランキングと順位indexをインデックスに従って並べ替え、新しいオブジェクトを返します.obj = pd.Series(range(4),index=['d','a','b','c'])
obj.sort_index()
# :
a 1
b 2
c 3
d 0
dtype: int64
索引による並べ替え以外に、列の値によって並べ替えられます.obj.sort_values()
# :
d 0
a 1
b 2
c 3
dtype: int64
rank関数を使用するとランキング値が増加します.1から行列の中の有効データの数までは、フラットレベルの関係に対して、rankは各グループに平均順位を割り当てることによって、フラットレベルの関係を破壊します.この平均値を使いたくないなら、methodパラメータを使用して指定された方式で並べ替えられます.例えば、firstを使用すると、元のデータに値が現れた順にランキングを割り当てることができる.obj = pd.Series([7,-5,7,4,2,0,4])
obj.rank()
# :
0 6.5
1 1.0
2 6.5
3 4.5
4 3.0
5 2.0
6 4.5
dtype: float64
obj.rank(method='first')
#
0 6.0
1 1.0
2 7.0
3 4.0
4 3.0
5 2.0
6 5.0
dtype: float64
統計Seriesにおいてsum、mean、maxなどの方法が実現されたことをまとめて計算して説明します.ここでは、共分散と相関係数を求める方法を紹介します.Seriesのcor方法は、2つのSeriesに重複する非NAのインデックスで配列された値の相関係数を計算するために用いられます.これと同様に、covは共分散を計算するために使用されます.obj1 = pd.Series(np.arange(10),index = list('abcdefghij'))
obj2 = pd.Series(np.arange(12),index = list('cdefghijklmn'))
obj1.corr(obj2)
#1.0
obj1.cov(obj2)
#6.0
一意数、値カウントuniqueは、並べ替えなしの一意値配列を返します.counts()は各数のカウントを返します.obj = pd.Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique()
uniques
#array(['c', 'a', 'd', 'b'], dtype=object)
#value_counts()
obj.value_counts()
#
a 3
c 3
b 2
d 1
dtype: int64
欠落データPandsにおける欠損値に関する処理方法は主に以下の3つがある.isnull方法はデータが空のデータかどうかを判断するために用いられる.fillna方法は欠落データを埋めるために使用される.dropna方法は、欠落したデータを捨てるために使用されます.前の二つの方法は新しいSeriesまたはDataFrameを返します.元のデータに影響がありません.元のデータに直接修正したいなら、inplaceパラメータを使います.data = pd.Series([1,np.nan,3.5,np.nan,7])
data.fillna(0)
#
0 1.0
1 0.0
2 3.5
3 0.0
4 7.0
dtype: float64