パンダ:シリーズとデータフレーム


パンダはデータの格納と操作のために2つの基本的なデータ構造、dataframeとシリーズを使用します.それぞれの混合物や化合物のデータ構造dictionaries and lists . つまり、Pandasのデータ構造の要素は、数値インデックスと同様にキー値を介してアクセスできます.
残りの部分はパンダライブラリをインポートしましょう.
import pandas as pd

シリーズ


技術的には、インデックス名、データ型、配列名のようないくつかのデータ属性を付加した値の1次元配列を保持することが必要です.
シリーズを作成するには、pd.Series() 通常、2つの引数を使用して一連を作成します.最初の引数はデータ値の配列を渡すために使用され、2番目のオプション引数はインデックス名の配列を渡すために使用されます.番目の引数もあります.
あなたがシリーズをつくることができる若干の方法は、ここにあります:
tweet = pd.Series(["My first tweet", 20, 4],
                  index=["message", "likes", "retweets"],
                  name="Tweet Data")

letters = pd.Series(['a', 'b', 'c', 'd'],
                    index=range(4))

ranking = pd.Series(["A. Einstein", "I. Newton",
                     "N. Tesla", "Heisenberg"],
                    index=[1, 2, 3, 4], name="Scientists")

countries = pd.Series(["India", "Russia", "Japan", "China"])
出力print(tweet) になります.

どのようにインデックス名と全体のシリーズの名前を指定できますか?
これらのインデックス名を使用すると、現在、シリーズ内の個々の要素にアクセスできます.実際には、個々の要素にアクセスするための三つの方法があります.つまり、四角形括弧演算子の内部でインデックス名を指定するのには、ドット演算子(名前が空白を含んでいない場合のみ)と、Pythonのリストインデクシングを使用してインデックス名を使用します.
print(tweet["message"]) # Output : "My first tweet"
print(tweet.likes) # Output : 20
print(tweet[2]) # Output : 4

データフレーム


Dataframeは、技術的にシリーズのコレクションです、あるいは、他の語で、多くのシリーズは一緒に接着しました.平行線を描くために、2次元配列や行列として考えることができます.しかし、それは配列または行列よりずっと多く、データafameはちょうどデータの2 - 2次元より非常に多くを持つことができます.
DataFrameを構築するには、非常に驚くほどではなく、DataFrameコンストラクタを使用しますpd.DataFrame() . DataFrameコンストラクターは、1つの位置といくつかのキーワード引数を取りますが、通常使用する3つの引数があります.最初の引数は、各キー値ペアが列を表す1次元配列を含む辞書を取ります.2番目の引数は列の名前をとります.そして、3番目の引数はインデックスの名前を含むリストを受け取ります.
例えば
sales = pd.DataFrame({"Laptops" : [100, 110, 20],
                      "Mobiles" : [30, 35, 4],
                      "Earphones" : [150, 120, 40]},
                     columns={"Laptops", "Mobiles", "Earphones"},
                     index=["2018", "2019", "2020"])
sales
出力:

DataFrameコンストラクタと同じように、我々はシリーズのコンストラクタと同じように再生できます.DataFrameの個々の列には、四角形括弧演算子またはドット演算子のいずれかの列名をインデックスによってアクセスできます.
print(sales["Mobiles"], '\n')
print(sales.Earphones)
出力:

さて、DataFrame内の個々のデータ要素にアクセスするには、次の2つのメソッドを使用します.iloc and loc .
ILOC :これは標準的なPythonのマトリックスのゼロベースのインデックスにデータグラムのインデックスを減らします.これは、角括弧で動作します.
即ち、
sales.iloc[0][2] # Output : 150. Laptop Sales in 2018
sales.iloc[0][0] # Output : 100.  Mobile Sales in 2018
sales.iloc[2][2] # Output : 40   Earphone Sales in 2020
注意: ILOCメソッドは数値インデックスのみで動作します.
LOC :データフレーム内の要素にアクセスする柔軟な方法を提供します.Numpy配列に精通しているなら、要素にアクセスするこのメソッドはNumpy配列インデックスと非常に類似しています.これにより、インデックスと列の両方のラベルを使用して要素にアクセスできます.つまり、
sales.loc['2018', 'Mobiles']            # Output : 30
sales.loc['2020', 'Earphones']          # Output : 40
sales.loc[['2018', '2020'], 'Laptops'] 
# Output :
# 2018    100
# 2020     20
# Name: Laptops, dtype: int64
The loc また、引数としてブール値の配列を取りますが、別の記事を保存しましょう.
読書ありがとう.
宜しく
Suraj upadhyay