pandasの由来と応用
19654 ワード
転載先:https://blog.csdn.net/liufang0001/article/details/77856255/pandasは、データ分析タスクを解決するために作成されたNumPyベースのツールです.Pandasは大量のライブラリといくつかの標準的なデータモデルを組み込み、大規模なデータセットを効率的に操作するために必要なツールを提供しています.pandasは、データを迅速かつ容易に処理できる多くの関数と方法を提供しています.すぐに、Pythonを強力で効率的なデータ分析環境にする重要な要素の一つであることがわかります.Pandasは最初に金融データ分析ツールとして開発されたので,pandasは時間系列分析に良いサポートを提供した.Pandasの名前はパネルデータ(panel data)とpythonデータ分析(data analysis)から来ています.panel dataは経済学における多次元データセットに関する用語であり、Pandasにおいてもpanelのデータ型が提供される.Series:Numpyの1次元arrayに似た1次元配列.両者はPythonの基本的なデータ構造リストにも近い.Seriesは現在、異なるデータ型を保存することができ、文字列、boolean値、数字などをSeriesに保存することができます.Time-Series:時間をインデックスとするSeries.DataFrame:2 Dの表型データ構造.多くの機能とRのdata.frameは似ています.DataFrameはSeriesのコンテナとして理解できます.以下の内容は主にDataFrameがメインです.Panel:3次元の配列で、DataFrameの容器と理解できます.一、データテーブル1を生成し、まずpandasライブラリをインポートし、一般的にnumpyライブラリを使用するので、まず代替をインポートします.
2、CSVファイルまたはxlsxファイルまたはtxtファイルをインポートする:
3、pandasでデータテーブルを作成する:
4、データテーブル情報表示4.1、次元表示:
4.2、データテーブルの基本情報(次元、列名、データフォーマット、占有スペースなど):
4.3、各列のデータのフォーマット:
4.4、ある列のフォーマット:
4.5、Null値:
4.6、列の空の値を表示する:
4.7、列の一意の値を表示する:
4.8、データテーブルの値を表示する:
4.9、列名の表示:
4.10、前の10行のデータ、後の10行のデータを表示する:
三、データテーブル洗浄1、数字0で空の値を充填する:
2、列princeの平均値を使用してNAを充填する:
3、cityフィールドの文字スペースを明確にする:
4、大文字と小文字の変換:
5、データフォーマットの変更:
6、列名の変更:
7、削除後の重複値:
8、先に現れた重複値を削除する:
9、データ置換:
四、データの前処理
1、データテーブルの連結
2、索引列の設定
3、特定の列の値によって並べ替える:
4、索引列による並べ替え:
5、prince列の値>3000の場合、group列はhighを表示し、そうでなければlowを表示する.
6、複合複数条件のデータをグループ化する
7、categoryフィールドの値を順次列分けし、データテーブルを作成し、インデックス値はdf_innerのインデックス列、カラム名categoryとsize
8、分割完了後のデータテーブルと元のdf_Innerデータテーブルのマッチング
五、データ抽出に主に用いられる三つの関数:loc、ilocとix、loc関数はラベル値によって抽出し、ilocは位置によって抽出し、ixは同時にラベルと位置によって抽出することができる.1、索引ごとに単行の数値を抽出する
2、索引ごとに領域の行の数値を抽出する
3、索引のリセット
4、日付を索引とする
5、4日前のすべてのデータを抽出する
6、ilocを使用して位置領域ごとにデータを抽出する
7、ilocに適応して位置別にデータを持ち出す
8、ixを使用してインデックスラベルと位置を混合してデータを抽出する
9、city列の値が北京かどうかを判断する
10、city列にbeijingとshanghaiが含まれているかどうかを判断し、条件に合致するデータを抽出する
11.最初の3文字を抽出し、データテーブルを生成する
六、データフィルタリングは、3つの条件と組み合わせて、より大きく、より小さく、等しいデータをフィルタリングし、カウントと合計を行う.1、「与」でフィルタする
2、「または」でフィルタする
3、「非」条件によるフィルタリング
4、フィルタされたデータをcity列でカウントする
5、query関数によるフィルタリング
6、スクリーニング後の結果をprinceで合計する
七、データ要約の主な関数はgroupbyとpivote_である.table 1、すべての列をカウントするまとめ
2、都市別idフィールドをカウントする
3、二つのフィールドをまとめてカウントする
4、cityフィールドをまとめ、princeの合計と平均値をそれぞれ計算する
八、データ統計データサンプリング、計算標準差、共分散と相関係数1、簡単なデータサンプリング
2、サンプリングウェイトを手動で設定する
3、サンプリング後に戻さない
4、サンプリング後に戻す
5、データテーブル記述性統計
6、計算列の標準差
7、二つのフィールド間の共分散を計算する
8、データテーブルのすべてのフィールド間の共分散
9、2つのフィールドの相関分析
10、データテーブルの相関分析
九、データ出力分析後のデータはxlsx形式とcsv形式の1、Excelに書き込むことができる
2、CSVに書き込む
import numpy as np
import pandas as pd
2、CSVファイルまたはxlsxファイルまたはtxtファイルをインポートする:
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))
df = pd.read_table('C:\\Users\\hh\\Desktop\\data\\ip_packetbefore_header.txt',usecols=[4,5,8,9],names=['second','millisecond','packet_len','packet_id'])# table , sep=','
3、pandasでデータテーブルを作成する:
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])
4、データテーブル情報表示4.1、次元表示:
df.shape
4.2、データテーブルの基本情報(次元、列名、データフォーマット、占有スペースなど):
df.info()
4.3、各列のデータのフォーマット:
df.dtypes
4.4、ある列のフォーマット:
df['B'].dtype
4.5、Null値:
df.isnull()
4.6、列の空の値を表示する:
df.isnull()
4.7、列の一意の値を表示する:
df['B'].unique()
4.8、データテーブルの値を表示する:
df.values
4.9、列名の表示:
df.columns
4.10、前の10行のデータ、後の10行のデータを表示する:
df.head() # 10
df.tail() # 10
三、データテーブル洗浄1、数字0で空の値を充填する:
df.fillna(value=0)
2、列princeの平均値を使用してNAを充填する:
df['prince'].fillna(df['prince'].mean())
3、cityフィールドの文字スペースを明確にする:
df['city']=df['city'].map(str.strip)
4、大文字と小文字の変換:
df['city']=df['city'].str.lower()
5、データフォーマットの変更:
df['price'].astype('int')
6、列名の変更:
df.rename(columns={'category': 'category-size'})
7、削除後の重複値:
df['city'].drop_duplicates()
8、先に現れた重複値を削除する:
df['city'].drop_duplicates(keep='last')
9、データ置換:
df['city'].replace('sh', 'shanghai')
四、データの前処理
df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})
1、データテーブルの連結
df_inner=pd.merge(df,df1,how='inner') # ,
df_left=pd.merge(df,df1,how='left') #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #
df_right = pd.merge(df, df1, how='left', on=['ip_src', 'ip_dst','next_packet_id']) # ,
2、索引列の設定
df_inner.set_index('id')
3、特定の列の値によって並べ替える:
df_inner.sort_values(by=['age'])
4、索引列による並べ替え:
df_inner.sort_index()
5、prince列の値>3000の場合、group列はhighを表示し、そうでなければlowを表示する.
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')
6、複合複数条件のデータをグループ化する
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1
7、categoryフィールドの値を順次列分けし、データテーブルを作成し、インデックス値はdf_innerのインデックス列、カラム名categoryとsize
pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))
8、分割完了後のデータテーブルと元のdf_Innerデータテーブルのマッチング
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)
五、データ抽出に主に用いられる三つの関数:loc、ilocとix、loc関数はラベル値によって抽出し、ilocは位置によって抽出し、ixは同時にラベルと位置によって抽出することができる.1、索引ごとに単行の数値を抽出する
df_inner.loc[3]
2、索引ごとに領域の行の数値を抽出する
df_inner.iloc[0:5]
3、索引のリセット
df_inner.reset_index()
4、日付を索引とする
df_inner=df_inner.set_index('date')
5、4日前のすべてのデータを抽出する
df_inner[:'2013-01-04']
6、ilocを使用して位置領域ごとにデータを抽出する
df_inner.iloc[:3,:2] # , , 0 , , 。
7、ilocに適応して位置別にデータを持ち出す
df_inner.iloc[[0,2,5],[4,5]] # 0、2、5 ,4、5
8、ixを使用してインデックスラベルと位置を混合してデータを抽出する
df_inner.ix[:'2013-01-03',:4] #2013-01-03 ,
9、city列の値が北京かどうかを判断する
df_inner['city'].isin(['beijing'])
10、city列にbeijingとshanghaiが含まれているかどうかを判断し、条件に合致するデータを抽出する
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
11.最初の3文字を抽出し、データテーブルを生成する
pd.DataFrame(category.str[:3])
六、データフィルタリングは、3つの条件と組み合わせて、より大きく、より小さく、等しいデータをフィルタリングし、カウントと合計を行う.1、「与」でフィルタする
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]
2、「または」でフィルタする
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']].sort(['age'])
3、「非」条件によるフィルタリング
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])
4、フィルタされたデータをcity列でカウントする
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()
5、query関数によるフィルタリング
df_inner.query('city == ["beijing", "shanghai"]')
6、スクリーニング後の結果をprinceで合計する
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
七、データ要約の主な関数はgroupbyとpivote_である.table 1、すべての列をカウントするまとめ
df_inner.groupby('city').count()
2、都市別idフィールドをカウントする
df_inner.groupby('city')['id'].count()
3、二つのフィールドをまとめてカウントする
df_inner.groupby(['city','size'])['id'].count()
4、cityフィールドをまとめ、princeの合計と平均値をそれぞれ計算する
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
八、データ統計データサンプリング、計算標準差、共分散と相関係数1、簡単なデータサンプリング
df_inner.sample(n=3)
2、サンプリングウェイトを手動で設定する
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
3、サンプリング後に戻さない
df_inner.sample(n=6, replace=False)
4、サンプリング後に戻す
df_inner.sample(n=6, replace=True)
5、データテーブル記述性統計
df_inner.describe().round(2).T #round ,T
6、計算列の標準差
df_inner['price'].std()
7、二つのフィールド間の共分散を計算する
df_inner['price'].cov(df_inner['m-point'])
8、データテーブルのすべてのフィールド間の共分散
df_inner.cov()
9、2つのフィールドの相関分析
df_inner['price'].corr(df_inner['m-point']) # -1 1 , 1 , -1 ,0
10、データテーブルの相関分析
df_inner.corr()
九、データ出力分析後のデータはxlsx形式とcsv形式の1、Excelに書き込むことができる
df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
2、CSVに書き込む
df_inner.to_csv('excel_to_python.csv')