パンダのカンニングペーパー:トップ35のコマンドと操作
30532 ワード
パンダはPythonでのデータ解析の最も人気のあるツールの一つです.このオープンソースライブラリは、多くのデータプロジェクトのバックボーンであり、データのクリーニングとデータ操作に使用されます.パンダを使用すると、複雑なデータセットをより大きく制御できます.これは、データ解析ツールベルトで不可欠なツールです.パンダを使用していない場合は、データを最大限に活用していません.
私の他の記事ではPandas for Python Tutorial , 私は、あなたを始めるために、パンダのすべての基礎を経験しました.このポストでは、どんなパンダのユーザーが知っている必要がある35の最も重要な操作とコマンドをコンパイルしました.この記事はパンダの学習者の迅速な検索回答を探しています.これ以上の複雑なドキュメント!答えを正しましょう.
Pandas import convention Create and name a Series Create a DataFrame Specify values in DataFrame columns Read and Write to CSV file Read and write to Excel file Read and write to SQL Query Get the first element of a Series Get the first 5 elements of a Series Get the last 5 elements in a Series Select a single value position Select a single value by label Access a DataFrame with a boolean index Drop values from rows Drop values from columns Create a new column in a DataFrame Rename columns in a DataFrame Sort Series by labels along an axis Sort values along an axis (ascending order) Adding ranks to particular entries Retrieve rows and columns description Describe columns of DataFrame Retrieve index description Get information on DataFrame Retried number of non- Get sum of values Subtract/Add 2 from all values Multiply/Divide all values by 2 Find min/max values of a DataFrame Get min/max index values Get median or mean of values Describe a summary of data statistics Apply a function to a dataset Merge two DataFrames Combine DataFrames across columns or rows: concatenation Wrap up and resources
任意のデータ型を保持する1次元配列を作成します.呼び出す
カラムで2次元データ構造を作成します.を作成し、印刷する
データを列で整理する方法を指定します.
CSVファイルを開き、データをコピーし、メモ帳に貼り付け、Pythonスクリプトを格納する同じディレクトリに保存します.用途
呼び出し
パンダは0でインデックスされているので
用途
用途
ブールインデックスでは、ブールベクトルを持つデータをフィルタリングします.
インデックスラベルで並べ替えシリーズを返し、inplace引数が
列をランク付けし、ランクを追加する方法を指定します.
Pythonで一般的な操作とコマンドで武装しているので、実際に実行できます.結局のところ、実際のデータセットでの作業は、Pythonをマスターし、データアナリストになるための最良の方法です!私たちが今日カバーしていなかったことを学ぶためにまだ多くのことがあります. 統計 麻痺 マトプロップリブ データランニング データの視覚化 データ掻き取り シーフード サイエンスセンター その他 貿易のこれらの重要なツールを開始するには、教育のコースをチェックアウトPredictive Data Analysis for Python . あなたは業界標準の例と実践に手を取得し、流暢にデータ分析になる.
Data Analysis Made Simple: Python Pandas Tutorial
Master Algorithms with Python for Coding Interviews
Stop Using Excel for Data Analytics: Upgrade to Python
私の他の記事ではPandas for Python Tutorial , 私は、あなたを始めるために、パンダのすべての基礎を経験しました.このポストでは、どんなパンダのユーザーが知っている必要がある35の最も重要な操作とコマンドをコンパイルしました.この記事はパンダの学習者の迅速な検索回答を探しています.これ以上の複雑なドキュメント!答えを正しましょう.
データ分析用マスターPython
Learn the tools of the trade: Pandas, NumPy, Matplotlib, and Seaborn
NA
values パンダ輸入条約
import pandas as pd
パンダは現在、頭字語でアクセス可能ですpd
. また、組み込みのPython PIPを使用してPandasをインストールすることもできます.$ pip install pandas
シリーズ名の作成と名前
任意のデータ型を保持する1次元配列を作成します.呼び出す
pd.Series()
そして、値のリストを渡します.パンダはデフォルト値を0からカウントします.series1 = pd.Series([1,2,3,4]), index=['a', 'b', 'c', 'd'])
シリーズ名を設定するsrs.name = "Insert name"
インデックス名を設定します.srs.index.name = "Index name"
データを作成する
カラムで2次元データ構造を作成します.を作成し、印刷する
df
.df = pd.DataFrame(
{"a" : [1 ,2, 3],
"b" : [7, 8, 9],
"c" : [10, 11, 12]}, index = [1, 2, 3])
データファイル列の値を指定する
データを列で整理する方法を指定します.
df = pd.DataFrame(
[[1, 2, 3],
[4, 6, 8],
[10, 11, 12]],
index=[1, 2, 3],
columns=['a', 'b', 'c'])
CSVファイルに読み書きする
CSVファイルを開き、データをコピーし、メモ帳に貼り付け、Pythonスクリプトを格納する同じディレクトリに保存します.用途
read_csv
関数をパンダにビルドし、インデックスを作成します.import pandas as pd
data = pd.read_csv('file.csv')
data = pd.read_csv("data.csv", index_col=0)
Excelファイルへの読み書き
呼び出し
read_excel
Excelファイルにアクセスする関数.Excelファイルの名前を引数として渡します.pd.read_excel('file.xlsx')
df.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet2')
SQLクエリを読み書きする
from sqlalchemy import create_engine
engine = create_engine('sqlite:///:memory:')
pd.read_sql("SELECT * FROM my_table;", engine)
pd.read_sql_table('my_table', engine)
pd.read_sql_query("SELECT * FROM my_table;", engine)
(read_sql()
便利なラッパですread_sql_table()
and read_sql_query())
df.to_sql('myDf', engine)
シリーズの最初の要素を取得する
パンダは0でインデックスされているので
ser[0]
.import pandas as pd
df = pd.read_csv
df['Name'].head(10)
# get the first element
ser[0]
シリーズの最初の5つの要素を取得する
用途
ser[:n]
シリーズの最初の$ n $要素を得るために.import pandas as pd
df = pd.read_csv
df['Name'].head(10)
ser[:5]
シリーズの最後の5つの要素を取得する
用途
ser[-n:]
シリーズの最後の$ n $要素を得るために.import pandas as pd
df = pd.read_csv
df['Name'].head(10)
ser[-5:]
単一の値位置を選択する
df.iloc[[0],[0]] 'Name'
df.iat([0],[0]) 'Name'
ラベルで単一の値を選択する
df.loc[[0], ['Label']] 'Name'
df.at([0], ['Label']) 'Name'
データインデックスをブール値でアクセスする
ブールインデックスでは、ブールベクトルを持つデータをフィルタリングします.
import pandas as pd
# dictionary of lists
dict = {'name':["name1", "name2", "name3", "name4"],
'degree': ["degree1", "degree2", "degree3", "degree4"],
'score':[1, 2, 3, 4]}
df = pd.DataFrame(dict, index = [True, False, True, False])
print(df)
行から値を削除する
s.drop(['a', 'c'])
カラムから値を削除する
df.drop('Value', axis=1)
DataFrameに新しい列を作成する
df['New Column'] = 0
学習を続ける。
Learn Pandas and Data Analysis without scrubbing through videos or documentation. Educative's text-based courses are easy to skim and feature live coding environments, making learning quick and efficient.
データファイル内の列の名前を変更する
df.columns = ['Column 1', 'Column 2', 'Column 3']
軸に沿ったラベルによるソートシリーズ
インデックスラベルで並べ替えシリーズを返し、inplace引数が
False
, さもなければ、それは元のシリーズとリターンを更新しますNone
.Series.sort_index(self, axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)
軸に沿って値を並べる
df.sort_values(by='Values')
# descending order
df.sort_values(ascending = False)
特定のエントリにランクを追加する
列をランク付けし、ランクを追加する方法を指定します.
df.rank()
行と列の説明を取得する
df.shape
データフレームの列を記述する
df.columns
インデックスの取得
df.index
データを取得する
df.info()
非NA値の数を取得する
df.count()
値の合計を得る
df.sum()
# cumulative sum
df.cumsum()
すべての値から
s.sub(2)
s.add(2)
乗算/分割すべての値
s.mul(2)
s.div(2)
データフレームの最小値/最大値を見つける
df.min()
df.max()
min / maxインデックス値を取得する
df.idxmin()
df.idxmax()
中央値または平均値を取得する
df.mean()
df.median()
データ統計の概要を記述する
df.describe()
データセットに関数を適用する
f = # write function here
df.apply(f)
# apply a function by an element
f = # write function here
df.applymap(f)
二つのデータを統合する
pd.merge(df1, df2, on='subject_id')
データ列を列または行に結合します
print(pd.concat([df1, df2]))
ラッピングと資源
Pythonで一般的な操作とコマンドで武装しているので、実際に実行できます.結局のところ、実際のデータセットでの作業は、Pythonをマスターし、データアナリストになるための最良の方法です!私たちが今日カバーしていなかったことを学ぶためにまだ多くのことがあります.
読み続ける
Reference
この問題について(パンダのカンニングペーパー:トップ35のコマンドと操作), 我々は、より多くの情報をここで見つけました https://dev.to/educative/pandas-cheat-sheet-top-35-commands-and-operations-bgeテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol