パンダのカンニングペーパー:トップ35のコマンドと操作


パンダはPythonでのデータ解析の最も人気のあるツールの一つです.このオープンソースライブラリは、多くのデータプロジェクトのバックボーンであり、データのクリーニングとデータ操作に使用されます.パンダを使用すると、複雑なデータセットをより大きく制御できます.これは、データ解析ツールベルトで不可欠なツールです.パンダを使用していない場合は、データを最大限に活用していません.
私の他の記事ではPandas for Python Tutorial , 私は、あなたを始めるために、パンダのすべての基礎を経験しました.このポストでは、どんなパンダのユーザーが知っている必要がある35の最も重要な操作とコマンドをコンパイルしました.この記事はパンダの学習者の迅速な検索回答を探しています.これ以上の複雑なドキュメント!答えを正しましょう.

データ分析用マスターPython

Learn the tools of the trade: Pandas, NumPy, Matplotlib, and Seaborn

Predictive Data Analysis with Python

  • Pandas import convention
  • Create and name a Series
  • Create a DataFrame
  • Specify values in DataFrame columns
  • Read and Write to CSV file
  • Read and write to Excel file
  • Read and write to SQL Query
  • Get the first element of a Series
  • Get the first 5 elements of a Series
  • Get the last 5 elements in a Series
  • Select a single value position
  • Select a single value by label
  • Access a DataFrame with a boolean index
  • Drop values from rows
  • Drop values from columns
  • Create a new column in a DataFrame
  • Rename columns in a DataFrame
  • Sort Series by labels along an axis
  • Sort values along an axis (ascending order)
  • Adding ranks to particular entries
  • Retrieve rows and columns description
  • Describe columns of DataFrame
  • Retrieve index description
  • Get information on DataFrame
  • Retried number of non- NA values
  • Get sum of values
  • Subtract/Add 2 from all values
  • Multiply/Divide all values by 2
  • Find min/max values of a DataFrame
  • Get min/max index values
  • Get median or mean of values
  • Describe a summary of data statistics
  • Apply a function to a dataset
  • Merge two DataFrames
  • Combine DataFrames across columns or rows: concatenation
  • Wrap up and resources
  • パンダ輸入条約


    import pandas as pd
    
    パンダは現在、頭字語でアクセス可能ですpd . また、組み込みのPython PIPを使用してPandasをインストールすることもできます.
    $ pip install pandas
    

    シリーズ名の作成と名前


    任意のデータ型を保持する1次元配列を作成します.呼び出すpd.Series() そして、値のリストを渡します.パンダはデフォルト値を0からカウントします.
    series1 = pd.Series([1,2,3,4]), index=['a', 'b', 'c', 'd'])
    
    シリーズ名を設定する
    srs.name = "Insert name"
    
    インデックス名を設定します.
    srs.index.name = "Index name"
    

    データを作成する


    カラムで2次元データ構造を作成します.を作成し、印刷するdf .
    df = pd.DataFrame(
             {"a" : [1 ,2, 3],
              "b" : [7, 8, 9],
              "c" : [10, 11, 12]},        index = [1, 2, 3])
    

    データファイル列の値を指定する


    データを列で整理する方法を指定します.
    df = pd.DataFrame( 
         [[1, 2, 3], 
         [4, 6, 8],
         [10, 11, 12]],
         index=[1, 2, 3], 
         columns=['a', 'b', 'c'])
    

    CSVファイルに読み書きする


    CSVファイルを開き、データをコピーし、メモ帳に貼り付け、Pythonスクリプトを格納する同じディレクトリに保存します.用途read_csv 関数をパンダにビルドし、インデックスを作成します.
    import pandas as pd
    data = pd.read_csv('file.csv')
    
    data = pd.read_csv("data.csv", index_col=0)
    

    Excelファイルへの読み書き


    呼び出しread_excel Excelファイルにアクセスする関数.Excelファイルの名前を引数として渡します.
    pd.read_excel('file.xlsx')
    
    df.to_excel('dir/myDataFrame.xlsx',  sheet_name='Sheet2')
    

    SQLクエリを読み書きする


    from sqlalchemy import create_engine
    engine = create_engine('sqlite:///:memory:')
    pd.read_sql("SELECT * FROM my_table;", engine)
    pd.read_sql_table('my_table', engine)
    pd.read_sql_query("SELECT * FROM my_table;", engine)
    
    (read_sql() 便利なラッパですread_sql_table() and read_sql_query())
    df.to_sql('myDf', engine)
    

    シリーズの最初の要素を取得する


    パンダは0でインデックスされているのでser[0] .
    import pandas as pd  
    
    df = pd.read_csv  
    
    df['Name'].head(10) 
    
    # get the first element 
    ser[0]
    

    シリーズの最初の5つの要素を取得する


    用途ser[:n] シリーズの最初の$ n $要素を得るために.
    import pandas as pd  
    
    df = pd.read_csv  
    
    df['Name'].head(10) 
    
    ser[:5]
    

    シリーズの最後の5つの要素を取得する


    用途ser[-n:] シリーズの最後の$ n $要素を得るために.
    import pandas as pd  
    
    df = pd.read_csv 
    
    df['Name'].head(10) 
    
    ser[-5:] 
    

    単一の値位置を選択する


    df.iloc[[0],[0]] 'Name'
    df.iat([0],[0]) 'Name'
    

    ラベルで単一の値を選択する


    df.loc[[0], ['Label']] 'Name'
    df.at([0], ['Label']) 'Name'
    

    データインデックスをブール値でアクセスする


    ブールインデックスでは、ブールベクトルを持つデータをフィルタリングします.
    import pandas as pd 
    
    # dictionary of lists 
    dict = {'name':["name1", "name2", "name3", "name4"], 
            'degree': ["degree1", "degree2", "degree3", "degree4"], 
            'score':[1, 2, 3, 4]} 
    
    df = pd.DataFrame(dict, index = [True, False, True, False]) 
    
    print(df) 
    

    行から値を削除する


    s.drop(['a', 'c'])
    

    カラムから値を削除する


    df.drop('Value', axis=1)
    

    DataFrameに新しい列を作成する


    df['New Column'] = 0
    

    学習を続ける。

    Learn Pandas and Data Analysis without scrubbing through videos or documentation. Educative's text-based courses are easy to skim and feature live coding environments, making learning quick and efficient.

    Predictive Data Analysis with Python


    データファイル内の列の名前を変更する


    df.columns = ['Column 1', 'Column 2', 'Column 3']
    

    軸に沿ったラベルによるソートシリーズ


    インデックスラベルで並べ替えシリーズを返し、inplace引数がFalse , さもなければ、それは元のシリーズとリターンを更新しますNone .
    Series.sort_index(self, axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)
    

    軸に沿って値を並べる


    df.sort_values(by='Values')
    
    # descending order
    df.sort_values(ascending = False)
    

    特定のエントリにランクを追加する


    列をランク付けし、ランクを追加する方法を指定します.
    df.rank()
    

    行と列の説明を取得する


    df.shape
    

    データフレームの列を記述する


    df.columns
    

    インデックスの取得


    df.index
    

    データを取得する


    df.info()
    

    非NA値の数を取得する


    df.count()
    

    値の合計を得る


    df.sum()
    
    # cumulative sum
    
    df.cumsum()
    

    すべての値から


    s.sub(2)
    
    s.add(2)
    

    乗算/分割すべての値


    s.mul(2)
    
    s.div(2)
    

    データフレームの最小値/最大値を見つける


    df.min()
    
    df.max()
    

    min / maxインデックス値を取得する


    df.idxmin()
    
    df.idxmax()
    

    中央値または平均値を取得する


    df.mean()
    
    df.median()
    

    データ統計の概要を記述する


    df.describe()
    

    データセットに関数を適用する


    f = # write function here
    df.apply(f)
    
    # apply a function by an element 
    
    f = # write function here
    df.applymap(f)
    

    二つのデータを統合する


    pd.merge(df1, df2, on='subject_id')
    

    データ列を列または行に結合します


    print(pd.concat([df1, df2]))
    

    ラッピングと資源


    Pythonで一般的な操作とコマンドで武装しているので、実際に実行できます.結局のところ、実際のデータセットでの作業は、Pythonをマスターし、データアナリストになるための最良の方法です!私たちが今日カバーしていなかったことを学ぶためにまだ多くのことがあります.
  • 統計
  • 麻痺
  • マトプロップリブ
  • データランニング
  • データの視覚化
  • データ掻き取り
  • シーフード
  • サイエンスセンター
  • その他
  • 貿易のこれらの重要なツールを開始するには、教育のコースをチェックアウトPredictive Data Analysis for Python . あなたは業界標準の例と実践に手を取得し、流暢にデータ分析になる.

    読み続ける

  • Data Analysis Made Simple: Python Pandas Tutorial
  • Master Algorithms with Python for Coding Interviews
  • Stop Using Excel for Data Analytics: Upgrade to Python