numpy pandasデータ処理操作概要

7270 ワード

  • ファイルを開く
  • a = pd.read_csv('a.txt', header = None, sep = '[_\t]+')
    

    ヘッダー制御ファイルに列名が含まれているかどうか、sep制御区分方式、正規表現を使用できます
  • ファイルマージ
  • c = pd.concat([a,b])
    

    同じ列の2つのファイルの縦方向接続
  • ファイルソート
  • a = a.sort_values(['col1','col2'])
    

    まず、「col 1」の値に基づいてソートし、「col 1」の値が同じであれば「col 2」の値に基づいてソートする
  • 数値統計
  • b = a['col1'].value_counts()
    

    統計a'col 1'の列の数値分布出力bは、b.indexがa['col 1']の各値であり、b.valuesが各値に対応する出現回数である
  • isin
  • a['col1'].isin(b)
    

    a'col 1'の列の各項目がbにあるかどうかを判断する
  • 分布ヒストグラム
  • a = np.array([22,87,5,43,56,73,55,54,11,20,51,5,79,31,27]) 
    plt.hist(a, bins =  [0,20,40,60,80,100]) 
    plt.title("histogram") 
    plt.show()
    
  • 空かどうかを判断:
  • pd.isnull(a)
    

    空に設定:
    a['col1'][0] = np.nan
    
  • 重複行を削除
  • b = np.array(list(set([tuple(t) for t in a])))
    
  • 正規化
  • y = np.linalg.norm(x, axis=1, keepdims=True)
    x = x / y
    
  • 配列接合
  • np.concatenate((a,b),axis=0)
    np.concatenate((a,b),axis=1)
    

    axisは接合の軸を制御し,2次元配列に対して0は縦接合,1は横接合を表す