numpy pandasデータ処理操作概要
7270 ワード
a = pd.read_csv('a.txt', header = None, sep = '[_\t]+')
ヘッダー制御ファイルに列名が含まれているかどうか、sep制御区分方式、正規表現を使用できます
c = pd.concat([a,b])
同じ列の2つのファイルの縦方向接続
a = a.sort_values(['col1','col2'])
まず、「col 1」の値に基づいてソートし、「col 1」の値が同じであれば「col 2」の値に基づいてソートする
b = a['col1'].value_counts()
統計a'col 1'の列の数値分布出力bは、b.indexがa['col 1']の各値であり、b.valuesが各値に対応する出現回数である
a['col1'].isin(b)
a'col 1'の列の各項目がbにあるかどうかを判断する
a = np.array([22,87,5,43,56,73,55,54,11,20,51,5,79,31,27])
plt.hist(a, bins = [0,20,40,60,80,100])
plt.title("histogram")
plt.show()
pd.isnull(a)
空に設定:
a['col1'][0] = np.nan
b = np.array(list(set([tuple(t) for t in a])))
y = np.linalg.norm(x, axis=1, keepdims=True)
x = x / y
np.concatenate((a,b),axis=0)
np.concatenate((a,b),axis=1)
axisは接合の軸を制御し,2次元配列に対して0は縦接合,1は横接合を表す