pythonデータプリプロセッシングのLabelEncoder()、OneHotEncoder()

13087 ワード

scikit-learnベース
OneHotEncoder(sparse=False)に注意してください.そうしないと、インデックス値の形式が返されます.
from numpy import array
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
# define example
data = ['cold', 'cold', 'warm', 'cold', 'hot', 'hot', 'warm', 'cold', 'warm', 'hot']
values = array(data)
print(values)
# integer encode
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print(integer_encoded)
# binary encode
onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
print(onehot_encoded)


結果:
['cold' 'cold' 'warm' 'cold' 'hot' 'hot' 'warm' 'cold' 'warm' 'hot']
[0 0 2 0 1 1 2 0 2 1]
[[ 1.  0.  0.]
 [ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 0.  1.  0.]]


one-hot符号化をラベル符号化に復元する
# invert first example
int_endode = np.argmax(onehot_encoded, axis=1)
print(int_endode)


結果:
[0 0 2 0 1 1 2 0 2 1]

kerasベース
ラベルコード[0 0 2 0 1 1 2 0 2 1 1 2 2 1]が既にあると仮定し、kerasを利用する.utils.to_categorical()は、ラベル符号化をone-hot符号化に変換することができる.
encoded = to_categorical(integer_encoded)
print(integer_encoded)
print(encoded)

結果:
[0 0 2 0 1 1 2 0 2 1]
[[ 1.  0.  0.]
 [ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]
 [ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 0.  1.  0.]]

一般に,深さ学習はone−hot符号化を用いてy,すなわちlabelを処理する.参照先:https://blog.csdn.net/gdh756462786/article/details/79161525