Sikit Run sckitを学ぶ
3635 ワード
データ分析機能を提供するアルゴリズム。
ロード可能なデータ
分析データをロードできるアルゴリズム
データプリプロセッシングに必要な機能
評価により精度を決定する.
sklearn.utils.Bunch(データセットのデータ型)
sklearn.プリプロセッシング
sklearn.model_selection.train test split(学習用データセットを分離するためのもの)
sklearn.Metrics(アルゴリズムのパフォーマンスを測定する関数を提供する)
sklearn.インテグレーション
sklearn.linear_model
sklearn.naive_bayes
sklearn.neighbors
sklearn.svm
sklearn.tree
sklearn.cluster
Sikit Runが提供するデータセットモジュール
datasets.load boston():回帰-米ボストン住宅価格予測
datasets.load breast cancer():分類-乳癌判別
datasets.load digitals():分類-0から9デジタル分類
datasets.load iris():分類-iris品種分類
datasets.load wine():分類-ワイン分類
wineデータ検証データ型
from sklearn.datasets import load_wine
data = load_wine()
type(data)
sklearn.utils.Bunchprint(data)
{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,1.065e+03],
[1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
1.050e+03],
[1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
1.185e+03],
Sikit Runでデータを呼び出すと、ディックショーナー形式のデータが届きます.
data.keys()
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])# 데이터값들을 확인
data.data
array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,1.065e+03],
[1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
1.050e+03],
#데이터 크기확인
data.data.shape
(178, 13)#데이터 차원을 확인
data.data.ndim
2# 타겟 확인(라벨)
data.target
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,....
#위 데이터와 같은 행의 수를 가지고 있음
data.target.shape
(178,)# 컬럼 네임 확인
data.feature_names
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols','proanthocyanins', 'color_intensity','hue', 'od280/od315_of_diluted_wines', 'proline']
#위 데이터 열의 개수와 동일한 것을 알 수 있음
len(data.feature_names)
13#분류하고자 하는 데이터 라벨
data.target_names
array(['class_0', 'class_1', 'class_2'], dtype='
#불러온 데이터에대한 정보를 확인할 수 있음
print(data.DESCR)
データを総合的に分析しようとしたとき、コードは以下のように終わりました!
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# 데이터셋을 sklearn에서 불러올 수 있음
data = load_wine()
# 모듈에서 제공하는 기능을 통해 분리
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=11)
# 훈련
model = RandomForestClassifier()
model.fit(X_train, y_train)
# 예측
y_pred = model.predict(X_test)
# 정확도
print("정확도 = ", accuracy_score(y_test, y_pred))
Reference
この問題について(Sikit Run sckitを学ぶ), 我々は、より多くの情報をここで見つけました https://velog.io/@hwanython/사이킷런-scikit-learnテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol