Sikit Run sckitを学ぶ


データ分析機能を提供するアルゴリズム。


ロード可能なデータ
分析データをロードできるアルゴリズム
データプリプロセッシングに必要な機能
評価により精度を決定する.
  • sklearn.データセット(データセットの提供)
    sklearn.utils.Bunch(データセットのデータ型)
    sklearn.プリプロセッシング
    sklearn.model_selection.train test split(学習用データセットを分離するためのもの)
    sklearn.Metrics(アルゴリズムのパフォーマンスを測定する関数を提供する)
    sklearn.インテグレーション
    sklearn.linear_model
    sklearn.naive_bayes
    sklearn.neighbors
    sklearn.svm
    sklearn.tree
    sklearn.cluster
  • 通常、アルゴリズムを使用する場合は、マトリクスと同じ式を使用して解析する必要があります.

    Sikit Runが提供するデータセットモジュール


    datasets.load boston():回帰-米ボストン住宅価格予測
    datasets.load breast cancer():分類-乳癌判別
    datasets.load digitals():分類-0から9デジタル分類
    datasets.load iris():分類-iris品種分類
    datasets.load wine():分類-ワイン分類

    wineデータ検証データ型

    from sklearn.datasets import load_wine
    data = load_wine()
    type(data)
    sklearn.utils.Bunch
    print(data)
    {'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
    1.065e+03],
    [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
    1.050e+03],
    [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
    1.185e+03],
    Sikit Runでデータを呼び出すと、ディックショーナー形式のデータが届きます.
    data.keys()
    dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
    # 데이터값들을 확인
    data.data
    array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
    1.065e+03],
    [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
    1.050e+03],
    #데이터 크기확인
    data.data.shape
    (178, 13)
    #데이터 차원을 확인
    data.data.ndim
    2
    # 타겟 확인(라벨)
    data.target
    array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,....
    #위 데이터와 같은 행의 수를 가지고 있음
    data.target.shape
    (178,)
    # 컬럼 네임 확인
    data.feature_names
    ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols','proanthocyanins', 'color_intensity',
    'hue', 'od280/od315_of_diluted_wines', 'proline']
    #위 데이터 열의 개수와 동일한 것을 알 수 있음
    len(data.feature_names)
    13
    #분류하고자 하는 데이터 라벨
    data.target_names
    array(['class_0', 'class_1', 'class_2'], dtype=' #불러온 데이터에대한 정보를 확인할 수 있음 print(data.DESCR)データを総合的に分析しようとしたとき、コードは以下のように終わりました!
    
    from sklearn.datasets import load_wine
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import accuracy_score
    
    # 데이터셋을 sklearn에서 불러올 수 있음
    data = load_wine()
    # 모듈에서 제공하는 기능을 통해 분리
    X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=11)
    # 훈련
    model = RandomForestClassifier()
    model.fit(X_train, y_train)
    # 예측
    y_pred = model.predict(X_test)
    # 정확도
    print("정확도 = ", accuracy_score(y_test, y_pred))