[Aiffel]Ipel 9日目コンセプトの整理と回顧


1.Irisデータセット利用


1) scikit-learn

  • 機械学習庫
  • は、複数のアルゴリズムおよび使いやすいフレームワーク
  • を提供する.
  • toyデータセット、real-worldデータセットは
  • を提供します.
  • 関数
  • X_train, X_test, y_train, y_test = train_test_split(data_feature, label, test_size, randomstate)
  • train_test_split

  • data feature:問題点、結果を生成するために入力

  • Label:モデルが満たさなければならない正しい値
    ✔✔✔🤔
  • Xはフィーチャーを格納し、yは正しい値(label)を格納する.
    Xデータセットを機械学習モデルに入力し,モデルから得られた予測結果を正解yと比較し,学習を行い,徐々に正確にする.

  • test size:テスト用データサイズ

  • random state:trainデータとtestデータの分離(分割)に適用されるランダム性を決定する
  • 2) Iris Dataset

  • 3カテゴリ:setosa、versicolor、virginica
  • 150データ
  • 3)機械学習の概念


    1.featureとlabel
  • 題:機械学習モデルに入力されたデータ.featureとも呼ばれます.変数名はXを使用することが多い.
  • 答え:機械学習モデルに必要なデータ.labelまたはtargetとも呼ばれます.変数名はyを多く使用します.
  • 2、指導学習と非指導学習
  • 指導学習:正しい答えのある問題を学ぶ
  • 分類:問題
  • 、入力したデータを特定のカテゴリの1つに分類する
  • 回帰:入力したデータに基づいて特定のフィールドをデータフィッティングする問題
  • ex)家に関する情報(平面、位置、フロアなど)を入力し、家の価格問題
  • に答えます.
  • 指導学習なし:学習無解答問題
  • 3. Decision Tree
    リファレンス
  • のデータから分離された様子は木が倒れている様子と同じ
  • である.
  • 分類、回帰(カテゴリまたは連続型数値で予測可能)
  • に使用可能
  • 結晶境界はデータ軸に垂直であり、特定のデータにのみ有効である
    11ランダム森林
    Decision Treeの欠点を補うモデル
    複数の決定ツリーを使用して結果を統合および予測
  • 4. SVM
    典型的な線形分類アルゴリズム
  • は、Support VectorおよびHyperPlane(スーパープレーン)を使用して分類される
    5. SGD (Stochastic Gradient Descent)
  • 配置寸法1の傾斜降下アルゴリズム
  • 用語
  • 「確率」は、各配置を含む例をランダムに選択することを意味する.
    6. Logistic Regression
  • 最もよく知られている線形分類アルゴリズム
  • ソフトMax(softmas)関数を用いた多種類の分類アルゴリズム
  • 名は回帰していますが、分類は
  • です.
    7.モデル評価方法
  • labelは,分布の不均衡なデータを処理する際,精度だけでは良好な測定基準にはならない.
  • TP:実位置、判断位置
  • FP:実績値は負、判断値は
  • TN:実際陰性、判断陰性
  • FN:実位置、実負
  • 精度(Precision)exスパム分類(FPが重要)
  • 再現率(Recall,Sensivity)ex疾患正負性(FNが重要)
  • F 1得点:RecallとPrecisionの平均組み合わせ
  • TPが高いほどFPまたはFNが低い、予測が良い
  • モデル.predict
  • リファレンス
    決定木でワインを分類する
    ビート式Python機械学習付加問題

    2.回顧


    うまくいくかどうかわからない最後に乳がんのデータを分析するとき、あなたのモデルにはrecall値があります.調べてみると、ランダム森林でsgdを計算しました.交換してよかった.かなり高いrecall値も適当な結果になりましたか?問題の解き方が正しいかどうか分からないし、何も知らない.まず概念を確認し、学んだ内容によってここで終わります.