第1章コンピュータデータから学ぶ


1.1インテリジェントなデータ変換システムの構築


機械学習:予測モデルとデータベースの意思決定性能を向上させるために、データから効率的に知識を抽出します(大量のデータを手動で分析し、ルールを導いてモデルを作成する必要があるかどうか).

1.2機械学習の3種類


学習クラスの内容指導学習ラベルデータ、直接フィードバック、出力と未来予測非指導学習ラベルと目標、フィードバックなし、データの中で隠蔽構造を探して学習決定過程を強化し、奨励システム、連続行動学習

1.2.1指導的学習による将来の予測


地図:出力信号(ラベル)を有する例(データ入力)exのセットと、スパムではなく電子メールで正確に表示されるデータのセット.
目的:特定のサンプルに割り当てられたマークアップされたトレーニングデータからモデルを学習し、将来見たことのないデータを予測する.
」」」」
1)分類:個別カテゴリラベル付き指導学習(クラスラベル予測)ex電子メールスパムフィルタ
  • 目的:過去の観測データから新しいサンプルのカテゴリラベル
  • を予測する.
  • 例:バイナリ分類-迷惑メール検出など(ルール:決定境界-破線で表示)、マルチ分類-手書き文字認識
  • 2)回帰:予測連続出力値
  • 特徴:所与の予測変数(記述変数)と連続反応変数(結果)の場合、出力値を予測するために2つの変数間の関係が見出される
    -予測変数は「特性」、反応変数は「目標」
  • 概念:所与の特性xと目標yの場合、データ点と直線間の距離は最小の直線であり、次いで->直線の傾斜とスライス予測出力値
  • を用いる.

    1.2.2学習強化による反応型問題の解決


    目的:環境と対話してシステム(エージェント)のパフォーマンスを向上
    指導的学習との違い:学習を強化するフィードバックは、正解ラベルまたは値が100->の補償関数を使用して、動作がどれだけ良いかを測定します.
    概念:学習エージェントは環境と対話することによって一連の奨励最大化の行為を実行し、即時に獲得または遅延したフィードバックによって全体の奨励の一連の行為を最大化する.
    チェスゲーム
  • エージェントはチェス盤の状態(環境)に応じて器物の移動を決定する.
  • ご褒美はゲーム終了時の勝敗と定義されています

    1.2.3非指導的学習による隠れた構造の発見


    コンセプト:ラベルまたは構造のない未知のデータを抽出するデータ構造を参照->意味のある情報
    」」」」
    1)クラスタ(サブグループの検索)、非地図分類:辞書情報のないグループ情報を有意義なサブグループまたはクラスタに組織する探索的データ分析方法.
  • クラスタ:一定の類似性を有する他のクラスタと類似しないサンプル群
  • を形成する.
    2)次元ダウン(データの圧縮):データをより小さな部分空間に圧縮し、関連情報の大部分を保持しながら(ノイズデータを除去する)
  • 例:非線形次元を3 Dスイスロールデータに圧縮する->新しい2 D特性の局所空間に圧縮する
  • 1.3基本用語と表現の概要


    1.3.1本書で使用する記号と規則


    1)例:データセットの1行表示(例、観測)
    2)属性:データセットの列に格納する(属性、測定値、次元)
    3)等級ラベル(目標)

    1.3.2機械学習用語


    1)訓練サンプル:データセットの表行(観測、記録、実例、例)を表す
    2)トレーニング:(モデル継ぎ手、親モデルのパラメータ推定)
    3)属性(x):データテーブルまたはデータ行列の列(予測変数、変数、入力、属性、共通変数)
    4)目標(y):(結果、出力、反応変数、従属変数、ラベル、解答)
    5)損失関数:1つのデータポイントに対して測定された損失、コスト関数はデータセット全体に対して計算された損失(平均または合計)

    1.4機械学習システム実施路線図


    1.4.1前処理:データ形態を備える


    コンセプト:元のデータから意味のある特性を抽出
    例外:選択した属性に重複情報がある場合->次元折り畳みメソッド圧縮可能な属性->予測パフォーマンスの向上
    信号対雑音比(SNR):データセットの特性(雑音)が多かれ少なかれ決まる指標

    1.4.2予測モデルトレーニングと選択


    モデルを比較する前に、パフォーマンスを測定する指標->精度(正確に分類されたサンプルの割合)を決定します.
    クロス検証テクノロジー:トレーニングデータをトレーニングデータセットと検証データセットに分けて、モデルの一般化パフォーマンスを予測します.
    スーパーパラメータ:モデルのパフォーマンスを向上させるダイヤル

    1.4.3モデルを評価し、見たことのないサンプルとして予測する


    テストデータセットの使用->予測モデルのパフォーマンス->パフォーマンスに満足している場合は、このモデルを使用して将来の新しいデータを予測できます.

    1.5機械学習


    1.5.1 PythonとPIPにパッケージをインストールする


    1)Pythonパッケージのインストール
    pip install 패키지 이름
    2)インストールしたパッケージの更新
    pip install --upgrade 패키지 이름

    1.5.2 Anaconda Pythonリリースおよびパッケージマネージャの使用


    Anaconda:データ科学、数学、エンジニアリングに必要なPythonツールパッケージ、すべての主要なオペレーティングシステムをサポート
    1)Pythonパッケージのインストール
    conda install 패키지 이름
    2)インストールしたパッケージの更新
    conda update 패키지 이름

    1.5.3科学計算、データ科学と機械学習向けのパッケージ


    1)Pandas(Pandas):No.1 Fi上に構築されたライブラリで、表データを簡単に処理できる高標準ツールを提供する
    2)マットアウトスリット(Matplotlib):定量的データを可視化するオプションを提供する
    3)Numpy
    4) SciPy
    5) Scikit-learn
    6) TensorFlow