第1章コンピュータデータから学ぶ
3116 ワード
1.1インテリジェントなデータ変換システムの構築
機械学習:予測モデルとデータベースの意思決定性能を向上させるために、データから効率的に知識を抽出します(大量のデータを手動で分析し、ルールを導いてモデルを作成する必要があるかどうか).
1.2機械学習の3種類
学習クラスの内容指導学習ラベルデータ、直接フィードバック、出力と未来予測非指導学習ラベルと目標、フィードバックなし、データの中で隠蔽構造を探して学習決定過程を強化し、奨励システム、連続行動学習
1.2.1指導的学習による将来の予測
地図:出力信号(ラベル)を有する例(データ入力)exのセットと、スパムではなく電子メールで正確に表示されるデータのセット.
目的:特定のサンプルに割り当てられたマークアップされたトレーニングデータからモデルを学習し、将来見たことのないデータを予測する.
」」」」
1)分類:個別カテゴリラベル付き指導学習(クラスラベル予測)ex電子メールスパムフィルタ
-予測変数は「特性」、反応変数は「目標」
1.2.2学習強化による反応型問題の解決
目的:環境と対話してシステム(エージェント)のパフォーマンスを向上
指導的学習との違い:学習を強化するフィードバックは、正解ラベルまたは値が100->の補償関数を使用して、動作がどれだけ良いかを測定します.
概念:学習エージェントは環境と対話することによって一連の奨励最大化の行為を実行し、即時に獲得または遅延したフィードバックによって全体の奨励の一連の行為を最大化する.
チェスゲーム
1.2.3非指導的学習による隠れた構造の発見
コンセプト:ラベルまたは構造のない未知のデータを抽出するデータ構造を参照->意味のある情報
」」」」
1)クラスタ(サブグループの検索)、非地図分類:辞書情報のないグループ情報を有意義なサブグループまたはクラスタに組織する探索的データ分析方法.
2)次元ダウン(データの圧縮):データをより小さな部分空間に圧縮し、関連情報の大部分を保持しながら(ノイズデータを除去する)
1.3基本用語と表現の概要
1.3.1本書で使用する記号と規則
1)例:データセットの1行表示(例、観測)
2)属性:データセットの列に格納する(属性、測定値、次元)
3)等級ラベル(目標)
1.3.2機械学習用語
1)訓練サンプル:データセットの表行(観測、記録、実例、例)を表す
2)トレーニング:(モデル継ぎ手、親モデルのパラメータ推定)
3)属性(x):データテーブルまたはデータ行列の列(予測変数、変数、入力、属性、共通変数)
4)目標(y):(結果、出力、反応変数、従属変数、ラベル、解答)
5)損失関数:1つのデータポイントに対して測定された損失、コスト関数はデータセット全体に対して計算された損失(平均または合計)
1.4機械学習システム実施路線図
1.4.1前処理:データ形態を備える
コンセプト:元のデータから意味のある特性を抽出
例外:選択した属性に重複情報がある場合->次元折り畳みメソッド圧縮可能な属性->予測パフォーマンスの向上
信号対雑音比(SNR):データセットの特性(雑音)が多かれ少なかれ決まる指標
1.4.2予測モデルトレーニングと選択
モデルを比較する前に、パフォーマンスを測定する指標->精度(正確に分類されたサンプルの割合)を決定します.
クロス検証テクノロジー:トレーニングデータをトレーニングデータセットと検証データセットに分けて、モデルの一般化パフォーマンスを予測します.
スーパーパラメータ:モデルのパフォーマンスを向上させるダイヤル
1.4.3モデルを評価し、見たことのないサンプルとして予測する
テストデータセットの使用->予測モデルのパフォーマンス->パフォーマンスに満足している場合は、このモデルを使用して将来の新しいデータを予測できます.
1.5機械学習
1.5.1 PythonとPIPにパッケージをインストールする
1)Pythonパッケージのインストール
pip install 패키지 이름
2)インストールしたパッケージの更新pip install --upgrade 패키지 이름
1.5.2 Anaconda Pythonリリースおよびパッケージマネージャの使用
Anaconda:データ科学、数学、エンジニアリングに必要なPythonツールパッケージ、すべての主要なオペレーティングシステムをサポート
1)Pythonパッケージのインストール
conda install 패키지 이름
2)インストールしたパッケージの更新conda update 패키지 이름
1.5.3科学計算、データ科学と機械学習向けのパッケージ
1)Pandas(Pandas):No.1 Fi上に構築されたライブラリで、表データを簡単に処理できる高標準ツールを提供する
2)マットアウトスリット(Matplotlib):定量的データを可視化するオプションを提供する
3)Numpy
4) SciPy
5) Scikit-learn
6) TensorFlow
Reference
この問題について(第1章コンピュータデータから学ぶ), 我々は、より多くの情報をここで見つけました https://velog.io/@rosesua318/1장-컴퓨터는-데이터에서-배운다テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol