ベイズ分類器-R言語実戦
1224 ワード
データ分析とマイニング-R言語:ベイズ分類アルゴリズム(ケース1)
2016-05-25 13:31 byハンターホーム、4517読書、0評論、コレクション、編集
簡単な例です!環境:CentOS 6.5 Hadoopクラスタ、Hive、R、RHIve、具体的なインストールとデバッグ方法はブログ内のドキュメントを参照してください.
名詞の解釈:
先験確率:従来のデータ分析から得られた確率を先験確率と呼ぶ.
後験確率:情報を得てから修正をやり直す確率を後験確率と呼ぶ.ベイズ分類は後験確率である.
ベイズ分類アルゴリズムの手順:
ステップ1:準備フェーズ
この段階では素朴ベイズ分類に必要な準備をする.主に,具体的な状況に基づいて特徴属性を決定し,特徴属性を適切に区分する.次に、分類される項目の一部を人工的に区分して、訓練サンプルを決定する.
この段階の入力はすべての分類対象項目であり,特徴属性と訓練サンプルを出力する.分類器の品質は,特徴的属性とその区分,および訓練サンプルの品質に大きく依存する.
ステップ2:分類器訓練段階
主な仕事は,各カテゴリが訓練サンプルに現れる頻度と,各特徴属性区分の各カテゴリに対する条件確率推定を計算することである.入力はフィーチャー属性とトレーニングサンプルであり,出力は分類器である.
ステップ3:適用フェーズ
このフェーズのタスクは、分類器を使用して分類項目を分類し、その入力は分類器と分類対象項目であり、出力は分類対象項目とカテゴリのマッピング関係である.
特に、素朴なベイズの核心は、ベクトルのすべての成分間が独立していると仮定することにある.
インスタンス作成Rスクリプト:
0
0
»前編:データ分析とマイニング-R言語:KNNアルゴリズム
»次編:データ分析とマイニング-R言語:ベイズ分類アルゴリズム(ケース2)
分類:2.4.├—R
2016-05-25 13:31 byハンターホーム、4517読書、0評論、コレクション、編集
簡単な例です!環境:CentOS 6.5 Hadoopクラスタ、Hive、R、RHIve、具体的なインストールとデバッグ方法はブログ内のドキュメントを参照してください.
名詞の解釈:
先験確率:従来のデータ分析から得られた確率を先験確率と呼ぶ.
後験確率:情報を得てから修正をやり直す確率を後験確率と呼ぶ.ベイズ分類は後験確率である.
ベイズ分類アルゴリズムの手順:
ステップ1:準備フェーズ
この段階では素朴ベイズ分類に必要な準備をする.主に,具体的な状況に基づいて特徴属性を決定し,特徴属性を適切に区分する.次に、分類される項目の一部を人工的に区分して、訓練サンプルを決定する.
この段階の入力はすべての分類対象項目であり,特徴属性と訓練サンプルを出力する.分類器の品質は,特徴的属性とその区分,および訓練サンプルの品質に大きく依存する.
ステップ2:分類器訓練段階
主な仕事は,各カテゴリが訓練サンプルに現れる頻度と,各特徴属性区分の各カテゴリに対する条件確率推定を計算することである.入力はフィーチャー属性とトレーニングサンプルであり,出力は分類器である.
ステップ3:適用フェーズ
このフェーズのタスクは、分類器を使用して分類項目を分類し、その入力は分類器と分類対象項目であり、出力は分類対象項目とカテゴリのマッピング関係である.
特に、素朴なベイズの核心は、ベクトルのすべての成分間が独立していると仮定することにある.
インスタンス作成Rスクリプト:
#!/usr/bin/Rscript
#
data = playtennis.no, "yes", "no")));
}
#
naive.bayes.prediction(c("overcast", "mild", "normal", "weak"));
$post.pr.yes
[1] 0.05643739
$post.pr.no
[1] 0
$prediction
[1] "yes"
0
0
»前編:データ分析とマイニング-R言語:KNNアルゴリズム
»次編:データ分析とマイニング-R言語:ベイズ分類アルゴリズム(ケース2)
分類:2.4.├—R