第5回 機械学習のための特徴量エンジニアリング - 特徴選択


はじめに

本記事では交互作用特徴量について解説しています。本記事は主に「機械学習のための特徴量エンジニアリング」を参考とさせて頂いておりますので、気になる方は是非チェックしてみてください。

特徴選択とは

モデルの予測に有効ではない特徴量を削除する手法です。有効でない特徴量はモデルの学習時間を増大させ、精度も下げてしまいます。

フィルタ法

フィルタ法はモデルに関係なく、データセットのみを見て特徴量を削減する方法です。それぞれの特徴量がどれだけ予測に使えるかを指標をもとにして数値化し、実際に使う特徴量を選びます。この指標にはピアソンの相関係数, カイ二乗検定, ANOVAなどがあります。
具体的には、特徴量同士の相関が高すぎる特徴量を削除したり、目的変数との相関が低すぎる特徴量を削除したりします。しかしモデルを全く考慮しない手法なので、モデルによって有効になる可能性のあった特徴量を削除してしまうかもしれません。

ラッパー法

ラッパー法はデータセットから一部の特徴量を取り出し、モデルに学習させます。この工程を複数回行い、有効である特徴量を決めるという手法です。実際にモデルに組み込みながら特徴量選択を行うので、フィルタ法のようにモデルに有効になる可能性のあった特徴量を事前に削除してしまうことはありません。ですが計算量が膨大になってしまいます。

組み込み法

組み込み法はモデルの学習時に特徴量選択が組み込まれていることを指します。決定木では特徴量の重要度を計算しながらモデルの学習を行うため、学習が終わったあとに特徴量の重要度が高いものを選択する手法となっています。組み込み法はラッパー方より品質は劣りますが、計算コストを抑えることができ、フィルタ法のよりモデルに有効な特徴量を選択できるので、バランスの取れた手法となっています。

最後に

YouTubeでITに関する動画を上げていこうと思っています。
YoutubeとQiita更新のモチベーションに繋がるため、いいね、チャンネル登録、高評価をよろしくお願い致します。
YouTube: https://www.youtube.com/channel/UCywlrxt0nEdJGYtDBPW-peg
Twitter: https://twitter.com/tatelabo

参考