G検定メモ① 俺がG検定を受けるときに作ったまとめメモを公開する


G検定を受ける前に、黒本を解いて記憶が曖昧だった部分をメモした走り書きがあったので公開するよ。
受験前にザーッと読んでおさらいしてね。
ちなみにG検定は2019#2で無事合格したよ(^ω^)

■自然言語処理
人間が日常的に使う言葉を処理する
・セマンティックウェブ:情報リソースに意味を付与する事で、コンピュータで高度な意味処理を実現する
・意味ネットワーク:単語同士の意味関係をネットワークによって表現
・統計的自然言語処理:言語処理に確率論的あるいは統計学的手法を用いる

■データサイエンス
データにかんする研究を行う学問全般の事
機械学習はデータサイエンスの一手法

■シンギュラリティ
 レイ・カーツワイル:シンギュラリティは2045年に到来する
 ヒューゴ・デ・ガリス:シンギュラリティは21世紀の後半に到来し、そのとき人工知能は人間の知能の1兆の1兆ばいになる
 イーリロンマスク:シンギュラリティの到来に危機感を持ち、OpenAIを設立
 オレン・エツィオーニ:たとえば100万年後、特異点を迎える可能性はありますけど、馬鹿げている
 ヴァーナー・ヴィンジ:シンギュラリティは「機会が人間の役に立つふりをしなくなること」と定義
 スティーブン・ホーキンス:AIの感性は人類の終焉を意味するかもしれない

■強いAI/弱いAI
汎用AI/特化型AI とも言う

■ナレッジエンジニア
専門家の知識をコンピュータに移植する事を専門に行うエンジニア
エキスパートシステム用の知識体系を作る

■教師あり学習
正解ラベルを用いる学習
未知のサンプルの正解ラベルを予測する一連の学習手法
回帰問題
分類問題

■教師なし学習
学習に教師データを用いない
既知のデータの本質的な構造を浮かび上がらせる事を目的とする
・クラスタリング:k-means,
データの分布からグループを抽出する
・次元削減

■クラスタリングとクラス分類

クラスタリング 事前にグループ設定をしない 教師なし学習 k-means
クラス分類  あらかじめ決めたクラスに過去の知見を基に振り分ける 教師あり学習 kNN

■分類/回帰/クラスタリング

分類:あらかじめ設定したクラスにデータをふりわける
回帰:数値を予測する
クラスタリング:データの類似度を基にグループ分けする

■協調ベースフィルタリング/内容ベースフィルタリング
協調ベースフィルタリング:ユーザの購買履歴を基におすすめを提示
内容ベースフィルタリング:アイテムの特徴を基におすすめを提示

■ニューラル言語モデル
言語モデル:人間が用いている言語は非常に精密に確率によって数学的に定義づけられている
ニューラル言語モデル:言語モデルをニューラルネットワークにより近似されたニューラル言語モデル

■サポートベクターマシンSVM
マージン最大化
スラック変数:線形分離不可能なデータのまーじんを最大化するための変数
カーネル法:非線形境界を得られるようにする方法
カーネルトリック:カーネル法の計算量を大幅に削減する

■決定木
条件分岐の繰り返し
情報利得の最大化
負純度の最小化

データスケールを事前にそろえる必要がない
分析結果の説明が容易

■kNN法
クラス分類のアルゴリズムの定番
未知のデータから距離の近い方から順番にk個を選んで多数決をとる
偏りがあるデータでは精度が落ちる
kは事前に人が決めるハイパーパラメーター

■主成分分析PCA
主成分分析は次元削減の代表的手法
次元削減:情報を失わないようにデータを低次元に縮約する事
・寄与率をしらべる事で各成分の重要度を測ることが出来る
・主成分を調べる事で、各成分の意味を推測する事が出来る

■アンサンブル学習
複数も出るを作り、分類は多数決、回帰は一般に平均を結果として採用する手法
①精度が安定している ②過学習の抑制が出来る
代表的な手法
・バギング:各モデルを並列に学習させる
・ブースティング:各モデルを逐次的に学習させる

■ブーストラップ
学習データからランダムにサンプリングする手法や、サンプリングした部分集合を指す

■ランダムフォレスト
バギング+決定木
決定木の良さを引き継ぎ、過学習を起こしやすい点を解消した

■ロジスティック回帰
対数オッズと呼ばれる値を線形回帰で予測する
それを正規化して確率として解釈できる出力を得る
それに基づきクラス分類を行う

最小化を行う関数を目的関数という
ロジスティック回帰では尤度関数ゆうどかんすうと呼ばれる関数を用いる

■正則化
過学習は複雑すぎるモデルで起こる
正則化:パラメータのノルムが大きくなりすぎないようにすれば、過学習が抑制できる
正則化の代表的な例
・LASSO:自動的に「特徴量の選択」が行われる性質を持つ
・Ridge正則化:特徴量選択は行わないが、パラメータのノルムを小さく押さえる

■スパースなデータ
ほとんどが0、稀に0以外が並ぶデータの事

■ハイパーパラメータのグッドリサーチ
ハイパーパラメータを交差検証で精度を測り、精度の高いハイパーパラメータの組を最良のハイパーパラメータとして採用する手法
グッドリサーチを用いれば、ある程度自動化できる
ただし、計算量は多くなるという欠点がある
非常によく用いられる

■勾配降下法

ディープニューラルネットワークの学習は、勾配降下法によって行われ、誤差の最小化を目的とする
・誤差の勾配計算
・その逆方向に重みを動かす

■ディープラーニングのフレームワーク
テンソルフロー:google/機械学習に関する計算を行うフレームワーク
ナムパイ:線形代数の計算を行う
パイトーチ:チェイナーから派生したフレームワーク
ケラス:ディープラーニングに特化したテンソルフローのラッパー
サイキットラーン:機械学習全般に対応するフレームワーク
チェイナー:プリファードネットワークス/Define-by-Runという形式を採用している

■勾配消失問題
誤差の勾配が入力層に向けて伝播していく過程で勾配の値が0に近づき学習が進まなくなる
中間層の活性化関数としてReLUを用いる事である程度解消できる

■ILSVRCの主要な出来事
2012 ジェフリーヒントン AlexNet 8層 優勝
2014 GoogLeNet 22層 優勝
2015 ResNet 152層 優勝

■GAN 敵対的生成ネットワーク
教師なし学習に用いられる手法
イアン・グッドフェローが考案
識別ネットワークが、教師データか生成ネットワークの出力物かを判定する
ヤンルカン「この10年で最も面白いアイデア」

■形態素解析
文章を単語などの最小単位に切り分ける

【自然言語処理のフロー】
1.形態素解析を用いて文章を単語などの最小単位(形態素)に切り分ける
2.データのクレンジングにより、不要な文字列を取り除く
3.BoW(Bag-of-Words)などを用いて、形態素解析を行ったデータをベクトルの形式に変換する。
4.TF-IDなどを用いて各単語の重要度を評価する

■Word2Vecワードツーベック
Skip-Gram Modelなどの手法で、周辺後の予測というダミータスクをニューラルネットワークで解く
その過程でWord2Vecにおける単語のベクトル表現を使う

■自立型致死性兵器 LAWS
人口知能技術を使った自律式の強力な殺人兵器
現段階では存在しないが将来開発された時の為に議論が続いている
2017年 アシロマAI原則
AIによる軍拡競争は避けるべきであると明示された

■中国製造2025
2025年までの中国の製造業発展ロードマップ
2015年5月に中国政府が発表
ドイツのインダストリー4.0の中国版と言われている