1.今日のスケジュール
1)授業
2)課題
3)勤務時間
4)指導
2.学習内容
NLP
第9回:自己指導の事前訓練モデル
最近の傾向
NLPだけでなく、他の分野でもトランスフォーマーや自己注意ブロックが共通配置となっている. 自己監督学習のためにTransformerを蓄積し、深く学習する方法は異なるNLP分野で改善をもたらした. BERT, GPT-3, XLNet, ALBERT, RoERTa, Reformer, T5, ELECTRA... 他の分野も自己注意とTransformer構造に迅速に適応している.推奨システム、コンピュータビジョン、薬物発見など greedy復号の観点から,限界がある.GPT-1
、、$など多くの特殊トークンを用いて、微調整性能を最大限に向上させる. のようなTransformer構造は学習を必要とせずに複数のタスクで使用できる.BERT
マスク言語モデリング学習Masked Language Model
理由:既存の言語モデルでは、左または右のコンテキストのみが使用されます.しかし、言語を理解するためには、双方向に観察しなければならない. メソッド:単語ごとに一定の確率でMaskに変換してスペルします.単語の15%を予測します.80%が[MASK]に置き換えられた. 10%がランダムな単語に置き換えられます. 10%を維持します. the man went to the [Mask] to buy a [MASK] of milk
制作が少なすぎると勉強できず、多すぎると文脈を把握できない.Next Sentence Prediction (NSP)の2つの文A,Bを与えて、Bが本当にAの後ろの文であるかどうかを予測します.
BERT概要
1. Model Architecture BERT BASE: L = 12, H = 768, A = 12 BERT LARGE: L = 24, H = 1024, A = 16 Input Representation WordPiece embeddings (30,000 WordPiece) Learned positional embedding [CLS] - Classification embedding Packed sentence embedding [SEP] Segment Embedding Pre-training Tasks Masked LM Next Sentence Prediction BERT: Fine-tuning Process
BERT vs GPT-1 Transingデータサイズ GPT: 800M words (BookCorpus) BERT: 2,500M words (BookCorpus and Wikipedia) Training tokens during training
学習 BERT:[SEP],[CLS]、文A/B埋め込み. Batch size GPT: 32.000 words BERT: 128,000 words Task-specific fine-tuning GPT:5 e-5の学習率は同じ BERT:タスクごとに異なるlr を適用
BERT: GLUE Benchmark Results
BERT: SQuAD
SQuAD 1.1
start wordとending wordに対してFCLを使用してFine Tuningを行います.SQuAD 2.0 noの答えが含まれています.BERT: On SWAG
以上の文章の中で、次の文を予測します:BERT: Ablation Study
モデルは大きいほど役に立ちます.第10回:高度な自己指導のトレーニングモデル
GPT-2
は本当に大きなTransformer Language Model にすぎません40 GBテキストデータセットの品質を向上させるために大きな努力をした zero-shot設定でタスクを実行できます.GPT-2: Datasetsページのスクロールで複数のテキストが収集されました. Redde、ソーシャルメディアプラットフォーム、Webテキストなどからのクリップ. 45M links 人フィルタページ少なくとも3つの賛を受け取ったページ
バイト対符号化(BPE)前処理GPT-2:モデル(変更点)層の標準化は、各サブブロックの入力に移される. 最後のself−attention blockの後にレイヤ正規化が追加された. モデルの深さの増加に伴い,残りの経路蓄積に関する部分初期化法が変化した. Nが残層数である場合、残層の重みに1 nfrac{1}{sqrt{n}n 1を乗じる.GPT-3
言語モデルたちの目標は少量のshot学習です!少量shot learning:タスク完了の問題に適応するためにいくつかの例を参照してください 型のサイズを育成し、レンズ性能を向上させた. 175億パラメータ少レンズ設定96注意層、3.2 Mの配置寸法
Zero-shot:自然言語の記述だけで答えを予測できる
One-shot:例を追加
Few-shot:いくつかの例を追加
Performance
Zero-shot性能はモデルサイズの増加に伴って向上し続けている. Few-shotのパフォーマンスはより高速に向上
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
大型モデルの制限メモリ制限訓練速度以下の解決策を提案した.
1) Factorized Embedding Parameterizationリンベチンベクトルでは少量の情報でも十分である. によれば、以下のように分割することができる. V = Vocabulary size H = Hidden-state dimension E = Word embedding dimension
2) Cross-layer Parmeter Sharing Shared-FFN:層別共有フィードフォワードネットワークパラメータ Shared-注:層別共有注パラメータ All-shard:両方をマージすると
Parameterの減少に伴い,性能に大きな差は見られなかった.の既存モデルではパラメータの変化が大きいと考えられる.3) (For Performance) Sentence Order Prediction既存の「次へ」(NSP)は効果がありません. SOP(Sevence Order Prediction)
NSPではSOPを解決することはできないが,SOPはNSPにおいても一定の高性能を示している.GLUE Results
ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately
Generatorからmasking単語を復元し、Distributorから元か置換かに分類するモード.
性能は同じ条件下のBERTモデルよりはるかに高い.Light-weight Models
DistillBERT教育モデルと学生モデルを用いて軽量化を行った. TinyBERT 言語モデルの外部情報のマージ
ERNIE KagNET 3.ピアセッションのクリーンアップ
BERT発表論文に耳を傾ける
4.課題実行プロセス
抱擁顔の使い方などはゆっくりと身につける必要があります.5.回顧
NLPコース終了.受講前と受講後、確かにトランスフォーマーについてある程度知っています.私は初めての論文を読んで、毎週努力して1編を読み続けます.6.明日やること
エンド