AI Tech Day 33 (Advanced Self-supervised Pre-training Models)


1.今日のスケジュール


1)授業
2)課題
3)勤務時間
4)指導

2.学習内容


NLP


第9回:自己指導の事前訓練モデル


最近の傾向

  • NLPだけでなく、他の分野でもトランスフォーマーや自己注意ブロックが共通配置となっている.
  • 自己監督学習のためにTransformerを蓄積し、深く学習する方法は異なるNLP分野で改善をもたらした.
  • BERT, GPT-3, XLNet, ALBERT, RoERTa, Reformer, T5, ELECTRA...
  • 他の分野も自己注意とTransformer構造に迅速に適応している.
  • 推奨システム、コンピュータビジョン、薬物発見など
  • greedy復号の観点から,限界がある.
  • GPT-1


  • 、$など多くの特殊トークンを用いて、微調整性能を最大限に向上させる.
  • のようなTransformer構造は学習を必要とせずに複数のタスクで使用できる.
  • BERT


  • マスク言語モデリング学習
  • Masked Language Model
    理由
  • :既存の言語モデルでは、左または右のコンテキストのみが使用されます.しかし、言語を理解するためには、双方向に観察しなければならない.
  • メソッド:単語ごとに一定の確率でMaskに変換してスペルします.
  • 単語の15%を予測します.
  • 80%が[MASK]に置き換えられた.
  • 10%がランダムな単語に置き換えられます.
  • 10%を維持します.
  • the man went to the [Mask] to buy a [MASK] of milk
  • 制作が少なすぎると勉強できず、多すぎると文脈を把握できない.
  • Next Sentence Prediction (NSP)
  • の2つの文A,Bを与えて、Bが本当にAの後ろの文であるかどうかを予測します.
  • BERT概要
    1. Model Architecture
  • BERT BASE: L = 12, H = 768, A = 12
  • BERT LARGE: L = 24, H = 1024, A = 16
  • Input Representation
  • WordPiece embeddings (30,000 WordPiece)
  • Learned positional embedding
  • [CLS] - Classification embedding
  • Packed sentence embedding [SEP]
  • Segment Embedding
  • Pre-training Tasks
  • Masked LM
  • Next Sentence Prediction
  • BERT: Fine-tuning Process

    BERT vs GPT-1
  • Transingデータサイズ
  • GPT: 800M words (BookCorpus)
  • BERT: 2,500M words (BookCorpus and Wikipedia)
  • Training tokens during training
    学習
  • BERT:[SEP],[CLS]、文A/B埋め込み.
  • Batch size
  • GPT: 32.000 words
  • BERT: 128,000 words
  • Task-specific fine-tuning
  • GPT:5 e-5の学習率は同じ
  • BERT:タスクごとに異なるlr
  • を適用
    BERT: GLUE Benchmark Results

    BERT: SQuAD


    SQuAD 1.1
  • start wordとending wordに対してFCLを使用してFine Tuningを行います.
  • SQuAD 2.0
  • noの答えが含まれています.
  • BERT: On SWAG


  • 以上の文章の中で、次の文を予測します:
  • BERT: Ablation Study


  • モデルは大きいほど役に立ちます.
  • 第10回:高度な自己指導のトレーニングモデル


    GPT-2

  • は本当に大きなTransformer Language Model
  • にすぎません
  • 40 GBテキスト
  • データセットの品質を向上させるために大きな努力をした
  • zero-shot設定でタスクを実行できます.
  • GPT-2: Datasets
  • ページのスクロールで複数のテキストが収集されました.
  • Redde、ソーシャルメディアプラットフォーム、Webテキストなどからのクリップ.
  • 45M links
  • 人フィルタページ
  • 少なくとも3つの賛を受け取った
  • ページ
  • バイト対符号化(BPE)前処理
  • GPT-2:モデル(変更点)
  • 層の標準化は、各サブブロックの入力に移される.
  • 最後のself−attention blockの後にレイヤ正規化が追加された.
  • モデルの深さの増加に伴い,残りの経路蓄積に関する部分初期化法が変化した.
  • Nが残層数である場合、残層の重みに1 nfrac{1}{sqrt{n}n 1を乗じる.
  • GPT-3

  • 言語モデルたちの目標は少量のshot学習です!
  • 少量shot learning:タスク完了の問題に適応するためにいくつかの例を参照してください
  • 型のサイズを育成し、レンズ性能を向上させた.
  • 175億パラメータ少レンズ設定
  • 96注意層、3.2 Mの配置寸法
  • Zero-shot:自然言語の記述だけで答えを予測できる
    One-shot:例を追加
    Few-shot:いくつかの例を追加

    Performance
  • Zero-shot性能はモデルサイズの増加に伴って
  • 向上し続けている.
  • Few-shotのパフォーマンスは
  • より高速に向上

    ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

  • 大型モデルの制限
  • メモリ制限
  • 訓練速度
  • 以下の解決策を提案した.
    1) Factorized Embedding Parameterization
  • リンベチンベクトルでは少量の情報でも十分である.
  • によれば、以下のように分割することができる.
  • V = Vocabulary size
  • H = Hidden-state dimension
  • E = Word embedding dimension
  • 2) Cross-layer Parmeter Sharing
  • Shared-FFN:層別共有
  • フィードフォワードネットワークパラメータ
  • Shared-注:層別共有注パラメータ
  • All-shard:両方をマージすると
  • Parameterの減少に伴い,性能に大きな差は見られなかった.
  • の既存モデルではパラメータの変化が大きいと考えられる.
  • 3) (For Performance) Sentence Order Prediction
  • 既存の「次へ」(NSP)は効果がありません.
  • SOP(Sevence Order Prediction)
  • NSPではSOPを解決することはできないが,SOPはNSPにおいても一定の高性能を示している.
  • GLUE Results

    ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately


  • Generatorからmasking単語を復元し、Distributorから元か置換かに分類するモード.
  • 性能は同じ条件下のBERTモデル
  • よりはるかに高い.
  • Light-weight Models

  • DistillBERT
  • 教育モデルと学生モデルを用いて軽量化を行った.
  • TinyBERT
  • 言語モデルの外部情報のマージ

  • ERNIE
  • KagNET
  • 3.ピアセッションのクリーンアップ

  • BERT発表論文
  • に耳を傾ける

    4.課題実行プロセス

  • 抱擁顔の使い方などはゆっくりと身につける必要があります.
  • 5.回顧

  • NLPコース終了.受講前と受講後、確かにトランスフォーマーについてある程度知っています.
  • 私は初めて
  • の論文を読んで、毎週努力して1編を読み続けます.
  • 6.明日やること

  • エンド