AI Tech Day 33 (Advanced Self-supervised Pre-training Models)

5880 ワード

NAVERインタフェース Boost camp AI技術テキストリンク

1.今日のスケジュール

1)授業
2)課題
3)勤務時間
4)指導

2.学習内容

NLP

第9回:自己指導の事前訓練モデル

GPT-1

~~、、$など多くの特殊トークンを用いて、微調整性能を最大限に向上させる.~~

のようなTransformer構造は学習を必要とせずに複数のタスクで使用できる.
BERT

マスク言語モデリング学習
Masked Language Model
理由
:既存の言語モデルでは、左または右のコンテキストのみが使用されます.しかし、言語を理解するためには、双方向に観察しなければならない.

メソッド:単語ごとに一定の確率でMaskに変換してスペルします.
単語の15%を予測します.
80%が[MASK]に置き換えられた.

10%がランダムな単語に置き換えられます.

10%を維持します.

the man went to the [Mask] to buy a [MASK] of milk

制作が少なすぎると勉強できず、多すぎると文脈を把握できない.
Next Sentence Prediction (NSP)
の2つの文A,Bを与えて、Bが本当にAの後ろの文であるかどうかを予測します.

BERT概要
1. Model Architecture
BERT BASE: L = 12, H = 768, A = 12

BERT LARGE: L = 24, H = 1024, A = 16

Input Representation

WordPiece embeddings (30,000 WordPiece)

Learned positional embedding

[CLS] - Classification embedding

Packed sentence embedding [SEP]

Segment Embedding

Pre-training Tasks

Masked LM

Next Sentence Prediction
BERT: Fine-tuning Process

BERT vs GPT-1
Transingデータサイズ
GPT: 800M words (BookCorpus)

BERT: 2,500M words (BookCorpus and Wikipedia)

Training tokens during training
学習
BERT:[SEP],[CLS]、文A/B埋め込み.

Batch size
GPT: 32.000 words

BERT: 128,000 words

Task-specific fine-tuning
GPT:5 e-5の学習率は同じ
BERT:タスクごとに異なるlr
を適用
BERT: GLUE Benchmark Results

BERT: SQuAD

SQuAD 1.1

start wordとending wordに対してFCLを使用してFine Tuningを行います.
SQuAD 2.0
noの答えが含まれています.
BERT: On SWAG

以上の文章の中で、次の文を予測します:
BERT: Ablation Study

モデルは大きいほど役に立ちます.
第10回:高度な自己指導のトレーニングモデル

GPT-2

は本当に大きなTransformer Language Model
にすぎません
40 GBテキスト
データセットの品質を向上させるために大きな努力をした

zero-shot設定でタスクを実行できます.
GPT-2: Datasets
ページのスクロールで複数のテキストが収集されました.

Redde、ソーシャルメディアプラットフォーム、Webテキストなどからのクリップ.
45M links

人フィルタページ
少なくとも3つの賛を受け取った
ページ

バイト対符号化(BPE)前処理
GPT-2:モデル(変更点)
層の標準化は、各サブブロックの入力に移される.

最後のself−attention blockの後にレイヤ正規化が追加された.

モデルの深さの増加に伴い,残りの経路蓄積に関する部分初期化法が変化した.
Nが残層数である場合、残層の重みに1 nfrac{1}{sqrt{n}n 1を乗じる.
GPT-3

言語モデルたちの目標は少量のshot学習です!
少量shot learning:タスク完了の問題に適応するためにいくつかの例を参照してください

型のサイズを育成し、レンズ性能を向上させた.

175億パラメータ少レンズ設定
96注意層、3.2 Mの配置寸法

Zero-shot:自然言語の記述だけで答えを予測できる
One-shot:例を追加
Few-shot:いくつかの例を追加

Performance

Zero-shot性能はモデルサイズの増加に伴って
向上し続けている.
Few-shotのパフォーマンスは
より高速に向上
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

大型モデルの制限
メモリ制限
訓練速度
以下の解決策を提案した.
1) Factorized Embedding Parameterization
リンベチンベクトルでは少量の情報でも十分である.

によれば、以下のように分割することができる.
V = Vocabulary size

H = Hidden-state dimension

E = Word embedding dimension

2) Cross-layer Parmeter Sharing
Shared-FFN:層別共有
フィードフォワードネットワークパラメータ
Shared-注:層別共有注パラメータ
All-shard:両方をマージすると

Parameterの減少に伴い,性能に大きな差は見られなかった.
の既存モデルではパラメータの変化が大きいと考えられる.
3) (For Performance) Sentence Order Prediction
既存の「次へ」(NSP)は効果がありません.

SOP(Sevence Order Prediction)

NSPではSOPを解決することはできないが,SOPはNSPにおいても一定の高性能を示している.
GLUE Results

ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately

Generatorからmasking単語を復元し、Distributorから元か置換かに分類するモード.

性能は同じ条件下のBERTモデル
よりはるかに高い.
Light-weight Models

DistillBERT
教育モデルと学生モデルを用いて軽量化を行った.

TinyBERT
言語モデルの外部情報のマージ

ERNIE

KagNET
3.ピアセッションのクリーンアップ

BERT発表論文
に耳を傾ける
4.課題実行プロセス

抱擁顔の使い方などはゆっくりと身につける必要があります.
5.回顧

NLPコース終了.受講前と受講後、確かにトランスフォーマーについてある程度知っています.
私は初めて
の論文を読んで、毎週努力して1編を読み続けます.
6.明日やること

エンド

Reference

この問題について(AI Tech Day 33 (Advanced Self-supervised Pre-training Models)), 我々は、より多くの情報をここで見つけました https://velog.io/@f2f42012/AI-Tech-Day-33-Advanced-Self-supervised-Pre-training-Models

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

poj 3635(検索)

白俊#1236星を守る

AI Tech Day 33 (Advanced Self-supervised Pre-training Models)

1.今日のスケジュール

2.学習内容

NLP

第9回:自己指導の事前訓練モデル

最近の傾向

GPT-1

BERT

BERT: SQuAD

BERT: On SWAG

BERT: Ablation Study

第10回:高度な自己指導のトレーニングモデル

GPT-2

GPT-3

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately

Light-weight Models

言語モデルの外部情報のマージ

3.ピアセッションのクリーンアップ

4.課題実行プロセス

5.回顧

6.明日やること

Reference