[論文コメント]言語モデルはユーザが管理するマルチタスク学習者である.


1. Introduction


機械学習システムはビッグデータセット,大容量モデル,指導的学習を用いて,彼らが訓練した課題(タスク)に優れている.しかし、現在のシステムは「強制通才」ではなく「狭隘な専門家」である.このような1つのタスクでのみ訓練される機械学習モデルを訓練するには,1対(dataset,object)が必要であるが,これは難しい.
逆に、mmultitask学習では、1つのモードが複数のタスクを解決できるため、このような問題は発生しません.この論文では,言語モデルがzero-shot設定の下で複数の下流タスクを実行できることを示した.このプロセスでは、パラメータやアーキテクチャを変更する必要はありません.

2. Approach


私たちの方法の核心は言語モデリングです.
p(x)=∏i=1np(sn∣s1,...,sn−1)p(x)=\prod_{i=1}^{n}p(s_n\mid s_1,...,s_{n-1})p(x)=i=1∏n​p(sn​∣s1​,...,sn−1​)
最近self‐attention構造を持つTransformerはこのような条件付き確率を良く表現した.
タスクを実行するフレームワークは、p(出力midinput)p(出力midinput)p(出力input)で表すことができます.マルチタスクを実行するフレームワークにはタスクに関する情報も必要であるため、p(出力mid input,task)p(出力mid input,task)p(出力\input,task)をモデリングする必要がある.
特定のタスクを設定すると、スキーマ・レベルで実行される場合があります.task-specificエンコーダとデコーダ、または特殊なアルゴリズムを使用する方法.しかし、McCannら(2018)に示すように、言語はtaskを指定する柔軟な方法を提供している.例えば、翻訳学習の例は、(translated to french,english task,french text)式の順序で書くことができる.

2.1 Training Dataset


私たちの目標は、大きな多様なデータのセットを最大限に作成することです.Common CrawlのようなWeb爬行法はデータ品質の問題がある良い方法の一つである.そのため、人間が企画/フィルタリングしたページがたくさん使われています.例えば,Redditから3業力以上の文章を収集するOutboundリンク.
このように収集されたデータセットをWebTextと呼ぶ.40 GBの800万件以上のドキュメントデータがあります.

2.2 Input Representation


General Language Modelは、文字列が現れる確率を計算し、文字列を生成することができる必要があります.しかしbyte-level LMは単語単位のLMであるため、上記の目標を達成することはできない.
バイト対符号化(BPE)は、文字レベルLMと文字レベルLMとの間の現実的な中間点である.BPEの動作原理は以下の通りである.
  • ディック郡のすべての単語を字単位で分けます.
  • で最も周波数の高いunigramペアを1つのunigramにマージします.
  • 2.指定した回数を繰り返す.
  • たとえば、開始フェーズは次のようになります.
    #dictionary
    h i g h : 5, h i g h e r : 2, n e w e s t : 6, w i d e s t : 3
    2回繰り返すとdicksherryの(e,s)対の周波数が最も高くなるため,(e,s)対をesにマージする.
    #updated dictionary
    h i g h : 5, h i g h e r : 2, n e w es t : 6, w i d es t : 3
    もう一度繰り返すと、9回の(es,t)がestにマージされます.
    #updated dictionary
    h i g h : 5, h i g h e r : 2, n e w est : 6, w i d est : 3
    詳細は以下の通りです.
    https://wikidocs.net/22592

    2.3 Model


    我々のモデルの多くはOpenAIのGPTモデルに従う.

    GPT−2とGPT−1の違いは層標準化の位置にある.GPT−1では、層正規化は各サブブロックの後に位置する.一方、GPT−2では、層正規化がサブブロックの入力部に移行する.さらに、最後のself−attention blockの後には、追加の層正規化も存在する.(画像ソース:https://supkoon.tistory.com/25)

    GPT-2はデコーダの個数によって4つのサイズに分けられる.(画像ソース:https://jalammar.github.io/illustrated-gpt2/)
    出典:Radford,Alecなど.「言語モデルは監督のないマルチタスク学習者です.」OpenAI blog 1.8 (2019): 9.