NLPにおけるsubword符号化方式のまとめ

2293 ワード

NLP subword:

1.従来の方法のスペースtoken

伝統語の表現方法では、未知または珍しい語彙(OOV問題)

をうまく処理できません.

伝統語tokenization法はモデル学習接尾辞間の関係に不利である

E.g.モデルで学んだ「old」、「older」、and「oldest」の関係は「smart」、「smarter」、and「smartest」

に広がらない.

2.byte pair encoding(BPE)

BPE(バイトペア)符号化または二元符号化は単純なデータ圧縮形式であり、最も一般的な連続バイトデータのペアがデータに存在しないバイトに置き換えられる
簡単な例を挙げます.
文にlow,lowerが存在する場合,lowを結合して1文字と見なすことができる.
エンコーディング:

#  
[“the”, “highest”, “mountain”]

#  subword 
[“errrr”, “tain”, “moun”, “est”, “high”, “the”, “a”]

#  
"the" -> ["the"]
"highest" -> ["high", "est"]
"mountain" -> ["moun", "tain"]

デコード:

#  
[“the”, “high”, “est”, “moun”, “tain”]

#  
“the highest mountain”

の利点

は、用語集のサイズとステップ数(文を符号化するために必要なtokenの数)を効果的にバランスさせることができる.

欠点

は、貪欲および決定されたシンボル置換に基づいて、確率を伴う複数のスライス結果を提供することができない.

3.WordPiece

WordPieceアルゴリズムはBPEの変種と見なすことができる.異なる点は、WordPieceが次の最高周波数バイト対ではなく、尤度確率に基づいて新しいsubwordを生成することである.
choose the new word unit out of all possible ones that increase the likelihood on the training data the most when added to the model(この言葉をどう理解するか、とても面白い)

4.Unigram Language Model

Unigramのコンセプト
履歴情報を使用せずに、単語の出現順序は単語自体の出現確率にのみ関係します.例を挙げます.

i live in osaka . 
i am a graduate student .  
my school is in nara .

P(nara) = 1/20 = 0.05
P(i) = 2/20 = 0.1 
P() = 3/20 = 0.15

P(W=i live in nara . ) =0.1 * 0.05 * 0.1 * 0.05 * 0.15 * 0.15 = 5.625 * 10-7

未知の文字についてどうする?

確率は0

と見なす.

無視

は、小さな確率

を与える.

総単語数

を推測する
unigramはsubwordで使用されます.
1.比較的大きなsubword数を設定します.
2.subword数を固定し、EMアルゴリズムを用いて各subwordが出現する確率を計算する.各単語に現れるlossを計算します.単語のloss順に並べ替えて、subwordの80%しか残っていません.OOVが発生しないことを保証するためにcharacterを保持します.

5.ワードLEVELコード（中国語）

中国語の常用字は数千しかないため、中国語は通常直接字で符号化される.しかし、匍匐、ブドウなど、ほとんど単独では現れない字もあります.いくつかの細かいコードは彼らを一つの言葉と見なします.

Reference:

https://zhuanlan.zhihu.com/p/86965595
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37842.pdf
https://arxiv.org/pdf/1804.10959.pdf

210831[46]大邱AI学院普通課程Webプログラミング1 javascript変数とデータ型start+月末評価

じどうコーディング