シーンのテキスト認識における言語モデルを詳細に解説する。


一、言語モデルの定義
1.言語モデルは何ですか?

図1に示すように、名前の通りに、言語モデルは現在の文脈から現在の文の意味を推論します。具体的な標準は、言語シーケンスw 1,w 2,…wnに対して、言語モデルは、シーケンスの確率すなわちP(w 1,w 2,…wn)を計算することであると定義されている。
2.なぜ言語モデルが必要ですか?
テキスト画像には2つの情報が含まれています。視覚テクスチャ情報と言語情報です。視覚テクスチャ情報に基づいて文字認識を行うだけで文脈に関する文字意味情報の発掘が足りないため、誤ったテキスト認識結果を招くことがあります(後で詳しく説明します)。したがって、どのようにしてロバストの言語情報を取得して識別性能を向上させるかが、最近のシーンテキスト認識タスクで人気のある考え方となっている。
3.統計言語モデル(n-gram)
チェーンの法則で得られます。

極めて類似した推定を用いて、各語の出現条件確率を計算することができるが、任意の長い自然言語文に対しては、極めて類似している推定に基づいて、直接P(wn_w 1,w 2,・・wn−1)を計算することは明らかに非現実的である(計算量が大きすぎる)。この問題を解決するために、n-gram言語モデルはマルコフ仮説を導入しています。すなわち、現在の単語が出現する確率は前n-1語だけに依存していると仮定しています。
n=1 unigram:

n=2 bitgram:


このように、n-gramベースの言語モデルは、1)前n-1ワードのすべての情報を完全に含んでいるという利点があります。2)説明性が強い。対応にも欠点があります。2)パラメータ空間はnの増加とともに指数型成長を示した。3)単純に統計頻度に基づいて、汎化能力が悪い。
二、深さ学習に基づく解決思想
現在の深さ学習に基づく言語モデル構造には主に三つの種類が含まれています。RNNベースの言語モデルと、CNNベースの言語モデルとTransformerベースの言語モデルがあります。次にそれらを順次紹介して、彼らの長所と短所を一つ一つ分析します。
1.RNNによる言語モデル構造

図2 RNNに基づく言語モデル構造
深さ学習が進むにつれて、NLP(Natural Language Processing)などのタスクに啓発され、Leeら[1]は視覚的特徴モデリングの後、RNN(Recurrent Neural Networks)を導入することにより、従来のn-gramの代わりに言語モデル化を行う(図2に示す)。RNNは、自己回帰方式(Auto Regression)により、t時間ステップでt-1ステップの状態、すなわち、現在の時間ステップを予測するときは、前の時間ステップの情報を考慮しながら、注意力によってglimpseベクトルで対応する位置文字の視覚情報に注目する。この方法は煩雑なn-gram計算プロセスを省き、現在のシーンテキスト認識フレームにおいて支配的な地位を占めている。
しかし,RNNに基づく言語モデル構造には2つの問題がある:1)勾配消失/爆発の問題がある。2)シリアル計算の効率が遅い。従って,最近の方法はRNNの言語モデリング方式を改良した(文脈記憶力の差の問題は,部分的に最近の仕事では中/短いテキストに影響が少ないことを証明しているので,ここでは考慮していない)。
2.CNNによる言語モデル構造

図3視覚と言語モデルを統合したネットワークフレームワーク

図4 CNNベースの言語モデル構造
RNNによる勾配消失・爆発の問題を回避するために、Fangら[2]は全畳み込み神経ネットワークの構造を採用し、言語情報を並列の分岐により個別に学習し(図3)、視覚と言語情報を統合することにより識別結果を向上させた。
CNNベースの言語モデルは図4に示すように、所与の出力ベクトルは以下の式で得られる。


SK−2とSK−1は前の時間ステップに対応するベクトルであるので、この構造は近似的なbigram言語モデルと見なされる。しかし,この言語モデルもシリアルの動作過程であるため,計算効率も遅くなった。
3.Transformerによる言語モデル構造

図5視覚言語モデルの結合されたネットワーク構造

【図6】トランスフォーマーに基づく言語モデル構造
Yuら[3]言語モデルを視覚部分から結合し、2つの独立した構造の中で視覚と言語モデルのモデリングを行い、最後に視覚と言語情報を融合させてテキスト予測を行う(図5に示す)。言語モデル部分では、この方法はTransformerの構造(図6に示す)を採用し、Transformerのmarkによって言語構造における順序と逆順のモデリング過程をシミュレーションし、最終的には視覚と言語情報を適応的に融合させて識別する。Transformerの構造特性により、認識過程の異なる時間ステップ並列動作が識別効率を向上させた。
三、言語モデルの問題

図7言語情報は、識別結果の効果図(上:言語モデルがない。下:言語モデルを追加します。)
言語モデルは視覚情報が十分でない場合、識別の結果を向上させるのに役立つ。図7に示すように、言語モデルから抽出された言語情報は、視覚的な欠落、ボケ、ノイズの場合の正確な識別結果を効果的に支援することができる。言語モデルの向上効果は著しいが、OC(outside vocabulary)の問題もいくつか存在している。2)計算の複雑さが高い。
OC問題に対して、Wanら[4]は、現在の集中力に基づく方法は、訓練集中に出現したことのない語彙の中で誤りを識別しやすく、精度とテスト中にトレーニング集中を使用して出現した語彙の効果との間では、分割による識別方法より大きく、どのようにしてルートの言語モデルを獲得するかが課題であると指摘した。計算量の問題については、現在Transformerの応用は認識の傾向であり、並列計算によって識別効率を高めることができますが、長いテキストの認識に対しては、その計算量は明らかに増加します(RNNは線形成長であり、Transformerは平方成長です)。
四、未来の展望
言語モデルは最近シーンテキスト認識の分野で人気のある研究方向です。言語モデルの部分以降の研究は大きく二つの方向に分かれます。より強力な言語モデルを構築することによって、よりルパンの言語情報を獲得する方法です。2)能力。OC問題の影響をどう低減するか。3)計算量。どのように低い計算量の前提の下で効果的な言語情報を抽出しますか?
最近の方法では、視覚的特徴を捉えるだけでも良い効果が得られます。無秩序な識別(ナンバープレート識別)に対して、Yueら[6]は位置情報を導入して視覚的特徴を強化して識別する。したがって、著者にとっては、将来のテキスト認識の発展は、視覚と言語モデルの並行発展であり、異なる具体的な課題に対して異なる改善があるに違いない。
以上はシーンのテキスト認識における言語モデルの詳細を詳しく解説し、シーンのテキスト認識における言語モデルに関する詳細については、他の関連記事に注目してください。