実習点滴(4)--CRFアルゴリズムの特徴テンプレートまとめ

1557 ワード

最近の仕事でCRFアルゴリズムやCRF++に触れたので、これらの一連のことを知り、CRFアルゴリズムのテンプレートの問題をまとめるつもりです.
深い学習(Deeplearning)は特徴テンプレートを必要とせず、自分で中の法則を学ぶことができ、CRFは特徴テンプレートを必要とするので、どのような特徴テンプレートを選択するかが重要であることを知っています.
コンセプト:
CRFにはU-gramとB-gram U-gram、すなわちUnigram templateの2つのテンプレートが存在し、unigram featureを記述している.
現在の位置にのみ対応するラベルに関連するフィーチャーを表す一元テンプレート
if (output = B and feature="U02: ") 
    return 1
else 
    return 0

B-gram:Bigram templateでもあります.
前の位置と現在の位置に対応するラベルに関連する特徴を表す二元テンプレート
カテゴリ数が大きい場合、このタイプは多くの区別可能な特徴を生み出し、トレーニングとテストの効率が低下します.
例の説明:
例は次のとおりです.
# Unigram  
U00:%x[-2,0]  
U01:%x[-1,0]  
U02:%x[0,0]  
U03:%x[1,0]  
U04:%x[2,0]  
U05:%x[-2,0]/%x[-1,0]/%x[0,0]  
U06:%x[-1,0]/%x[0,0]/%x[1,0]  
U07:%x[0,0]/%x[1,0]/%x[2,0]  
U08:%x[-1,0]/%x[0,0]  
U09:%x[0,0]/%x[1,0]  
   
# Bigram  
B  
もし私たちが訓練した語料文が:私は中国人です(以下:-2,-1,0,1,2)、私たちが考えている現在の位置は「中」です.
U 0-U 4フィーチャーテンプレート:ある位置と現在の位置の情報との関係を表します.例えば、U 00は、「私」と「中」のつながりを指します.
U 5--U 7フィーチャーテンプレート:ある3つの位置と現在の位置の情報との関係を表します.例えば、U 05は、「私」、「はい」、「中」、「中」の間のつながりを指します.
U 8-U 9フィーチャーテンプレート:ある2つの位置と現在の位置の情報との関係を表します.例えば、U 08は、「はい」、「中」、「中」のつながりを指します.
一般的にはUnigramを使えば十分です.Bigramを使用する場合は、最も簡単なテンプレートも使用します.効率が低下する効果をもたらします.
例えば私たちが品詞表記の仕事をしているとき、「動詞の後は名詞になりやすいので、ある位置の品詞はその近くの語の品詞と大きく関係している」ということを知っているので、この場合、動詞の後名詞の確率が高くなり、「動詞の後名詞の確率が高い」ということを指します
注意:
  • #先頭の行が機能しない場合は、コメントです.
  • 行と行の間に空の行があり得る.
  • Unigramのフィーチャーの前にアルファベットUを使用し、Bigramのフィーチャーの前にアルファベットBを使用します.後の数字は特徴を区別するために使われますが、もちろんこれらの数字は必ずしも連続しているわけではありません.