転載:MMSEG分詞アルゴリズムについて

2045 ワード

転載先:http://blog.csdn.net/pwlazy/article/details/17562927 最近MMSEG分詞アルゴリズムを見て,このアルゴリズムは簡単で効率的であり,著者らはこの規則が99.69%の精度に達し,93.21%の曖昧さがこの規則によって除去されると主張している.
核心思想は3つの可能な語(複数の組合せが存在する)を抽出し、4つの曖昧化規則に基づいてその組合せを選択するかどうかを決定することである.
1.       
 2.            
 3.           
 4.                  ,         ,        

 曖昧な規則の紹介
以下、それぞれ例を挙げて説明する
1.組み合わせの長さが最大
例えば長春市長春薬局、これは以下のいくつかの組み合わせがあります
   _  _  _
   _ _  _
  _  _  _
  _ _  _
 _ _  _

1つ目の組み合わせの長さが最も長いので、1つ目の方法で分詞し、実際の効果も合理的に見えます.
2.組み合わせの中で平均語長が最大
例えば国際化、これは次のような組み合わせがあります.
   _
  _ _
 _ _ _

明らかにルール1はフィルタリングできず,長さはいずれも3がルール2を通過した後,第1の組合せの平均長さは3/1=3,第2の組合せは3/2=1.5,第3の3/3=1であることが分かった. 最初の平均長さが一番大きいので、勝った.
このルールとルール1はあまり変わらないように見えますが、時には文が3つの語の組み合わせに分けられていない場合がありますので、2つの語を分けるだけで済む可能性があります上が例ですが、国際化が1つの語の組み合わせ/2つの語の組み合わせ/3つの語の組み合わせに分けられている場合があります.
3.ワード長の変化率が最小
例えば北京の大学生、これは以下のいくつかの集合があります
    _ _
  _   _
  _  _ _
  _ _  _
 _ _   _

明らかにルール1はフィルタできません.長さは5です.
ルール2の後に残る
    _ _
  _   _

上の2つの組み合わせの平均長さは5/2=2.5であり、その他は5/3=1.66である
ルール3を経て残り
  _   _

1つ目はsqrt((4-2.5)^2+(1-2.5)^2)/2)=1.5なので、これは私たちが望んでいることです.
後ろはsqrt(((3-2.5)^2+(2-2.5)^2)/2)=0.5で、2番目の変化は小さいので、後ろが勝つ
4.単語周波数自然対数累加計算
例えば施設やサービス、これは次のような組み合わせがあります
  _  _ _
  _ _  _
 _ _  _

ルール1のフィルタリングによって得られる
  _  _ _
  _ _  _

ルール2とルール3はどちらが勝つかを決めることができず、最後のルールの第1条の中の務と第2条の中の和を歩むしかなく、直観的に見ると、明らかに和の語周波数は日常のシーンの下で高く、これは1つの語周波数辞書に依存している. 和の語数で最後の分詞が決まったのは施設ですおよび_サービス_
どうして簡単な和ではなく自然対数の和を取るのですか.例えば、ある組み合わせには2つの単語があり、語周波数は3と7であり、もう1つは5と53+7=5+5であるが、ln 3+ln 7 小結
4つの規則から見ると,アルゴリズムは至る所で長さと均衡を強調している.
1.3          
2.         
3.           
4.            

これはやはり日常の言叶の习惯に合っていますが、なぜ3つの言叶を1つの组み合わせとして选んだのか、なぜ4ではないのかよく分かりません.5?
 反例
思いついた反例手を上げて 正しい分詞は_手_持ち上げる_で、本アルゴリズムのルールによってハンドルにフィルタリングされます.持ち上げる_来る