dspam語法分析-チェーン分割

3084 ワード

回転http://www.extmail.org/forum/thread-21828-1-1.html
バイヤスネットワークに基づく二元文法中国語の分詞モデル
w 2|w 1はw 1が発生した場合w 2が出現する確率です.
順番と関係があります


 、  :
      Dspam     ,     、                   ,        ,         :

     :ExtmailDevTeam;
      :http://www.extmail.org/forum/thread-21828-1-1.html
    :http://www.extmail.org
           ,    ,    ;
       ,        Dspam       ;
  Stevan Bajić     ;
   OSB、SBPH           、      "           "

  :  “Token”     
Tokenizer    ,                 
token :  
tokenize :   
tokenizer :     
token :  
tokenize :           
tokenizer :     

     tokenizers      /  ,                       。             。Dspam              。Dspam     tokens,         tokenizer。



 、Dspam       

1、WORD
Tokenizer         。

    :"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "    :
1、 Heute
2、 Abend
3、 war
4、 ich
5、 mit
6、 meiner
7、 Freundin
8、 im
9、 Kino
10、und
11、habe
12、viel
13、gelacht

DSPAM        tokens:
* TOKEN: 'Heute' CRC: 6716984897371635712
* TOKEN: 'Abend' CRC: 6670531613365895168
* TOKEN: 'war' CRC: 4772677679197454336
* TOKEN: 'ich' CRC: 6329956816985784320
* TOKEN: 'mit' CRC: 5158417007107899392
* TOKEN: 'meiner' CRC: 4773009072114954240
* TOKEN: 'Freundin' CRC:13580161102417572361
* TOKEN: 'im' CRC: 5811385145726337024
* TOKEN: 'Kino' CRC: 6035516550826426368
* TOKEN: 'und' CRC: 6670506629311496192
* TOKEN: 'habe' CRC: 6712962585043402752
* TOKEN: 'viel' CRC: 5844870173739188224
* TOKEN: 'gelacht' CRC: 5158829993465032208


2、CHAIN
Tokenizer CHAIN         (+ =    ):

    :"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "
1、 Heute+Abend
2、 Abend+war
3、 war+ich
4、 ich+mit
5、 mit+meiner
6、 meiner+Freundin
7、 Freundin+im
8、 im+Kino
9、 Kino+und
10、und+habe
11、habe+viel
12、viel+gelacht 

DSPAM    chain  tokens:
* TOKEN: 'Heute+Abend' CRC: 9299536586222406967
* TOKEN: 'Abend+war' CRC: 5205867775940263209
* TOKEN: 'war+ich' CRC: 6329956649787979024
* TOKEN: 'ich+mit' CRC: 5158416839735805488
* TOKEN: 'mit+meiner' CRC: 9567822050683308311
* TOKEN: 'meiner+Freundin' CRC:11339548565549479056
* TOKEN: 'Freundin+im' CRC: 7816109150855533158
* TOKEN: 'im+Kino' CRC: 6035516551245899312
* TOKEN: 'Kino+und' CRC: 3139684354012378707
* TOKEN: 'und+habe' CRC: 2029218973535212134
* TOKEN: 'habe+viel' CRC:15552379170419714363
* TOKEN: 'viel+gelacht' CRC: 5059261385542544937