dspam語法分析-チェーン分割
3084 ワード
回転http://www.extmail.org/forum/thread-21828-1-1.html
バイヤスネットワークに基づく二元文法中国語の分詞モデル
w 2|w 1はw 1が発生した場合w 2が出現する確率です.
順番と関係があります
バイヤスネットワークに基づく二元文法中国語の分詞モデル
w 2|w 1はw 1が発生した場合w 2が出現する確率です.
順番と関係があります
、 :
Dspam , 、 , , :
:ExtmailDevTeam;
:http://www.extmail.org/forum/thread-21828-1-1.html
:http://www.extmail.org
, , ;
, Dspam ;
Stevan Bajić ;
OSB、SBPH 、 " "
: “Token”
Tokenizer ,
token :
tokenize :
tokenizer :
token :
tokenize :
tokenizer :
tokenizers / , 。 。Dspam 。Dspam tokens, tokenizer。
、Dspam
1、WORD
Tokenizer 。
:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht " :
1、 Heute
2、 Abend
3、 war
4、 ich
5、 mit
6、 meiner
7、 Freundin
8、 im
9、 Kino
10、und
11、habe
12、viel
13、gelacht
DSPAM tokens:
* TOKEN: 'Heute' CRC: 6716984897371635712
* TOKEN: 'Abend' CRC: 6670531613365895168
* TOKEN: 'war' CRC: 4772677679197454336
* TOKEN: 'ich' CRC: 6329956816985784320
* TOKEN: 'mit' CRC: 5158417007107899392
* TOKEN: 'meiner' CRC: 4773009072114954240
* TOKEN: 'Freundin' CRC:13580161102417572361
* TOKEN: 'im' CRC: 5811385145726337024
* TOKEN: 'Kino' CRC: 6035516550826426368
* TOKEN: 'und' CRC: 6670506629311496192
* TOKEN: 'habe' CRC: 6712962585043402752
* TOKEN: 'viel' CRC: 5844870173739188224
* TOKEN: 'gelacht' CRC: 5158829993465032208
2、CHAIN
Tokenizer CHAIN (+ = ):
:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "
1、 Heute+Abend
2、 Abend+war
3、 war+ich
4、 ich+mit
5、 mit+meiner
6、 meiner+Freundin
7、 Freundin+im
8、 im+Kino
9、 Kino+und
10、und+habe
11、habe+viel
12、viel+gelacht
DSPAM chain tokens:
* TOKEN: 'Heute+Abend' CRC: 9299536586222406967
* TOKEN: 'Abend+war' CRC: 5205867775940263209
* TOKEN: 'war+ich' CRC: 6329956649787979024
* TOKEN: 'ich+mit' CRC: 5158416839735805488
* TOKEN: 'mit+meiner' CRC: 9567822050683308311
* TOKEN: 'meiner+Freundin' CRC:11339548565549479056
* TOKEN: 'Freundin+im' CRC: 7816109150855533158
* TOKEN: 'im+Kino' CRC: 6035516551245899312
* TOKEN: 'Kino+und' CRC: 3139684354012378707
* TOKEN: 'und+habe' CRC: 2029218973535212134
* TOKEN: 'habe+viel' CRC:15552379170419714363
* TOKEN: 'viel+gelacht' CRC: 5059261385542544937