オープンソースphp中国語分詞システムSCWSのインストールと使用例

2776 ワード

一、SCWSの紹介
SCWSはSimple Chinese Word Segmentationの頭文字の略語(すなわち、簡易中国語分詞システム)である.これは語周波数辞書に基づく機械的な中国語分詞エンジンで、中国語のテキスト全体を基本的に正確に語に分けることができます.語は中国語の最小の語素単位であるが、書くときは英語のように語間をスペースで分けるわけではないので、どのように正確かつ迅速に分詞するかは中国語の分詞の難点である.SCWSは純粋なC言語で開発され、外部ライブラリ関数に依存せず、動的リンクライブラリを直接使用してアプリケーションを埋め込むことができ、サポートされる中国語符号化にはGBK、UTF-8などが含まれている.また、PHP拡張モジュールも提供されており、PHPでは分詞機能を迅速かつ容易に使用できます.分詞アルゴリズムにはあまり革新的な成分はなく、自分で採集した語周波数辞書を採用し、一定の専有名称、人名、地名、デジタル年代などの規則認識を補佐して基本分詞に達し、小範囲のテスト精度は90%~95%の間で、基本的に小型検索エンジン、キーワード抽出などの場面で運用することができる.初の雛形バージョンは2005年末にリリースされた.SCWSはhightmanによって開発され、BSDライセンスプロトコルでオープンソースで公開され、ソースコードはgithubに管理されている.
二、scwsインストール
 
  
# wget -c http://www.xunsearch.com/scws/down/scws-1.2.1.tar.bz2
# tar jxvf scws-1.2.1.tar.bz2
# cd scws-1.2.1
# ./configure --prefix=/usr/local/scws
# make && make install

三、scwsのPHP拡張インストール
 
  
# cd ./phpext
# phpize
# ./configure --with-php-config=/usr/local/php5410/bin/php-config
# make && make install
# echo "[scws]" >> /usr/local/php5410/etc/php.ini
# echo "extension = scws.so" >> /usr/local/php5410/etc/php.ini
# echo "scws.default.charset = utf-8" >> /usr/local/php5410/etc/php.ini
# echo "scws.default.fpath = /usr/local/scws/etc/" >> /usr/local/php5410/etc/php.ini

四、辞書のインストール
 
  
# wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
# chown www:www /usr/local/scws/etc/dict.utf8.xdb

五、phpインスタンスコード.SCWS公式APIの説明を詳しくご覧いただけます
 
  
//
 $so = scws_new();
 //
 $so->set_charset('utf-8');
 // ( utf8 )
 $so->set_dict('/usr/local/scws/etc/dict.utf8.xdb');
 //
 $so->set_rule('/usr/local/scws/etc/rules.utf8.ini ');
 //
 $so->set_ignore(true);
 // , “ ” “ + + ” 。
 $so->set_multi(true);
 //
 $so->set_duality(true);
 //
 $so->send_text(“ IT ”);
 // , get_tops
 while ($tmp = $so->get_result())
 {
     print_r($tmp);
 }
 $so->close();

配列結果の説明を返します.
 
  
word   _string_  
idf        _float_  
off         _int_  
attr       _string_

六、オンラインAPIもオンラインAPIを使って中国語の分詞を実現することができ、APIアドレス:http://www.xunsearch.com/scws/api.phpあ、詳しい説明もアドレスにあります.