PHPAnalysis中国語分詞類の詳細
2432 ワード
PHPAnalysisは現在広く使われている中国語の分詞類で、逆マッチングモードの分詞を使用しているので、互換性のある符号化がもっと広く、現在はその変数を常用関数と詳しく説明します。
一、重要なメンバー変数
$レスリングType = 1 生成した分詞結果のデータの種類(1は全部、2は辞書の語彙と単一の中日韓の簡繁体字と英語、3は辞書の語彙と英語) この変数は主にSetResultType($rstype)という方法で設定されます。not Splight = 5 文の最短長さを切り分けます。 = false 英語の単語を全部小文字にする = false 最大分割モードを使って、二元語に曖昧性解消を行います。 = true 単語の結合を試みます。すなわち、新語認識です。differFreeq。 = false ホットワード優先モードで曖昧性解消
二、主要メンバー関数のリスト
1、public function_uconstruct($source_)charset='utf-8',targt_charset='utf-8',$load_all=true、$source=')関数説明:コンストラクタパラメータリスト:$source_charset ソース文字列コード$targt_charset ディレクトリ文字列コード$load_all. 辞書を完全にロードするかどうか(このパラメータは無効になりました)$source ソース文字列は、入出力がすべてutf-8である場合、実際には任意のパラメータを用いて初期化する必要はなく、SetSource方法で操作するテキストを設定することができます。
2、public function SetSource($source、$source)charset='utf-8',targt_charset='utf-8')関数説明:ソース文字列パラメータリストを設定します。 ソース文字列$source_charset ソース文字列コード$targt_charset ディレクトリ文字列コードの戻り値:book
3、public function StartAnalysis($optimize=true)関数説明:分詞操作パラメータリストの実行を開始します。 単語を区切った後、最適化結果の戻り値を試してみませんか?voidの基本的な分詞プロセス://////////////////////////////////////////////pa=new PhyAnalysis();
$pa->SetSource('は単語を分ける文字列が必要です')
//分詞属性を設定する$pa->レスリングType=2;。pa->ディfferMax = true;
$pa->StartAnalysis();
//あなたが欲しい結果を取得します。
4、public function SetResultType関数の説明:戻り結果を設定するタイプは実際にメンバー変数に対しての操作パラメータです。1は全部で、2は辞書語彙と単一の中日韓簡体字と英語で、3は辞書語彙と英文の返却値です。void
5、public function GetFinallyKeywords($num=10)関数説明:出現頻度が最も高い指定された語数(通常は文書のキーワードを抽出するために使用される)パラメータリストを取得する:num=10 語数の戻り値を返します。「,」で区切られたキーワードリスト
6、public function GetFinallyResult($spword=')関数説明:最終分詞結果パラメータリストを取得する:spword 語条間の区切り記号の戻り値:string
7、public function GetSimpleResult()関数説明:粗分結果の戻り値を得る:array
8、public function GetSimpleResultAll()関数の説明:属性情報を含む太分結果属性(1中国語の語句、2 ANSIの語彙(全角を含む)、3 ANSIの句読点(全角を含む)、4数字(全角を含む)、5中国語の句読点、または単語の認識ができない)を取得して値を返します。
9、public function GetFinallyIndex()関数の説明:hashインデックス配列の戻り値を取得する:array('word'=>count,...)は出現頻度で並べ替えられます。
10、public function MakeDict($source_)file,ドルtargt_file=')関数説明:テキストファイルの辞書を辞書のパラメータリストにコンパイルします。file ソーステキストファイル$file ターゲットファイル(指定されていない場合は現在の辞書)の戻り値:void
11、public function ExportDict($tagetfile)関数説明:現在の辞書のすべての語句をテキストファイルのパラメータリストとしてエクスポートします。 ターゲットファイルの戻り値:void
一、重要なメンバー変数
$レスリングType = 1 生成した分詞結果のデータの種類(1は全部、2は辞書の語彙と単一の中日韓の簡繁体字と英語、3は辞書の語彙と英語) この変数は主にSetResultType($rstype)という方法で設定されます。not Splight = 5 文の最短長さを切り分けます。 = false 英語の単語を全部小文字にする = false 最大分割モードを使って、二元語に曖昧性解消を行います。 = true 単語の結合を試みます。すなわち、新語認識です。differFreeq。 = false ホットワード優先モードで曖昧性解消
二、主要メンバー関数のリスト
1、public function_uconstruct($source_)charset='utf-8',targt_charset='utf-8',$load_all=true、$source=')関数説明:コンストラクタパラメータリスト:$source_charset ソース文字列コード$targt_charset ディレクトリ文字列コード$load_all. 辞書を完全にロードするかどうか(このパラメータは無効になりました)$source ソース文字列は、入出力がすべてutf-8である場合、実際には任意のパラメータを用いて初期化する必要はなく、SetSource方法で操作するテキストを設定することができます。
2、public function SetSource($source、$source)charset='utf-8',targt_charset='utf-8')関数説明:ソース文字列パラメータリストを設定します。 ソース文字列$source_charset ソース文字列コード$targt_charset ディレクトリ文字列コードの戻り値:book
3、public function StartAnalysis($optimize=true)関数説明:分詞操作パラメータリストの実行を開始します。 単語を区切った後、最適化結果の戻り値を試してみませんか?voidの基本的な分詞プロセス://////////////////////////////////////////////pa=new PhyAnalysis();
$pa->SetSource('は単語を分ける文字列が必要です')
//分詞属性を設定する$pa->レスリングType=2;。pa->ディfferMax = true;
$pa->StartAnalysis();
//あなたが欲しい結果を取得します。
4、public function SetResultType関数の説明:戻り結果を設定するタイプは実際にメンバー変数に対しての操作パラメータです。1は全部で、2は辞書語彙と単一の中日韓簡体字と英語で、3は辞書語彙と英文の返却値です。void
5、public function GetFinallyKeywords($num=10)関数説明:出現頻度が最も高い指定された語数(通常は文書のキーワードを抽出するために使用される)パラメータリストを取得する:num=10 語数の戻り値を返します。「,」で区切られたキーワードリスト
6、public function GetFinallyResult($spword=')関数説明:最終分詞結果パラメータリストを取得する:spword 語条間の区切り記号の戻り値:string
7、public function GetSimpleResult()関数説明:粗分結果の戻り値を得る:array
8、public function GetSimpleResultAll()関数の説明:属性情報を含む太分結果属性(1中国語の語句、2 ANSIの語彙(全角を含む)、3 ANSIの句読点(全角を含む)、4数字(全角を含む)、5中国語の句読点、または単語の認識ができない)を取得して値を返します。
9、public function GetFinallyIndex()関数の説明:hashインデックス配列の戻り値を取得する:array('word'=>count,...)は出現頻度で並べ替えられます。
10、public function MakeDict($source_)file,ドルtargt_file=')関数説明:テキストファイルの辞書を辞書のパラメータリストにコンパイルします。file ソーステキストファイル$file ターゲットファイル(指定されていない場合は現在の辞書)の戻り値:void
11、public function ExportDict($tagetfile)関数説明:現在の辞書のすべての語句をテキストファイルのパラメータリストとしてエクスポートします。 ターゲットファイルの戻り値:void