Openccは簡体字中国語と繁体字中国語の変換問題を解決する【python】

3397 ワード

1.Opencc-python
今日はテキスト分析で繁体字中国語をどのように分割するかという問題を学び、繁体字中国語をまず簡体字中国語に変換することを連想し、ネット上の資料を調べた後、opencc-pythonが使いやすいことを発見し、zh_をダウンロードしました.wiki.pyとlangconv.py、この2つのファイルをpythonコードがあるディレクトリに置けばいいです.
まず後者が直面した問題についてお話しします
anacondaしかインストールしていないので、pythonは別途インストールしていないので、ネット上のチュートリアルに従って環境を構成することはできませんが、pythonをインストールすれば比較的簡単にできるはずです
Opencc-pythonの問題
これも簡単だと思っていたが、意外にも午後になった.もしネットの教程に従うならば、私がanaconda promptの中でまだ命令の行の中でpip install opencc-pythonを利用してインストールしてすべて間違いを報告します(私の間違いが403であることを提示して、この間違いは今まだ解決の方法があることを見ていません)、がっかりしないでください
GitHubで正しい開き方を見つけました!!!
もとは、このライブラリを開発した作者がインストールコードを更新しました!すぐにanaconda promptを開けて実行して、インストールに成功しました!!そしてopencc-pythonはPython 2にある.7とPython 3.x.運行、感動天地!!インストールコードは次のとおりです.
pip install opencc-python-reimplemented

使用法
from opencc import OpenCC
cc = OpenCC('s2t')  #             
to_convert = '      '
converted = cc.convert(to_convert)
converted
#Output:'      '
cc.set_conversion('s2tw')  #            (     )
print(cc.convert(to_convert))
#Output:       

変換コード
hk 2 s:繁体字中国語(香港標準)転簡体字中国語
s 2 hk:簡体字中国語転繁体字中国語(香港標準)
s 2 t:簡体字中国語から繁体字中国語へ
s 2 tw:簡体字中国語を繁体字中国語に変換(台湾標準)
s 2 twp:簡体字中国語から繁体字中国語へ(フレーズ付き)
t 2 hk:繁体字中国語転繁体(香港標準)
t 2 s:繁体字中国語変換簡体字
t 2 tw:繁体字中国語転繁体字(台湾標準)
tw 2 s:繁体字中国語(台湾標準)転簡体字中国語
tw 2 sp:繁体字中国語(台湾標準)転簡体字中国語(フレーズ付き)
詳細はopencc-pythonを参照してください
2. python-pinyin-jyutping-sentence
繁体字簡体字変換のほか、簡体字中国語、広東語をピンインに変換するものも見つかった.このプロジェクトは共通語と広東語を作るためのカードだが、広東人として広東語で翻訳されたピンインはあまり読めない.でもおもしろい!みんなに分かち合います~
インストール
pip install pinyin_jyutping_sentence

使用法
import pinyin_jyutping_sentence
pinyin_jyutping_sentence.pinyin("    ")
# Output:'tígāo kǒuyǔ'
pinyin_jyutping_sentence.jyutping("      ")
# Output:'ngǒ cēothêoi ló jěsik'

詳細は、簡体字、広東語のピンインを参照してください.