Pythonは中国語の正規表現にマッチします。

2074 ワード

python 正則マッチ中国語

正規表現はPythonの一部ではありません。正規表現は文字列を処理するための強力なツールで、独自の文法と独立した処理エンジンを持っています。この点のおかげで、正規表現を提供した言語では、正規表現の文法は同じであり、違いは異なるプログラミング言語でサポートされる文法の数が異なるだけである。しかし、心配しないでください。サポートされていない文法はよく使われていない部分です。
Python正規表現の概要
正規表現は特殊な文字列です。文字列が何らかのパターンにマッチするかどうかを確認するのに便利です。
Pythonは1.5バージョンからreモジュールを追加し、Perlスタイルの正規表現モードを提供します。
レモジュールはPython言語に正規表現機能をすべて持たせる。
comppile関数は、モード文字列とオプションのフラグパラメータから正規表現オブジェクトを生成します。このオブジェクトは正規表現のマッチングと置換のための一連の方法を持っています。
REモジュールはまた、これらの方法の機能と完全に一致する関数を提供し、これらの関数はそれらの最初のパラメータとしてモード文字列を使用する。
以上述べたのはすべて本文のために下地を作ったのです。python正則表現はどのように中国語にマッチしますか？


# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
res=re.findall(regex, text)
if res:
print "There are %d %s parts:
"% (len(res), name)
for r in res:
print "\t",r.encode("utf8")
print
text ="#who#helloworld#a  x#"
usample=unicode(text,'utf8')
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")

注:
いくつかの主要な非英語文字の範囲
2 E 80～33 FFh：中日韓シンボルエリア。康熙字典部首、中日韓補助部首、注音記号、日本仮名、韓国語音符を収容し、中日韓の記号、句読点、丸付きまたは丸付き数字、月及び日本の仮名組み合わせ、単位、年号、月、日付、時間などを含む。
3400～4 DFFh：中日韓は表意文字の拡充を認め、合計6,582個の中日韓漢字を収容する。
4 E 00～9 FFFh：中日韓は表意文字エリアを認め、合計20,902個の中日韓漢字を収容する。
A 000～A 4 FFh：イ族文字区で、中国南方イ族文字と字根を収容しています。
AC 00～D 7 FFh：韓国語ピンインの組み合わせ字エリアで、韓国語の音符で綴られた文字を収容します。
F 900～FAFFh：中日韓互換文字エリアで、合計302個の中日韓漢字が収容されています。
FB00～FFFDh：文字表現形式エリアでは、ラテン文字、ヘブライ文字、アラビア語、中日韓直角句読点、小記号、半角記号、全角を組み合わせて収容しています。


(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-
import re
message = u'    '.encode('utf8')
print(re.search(u' '.encode('utf8'), message).group())
        
>>> import re
>>> s='Phone No. 010-87654321'
>>> 
>>> r=re.compile(r'(\d+)-(\d+)')
>>> m=r.search(s)
>>> m
<_sre.SRE_Match object at 0x010EE218>
)

以上は小編で紹介したPython正則表現が中国語にマッチする方法です。

C言語配列ポインタの小さい例

C〓memcachedキャッシュは実例コードを使用します。