python表情記号を正規フィルタリングする

716 ワード

mysqlはデータベースを挿入する際、表情記号がある場合、データ型が一致しないエラーを報告することがよくあります.
表情記号は携帯電話側のユーザー名や会話によく登場しますが、一般的にデータベースutf 8をutf 8 mb 4に変更すれば問題なくアップロードできます
ただし、変更してもアップロードできない場合を排除しないので、pythonで表情記号をフィルタリングする方法を共有します
import re

Reモジュールを導入し、Pythonのreモジュール(Regular Expression正規表現)は様々な正規表現のマッチング操作を提供する.
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')

ここでは正則を定義し,highpointsはトップ以降の正則である.
nickname = highpoints.sub(u'', testdata)

nicknameは最後に得られた表情のないデータで、testdataはソースデータで、私たちはソースデータの中の表情を空に置き換えました
import re