(迫真)とかにマッチする正規表現パターン


初投稿です。

良く見るものを入れておきました。
Twitterクライアントのミュートワードにでも使ってみてください。

RegEx.364364
[\((](王者の風格|すっとぼけ|サイコパス|ガンギマリ|せっかち|ねっとり|思考停止|諸行無常|ドン引き|意味深|名推理|使命感|震え声|棒読み|半ギレ|淫夢|悟空|威圧|偏見|激寒|呆れ|恍惚|戒め|無知|妥協|提案|驚愕|池沼|正論|絶望|良心|哲学|便乗|困惑|脅迫|小声|適当|レ|素|[至名迷]言|大[嘘破]|[難幻]聴|[憤激]怒|届かぬ[思想]い|(?:察し|冊子)|(?:声だけ)?迫真|無(?:邪気|関心)|語録(?:無視)?|(?:ゲス|真)顏|(?:更|さら)なる高みへ|(?:.*?並(?:みの)?感想?|KONAMI|粉みかん))[\))]?

追記: 2014-11-15 17:00

さすがにゴリ押しすぎたので、発想変えてみます。

淫夢用語、特に(迫真)系は、

  • 〜じゃないですかね...
  • 〜なんだよなぁ...

などの後ろに発言者の状況を伝えるため補足的に使われることが多いです。
つまり、単独で使われることは少なく、かっこの直前には何かしらの文字が存在します。

また、

  • (レ)(素)を除き、かっこ内文字の多くは2文字以上です
  • [a-zA-Z0-9]が使われることはそんなにありません
    • 大抵ひらがな、もしくは漢字で構成されます
    • ただし、[^a-zA-Z0-9]にすると顔文字まで対象となってしまいます

改善案

以上を踏まえて正規表現パターンをつくってみました(いい感じのべんりな図はRegexperで作成)。

RegEx.okayama
.[\((][一-龠ぁ-んァ-ヶ]{2,}[\))]?

普通ですね。

精度

RegEx.364364は確実に淫夢用語話者のツイート・コメントにマッチしますが、新たに語句を追加・修正するのが難しいものでした。
そもそも(迫真)系は前述の通り発言者の状況や思考を伝えるための補助的なものの為、その場に応じて改変して使われることが多く、また、語句の流行り廃りも激しいです。

追記したRegEx.okayamaは使われる語句の傾向を読み、より柔軟に対応できるような正規表現パターンにしました。
上図が筆者TLからRegEx.okayamaでツイートを抽出したものですが、RegEx.364364に比べて格段に精度が上がりました(大胆な告白持ってるとはいっていないコンビニ など)。

問題点

かっこ内の半角英数字と記号を除く2文字以上にマッチするため、淫夢用語以外もマッチしてしまいます(上図だとオレンジの線を引いたものは前後の文脈から判断した普通のツイート)。

また、日本語を指定している部分など正規表現自体の理解が追いついていない為、パターン自体は幼稚な作りかと思います。閲覧者各位で修正し、使ってもらえればと思います。