UnRTFで和文テキスト抽出


UnRTF( https://www.gnu.org/software/unrtf/ )で和文のテキストを抜き出すには、

$ unrtf 和文.rtf | w3m -dump -T text/html > 和文.txt

MS-Wordの旧型式(.doc)ファイルには、antiwordなどでRTFファイルだと判断されて失敗するものがあるけれど、そういうファイルはこれでテキストを抽出できる。