UnRTFで和文テキスト抽出
UnRTF( https://www.gnu.org/software/unrtf/ )で和文のテキストを抜き出すには、
$ unrtf 和文.rtf | w3m -dump -T text/html > 和文.txt
MS-Wordの旧型式(.doc)ファイルには、antiwordなどでRTFファイルだと判断されて失敗するものがあるけれど、そういうファイルはこれでテキストを抽出できる。
Author And Source
この問題について(UnRTFで和文テキスト抽出), 我々は、より多くの情報をここで見つけました https://qiita.com/mori_taksi/items/8022e3119ba52a2944c0著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .