XMLファイルで文字列のみを抽出して処理する方法

1094 ワード

テキストリンク

XMLファイルで文字列のみを抽出して処理する機会がありました。

このニーズに対して、以下のようなスクリプトにより、実現することができました。

soup = BeautifulSoup(open(path,'r'), "xml")
elements = soup.findChildren(text=True, recursive=True)

ポイントは、text=Trueを与えている点で、テキストノードのみを取得することができました。

参考になりましたら幸いです。

この問題について(XMLファイルで文字列のみを抽出して処理する方法), 我々は、より多くの情報をここで見つけました https://zenn.dev/nakamura196/articles/93f85e26a3dc42

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Collection and Share based on the CC protocol