python正規表現を使用してhtmlラベルを抽出する
234 ワード
不正なラベルも抽出され、後日改善されます
#!/usr/bin/python
import re
import sys
fp = open(sys.argv[1],"r")
mystr = fp.read();
ans = re.findall("</?[^><]+>",mystr)
for i in ans:
print i