python正規表現を使用してhtmlラベルを抽出する

234 ワード

不正なラベルも抽出され、後日改善されます
#!/usr/bin/python

import re
import sys

fp = open(sys.argv[1],"r")

mystr = fp.read();
ans = re.findall("</?[^><]+>",mystr)
for i in ans:
    print i