python htmlラベルの除去
1730 ワード
python htmlラベルの除去
python htmlラベルの除去
js htmlラベルの除去
re_cdata=re.compile('//]*//\]\]>',re.I) # CDATA
re_script=re.compile(']*>[^',re.I) #Script
re_style=re.compile(']*>[^',re.I) #style
re_br=re.compile('
')# html br ,
re_h=re.compile('?\w+[^>]*>') # HTML
s=re_h.sub('',s) # HTML
re_comment=re.compile('')#HTML
s=re_cdata.sub('',htmlStr)# CDATA
s=re_script.sub('',s) # SCRIPT
s=re_style.sub('',s)# style
s=re_br.sub('
',s)# br
blank_line=re.compile('
+')#
s = blank_line.sub('
',s)
s=re_comment.sub('',s)# HTML
#
blank_line=re.compile('
+')
s=blank_line.sub('
',s)
filterTag = FilterTag()
s=filterTag.replaceCharEntity(s)#
print s
re_charEntity=re.compile(r'?(?P\w+);')
sz=re_charEntity.search(htmlStr)
while sz:
entity=sz.group()#entity , >
key=sz.group('name')# &; (" "--->key = "nbsp") &; entity, > gt
try:
htmlStr= re_charEntity.sub(CHAR_ENTITIES[key],htmlStr,1)
sz=re_charEntity.search(htmlStr)
except KeyError:
#
htmlStr=re_charEntity.sub('',htmlStr,1)
sz=re_charEntity.search(htmlStr)
return htmlStr
python htmlラベルの除去
re_h=re.compile('?\w+[^>]*>')# HTML
s=re_h.sub('',htmlStr) # HTML
js htmlラベルの除去
htmlStr.replace(/]+>/g," ")