python htmlラベルの除去

1730 ワード

python htmlラベルの除去
    re_cdata=re.compile('//]*//\]\]>',re.I) #  CDATA
    re_script=re.compile(']*>[^',re.I) #Script
    re_style=re.compile(']*>[^',re.I)  #style
    re_br=re.compile('
')# html br , re_h=re.compile('?\w+[^>]*>') # HTML s=re_h.sub('',s) # HTML re_comment=re.compile('')#HTML s=re_cdata.sub('',htmlStr)# CDATA s=re_script.sub('',s) # SCRIPT s=re_style.sub('',s)# style s=re_br.sub('
',s)# br blank_line=re.compile('
+')# s = blank_line.sub('
',s) s=re_comment.sub('',s)# HTML # blank_line=re.compile('
+') s=blank_line.sub('
',s) filterTag = FilterTag() s=filterTag.replaceCharEntity(s)# print s re_charEntity=re.compile(r'?(?P\w+);') sz=re_charEntity.search(htmlStr) while sz: entity=sz.group()#entity , > key=sz.group('name')# &; (" "--->key = "nbsp") &; entity, > gt try: htmlStr= re_charEntity.sub(CHAR_ENTITIES[key],htmlStr,1) sz=re_charEntity.search(htmlStr) except KeyError: # htmlStr=re_charEntity.sub('',htmlStr,1) sz=re_charEntity.search(htmlStr) return htmlStr

python htmlラベルの除去
    re_h=re.compile('?\w+[^>]*>')#  HTML  
    s=re_h.sub('',htmlStr) #  HTML   

js htmlラベルの除去
htmlStr.replace(/]+>/g," ")