pythonデータフィルタの概要

1585 ワード

データフィルタの概要
正規表現フィルタ
構文
import re
re.findall('     ')

メリットとデメリット
利点:簡単で乱暴で、文字列を入力すればいいので、欠点を解析する必要はありません:大きなHTMLコードをフィルタリングする場合、同じヘッダーに遭遇して一部しかフィルタリングできない可能性があります
ラベルフィルタ
構文
from bs4 import BeautifulSoup
soup.findall("a") #      
soup.findall(text = 'plants') #      (   re.complie()            )
soup.find_all(attrs={'class':''})

メリットとデメリット
ラベルを1つずつフィルタリングするには、i.textなどの方法でラベル内の情報を抽出したり、i.attrs[「target」]でターゲット属性の値を抽出したり、strに強制的に変換した後に正規表現で再抽出したりする必要があります.