pythonデータフィルタの概要
1585 ワード
データフィルタの概要
正規表現フィルタ
構文
メリットとデメリット
利点:簡単で乱暴で、文字列を入力すればいいので、欠点を解析する必要はありません:大きなHTMLコードをフィルタリングする場合、同じヘッダーに遭遇して一部しかフィルタリングできない可能性があります
ラベルフィルタ
構文
メリットとデメリット
ラベルを1つずつフィルタリングするには、i.textなどの方法でラベル内の情報を抽出したり、i.attrs[「target」]でターゲット属性の値を抽出したり、strに強制的に変換した後に正規表現で再抽出したりする必要があります.
正規表現フィルタ
構文
import re
re.findall(' ', )
メリットとデメリット
利点:簡単で乱暴で、文字列を入力すればいいので、欠点を解析する必要はありません:大きなHTMLコードをフィルタリングする場合、同じヘッダーに遭遇して一部しかフィルタリングできない可能性があります
ラベルフィルタ
構文
from bs4 import BeautifulSoup
soup.findall("a") #
soup.findall(text = 'plants') # ( re.complie() )
soup.find_all(attrs={'class':''})
メリットとデメリット
ラベルを1つずつフィルタリングするには、i.textなどの方法でラベル内の情報を抽出したり、i.attrs[「target」]でターゲット属性の値を抽出したり、strに強制的に変換した後に正規表現で再抽出したりする必要があります.