beautiful soup4のインスタンス生成時に、lxmlを指定するとスクレイピング時にデータが欠落した問題


現象

30件データを取得したいにも関わらず、14件しか取得できません。

解決策

パース前にパース対象を下記のコードのように、shift-jisからutf-8に変換しておく必要があります。

soup = BeautifulSoup(c.decode("CP932"), "lxml")