『Pythonネットワークデータ収集』読後感

911 ワード

トゥーリンコミュニティの電子書籍読書奨励計画に感謝します.
採集と爬虫類は一つの概念ですか?
これまでは、特定のページからデータを抽出することを「採集」と呼ぶのが合理的だと考えられていたが、この言葉は意味的に目的性があるからだ.「爬虫類」は無限にページを這い取り、リンクさえあれば下に這い続ける「明確な」目的はない.
また、単一のページ/Webサイトに注目すれば、爬虫類はより複雑になります(1つのページから別のページ/1つのサイトから別のサイトに移動する可能性があります).
しかし、この本では両者を厳密に区別していないが、本名は「ネットデータ収集」であり、紹介内容は私が想像していた採集もあり、爬虫類もあるため、両者は同じ概念であると考えられる.
まとめPythonに接触し始めたのも、強力な爬虫能力と強力なScrapyフレームワークを聞いたからだ.しかし、自分は単純な「採集」を実現しただけで、Scrapyを使った後、複雑すぎて諦めた.
だから本の中で言及した問題は私が経験したことがあると言って、JavaScriptが生成した内容、cookie、検証コードなど、そのためもっと深い体得があります.
全体の内容は簡単から複雑まで、最も簡単な内蔵ライブラリを使って1つのページをつかんで解析することから、複数のページを登ってデータベースに保存した後に意味分析を行うことまで、段階的に深く、初心者も著者について簡単な爬虫類を実現することができ、このように正のフィードバックがあり、もっと勉強したいと思っています.
基礎的な爬虫類のほかに、著者はもっと面白いものをたくさん紹介し、意味分析、訓練、機械学習など、省略しただけだが、学習の方向と動力を与えた.
だから初心者にとって、この本はなかなかいいですが、残念なことに、すべての例は海外のサイトに基づいているので、壁を越えることができなければ目を丸くするしかありません.