JAvaは簡単なネットワーク爬虫類コードの例を実現する

840 ワード

現在、市販されている爬虫類はpythonが多く、簡単に理解した後、簡単なページの爬虫類は、主にターゲットページ(html)を解析することだと思います.ではjavaはhtmlページを解析しやすいユーザーはいますか?jsoupパッケージを見つけました.htmlを解析するのにとても便利なツールですね.
使用方法も非常に簡単で、jarパッケージを導入します.


  org.jsoup
  jsoup
  1.8.3

httpツールを使用して、ターゲットページ全体のhtmlページ情報を取得するように要求し、jsoup解析を使用します.

//  html    
String html = getHtml();
//  jsoup html   Document  
Document doc = Jsoup.parse(html);
//           DOM  ,    。

まとめ
以上はjavaが簡単なネットワーク爬虫類コードを実現する例についてのすべての内容であり、皆さんの役に立つことを望んでいます.興味のある方は引き続き当駅を参照してください.
簡単なjava爬虫類のフレームワークを共有します
Java NIOインスタンスUDP送信受信データコード共有
Javawebアプリケーションはストリーム制限を使用して大量の同時要求の詳細を処理する
不足点があれば、コメントを歓迎します.友达の本駅に対する支持に感谢します!