javaは簡単な爬虫の今日のトップを実現します.

1881 ワード

前言
先に言っておきたいのは、今日の記事の特殊性のために、直接に文章の住所を取得することができません.文章のIDを取得してから、リンクして再度訪問してください.以下の話は多くなくなりました.直接コードを入れます.
サンプルコードは以下の通りです

public class Demo2 {

 public static void main(String[] args) {

  //            
  String url = "http://www.toutiao.com/news_finance/";
  //        (            group     ,       ,          html  )
  String url2="http://www.toutiao.com/group/";
  //      
  Connection connection = Jsoup.connect(url);
  Document content = null;
  try {
    //    
    content = connection.get();
  } catch (IOException e) {
    e.printStackTrace();
  }
  //      
  String htmlStr = content.html();
  //               ,    js     ,        dom        
  String jsonStr = StringUtils.substringBetween(htmlStr,"var _data = ", ";");
  System.out.println(jsonStr);
  Map parse = (Map) JSONObject.parse(jsonStr);
  JSONArray parseArray = (JSONArray) parse.get("real_time_news");
  Map map=null;
  List maps=new ArrayList<>();
  //    jsonArray,      json  ,       Map  (          group_id,       map)
  for(int i=0;i 
 
締め括りをつける
以上はこの文章の全部の内容です.本文の内容は皆さんの学習や仕事に一定の助けをもたらしてほしいです.もし疑問があれば、メッセージを残して交流してもいいです.