Javaアルゴリズムツリーを巡る


👉本日のアレンジ(ツリー巡り)


検索エンジン:


検索エンジン(Web search engine)は本当に何度も聞いたことがあり、何度も使ったことがありますが、Pythonを使って簡単にスクロールするときは、資料収集にメリットがあるとしか思えず、関連付けられていません.読書をしていると、頭の中に雑然と広がっている雑誌式が整理されたようで、小さな喜びが生まれた.(変態のように)検索エンジンは、Google、Bing、Naverのような一連の検索語を受信し、それに関連するページのリストを返します.
よく知っている検索エンジンに必要な要素を理解してみましょう.

  • スクロール:Webページをダウンロード、分割し、テキストと他のページのリンクを抽出するプログラムです.

  • ≪索引|Index|oem_src≫:クエリーをクエリーし、クエリーを含むページを検索するために必要なデータ構造.

  • ≪検索|Search|emdw≫:索引から結果を収集し、検索語に最も関連するページを決定します.
  • 今日私たちが議論するのはスクロールです.

    HTMLグループ:


    Webページをダウンロードする場合、コンテンツはハイパーテキストタグ言語(HTML)で作成されます.スクロールは、これらのページから本文とリンクを抽出する必要があります.Pythonを学ぶときに使うエステスープのように、JavaはオープンソースJavaライブラリjsoupを使用します.現在、HTMLが持つ文書オブジェクトモデル(DOM)構造は、ノード間のツリー構造である.木の構造は枝のように上部のルートノードから延び、ノード間の関係を形成する.
    この画像では、ルートノードが2、6が7のサブノード7が6の親ノードである.これらのツリー構造HTMLのDOM構造は6-1の図で表される.
    各ノードにはサブノードへのリンクが含まれ、各ノードには親ノードへのリンクが含まれているため、ツリーを上下にナビゲートできます.ここでは、基本的なDOM構造について理解し、次にスクロールしてみましょう.

    jsgroupを使用するには:


    jsgroupライブラリをそれぞれ使用するツールに配置し、次のコードを使用してpラベルの内容を受信します.次に、次の記事で正式なスクロールを作成します.
    		//문서를 다운로드하고 파싱하기
    		Connection conn = Jsoup.connect(url);
    		Document doc = conn.get();
    		
    		// 내용선택후 단락 추출
    		Element content = doc.getElementById("mw-content-text");
    		Elements paras = content.select("p");