[Aiffel]Ipel 42第1回概念整理と回顧

2959 ワード

パイエッフェル Webスクロールベッツの定理公費教育 TF-IDF beautifulsoup newspaper3k テキストリンク

1.Webスクロール
1)使用済みパッケージ

BeautifulSoup

newspaper3k

2) BeautifulSoup

ソフトウェアパッケージ

、静的Webをスクロール

from bs4 import BeautifulSoup

#- HTML 문서를 문자열 html로 저장합니다.
html = '''
<html> 
    <head> 
    </head> 
    <body> 
        <h1> 장바구니
            <p id='clothes' class='name' title='라운드티'> 라운드티
                <span class = 'number'> 25 </span> 
                <span class = 'price'> 29000 </span> 
                <span class = 'menu'> 의류</span> 
                <a href = 'http://www.naver.com'> 바로가기 </a> 
            </p> 
            <p id='watch' class='name' title='시계'> 시계
                <span class = 'number'> 28 </span>
                <span class = 'price'> 32000 </span> 
                <span class = 'menu'> 악세서리 </span> 
                <a href = 'http://www.facebook.com'> 바로가기 </a> 
            </p> 
        </h1> 
    </body> 
</html>
'''

#- BeautifulSoup 인스턴스를 생성
#- 두번째 매개변수는 분석할 분석기(parser)의 종류
soup = BeautifulSoup(html, 'html.parser')

使用方法

soup.select('태그명')

関係を含む

`soup.select(「ラベル名」>「ラベル名」)

soup.select('태그명 .class #id)

3) newspaper3k
ニュースデータをスクロールするパッケージ
4)nive bayes分類器

ベッツ定理証明

P(A∣B)=P(A∩B)P(B)P(A|B) =\frac{P(A∩B)}{P(B)}P(A∣B)=P(B)P(A∩B)
P(A∩B)=P(A∣B)P(B)P(A∩B) = P(A|B)P(B)P(A∩B)=P(A∣B)P(B)
P(B∩A)=P(B∣A)P(A)P(B∩A) = P(B|A)P(A)P(B∩A)=P(B∣A)P(A)
P(B∩A)=P(B∣A)P(A)=P(A∣B)P(B)=P(A∩B)P(B∩A) = P(B|A)P(A) = P(A|B)P(B) = P(A∩B)P(B∩A)=P(B∣A)P(A)=P(A∣B)P(B)=P(A∩B)
P(B∣A)P(A)=P(A∣B)P(B)P(B|A)P(A) = P(A|B)P(B)P(B∣A)P(A)=P(A∣B)P(B)
P(B∣A)=P(A∣B)P(B)P(A)P(B|A) =\frac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)
5) TF-IDF
特定のドキュメントで単語別にドキュメントの関連性を理解するために使用します.
=各単語にドキュメントに関する情報がどれだけあるか.
1.TF:ドキュメントに特定の単語が何個出ているか

が複数回出現し、関連性が高いと仮定する

用語と残りの単語を区別できない重要度

IDF

重要でない文書を除外する方法

2.回顧
最終日です!後でGoing Deeperを行います途中で諦めようと思っていたのですが、どうしたのか、半分近くになってしまいました.できるかどうか考えていることが多いですが、自分なりにうまくやっていると思います.プログラマーレベル1も終わった以上、資料構造アルゴリズムの本を読み終え、レベル2をよく解くべきだ.時間が経つのは早いですね.

Reference

この問題について([Aiffel]Ipel 42第1回概念整理と回顧), 我々は、より多くの情報をここで見つけました https://velog.io/@gongsam/aiffel42

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

Weblogicがwebプロジェクトを導入

swfuplaod common-fileupload servletと組み合わせてファイルをアップロード