[Aiffel]Ipel 42第1回概念整理と回顧


1.Webスクロール
1)使用済みパッケージ
  • BeautifulSoup
  • newspaper3k
  • 2) BeautifulSoup
  • ソフトウェアパッケージ
  • 、静的Webをスクロール
    from bs4 import BeautifulSoup
    
    #- HTML 문서를 문자열 html로 저장합니다.
    html = '''
    <html> 
        <head> 
        </head> 
        <body> 
            <h1> 장바구니
                <p id='clothes' class='name' title='라운드티'> 라운드티
                    <span class = 'number'> 25 </span> 
                    <span class = 'price'> 29000 </span> 
                    <span class = 'menu'> 의류</span> 
                    <a href = 'http://www.naver.com'> 바로가기 </a> 
                </p> 
                <p id='watch' class='name' title='시계'> 시계
                    <span class = 'number'> 28 </span>
                    <span class = 'price'> 32000 </span> 
                    <span class = 'menu'> 악세서리 </span> 
                    <a href = 'http://www.facebook.com'> 바로가기 </a> 
                </p> 
            </h1> 
        </body> 
    </html>
    '''
    
    #- BeautifulSoup 인스턴스를 생성
    #- 두번째 매개변수는 분석할 분석기(parser)의 종류
    soup = BeautifulSoup(html, 'html.parser')
  • 使用方法
  • soup.select('태그명')
  • 関係を含む
  • `soup.select(「ラベル名」>「ラベル名」)
  • soup.select('태그명 .class #id)
  • 3) newspaper3k
    ニュースデータをスクロールするパッケージ
    4)nive bayes分類器
  • ベッツ定理証明
  • P(A∣B)=P(A∩B)P(B)P(A|B) =\frac{P(A∩B)}{P(B)}P(A∣B)=P(B)P(A∩B)​
    P(A∩B)=P(A∣B)P(B)P(A∩B) = P(A|B)P(B)P(A∩B)=P(A∣B)P(B)
    P(B∩A)=P(B∣A)P(A)P(B∩A) = P(B|A)P(A)P(B∩A)=P(B∣A)P(A)
    P(B∩A)=P(B∣A)P(A)=P(A∣B)P(B)=P(A∩B)P(B∩A) = P(B|A)P(A) = P(A|B)P(B) = P(A∩B)P(B∩A)=P(B∣A)P(A)=P(A∣B)P(B)=P(A∩B)
    P(B∣A)P(A)=P(A∣B)P(B)P(B|A)P(A) = P(A|B)P(B)P(B∣A)P(A)=P(A∣B)P(B)
    P(B∣A)=P(A∣B)P(B)P(A)P(B|A) =\frac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)​
    5) TF-IDF
    特定のドキュメントで単語別にドキュメントの関連性を理解するために使用します.
    =各単語にドキュメントに関する情報がどれだけあるか.
    1.TF:ドキュメントに特定の単語が何個出ているか
  • が複数回出現し、関連性が高いと仮定する
  • 用語と残りの単語を区別できない重要度
  • IDF
  • 重要でない文書を除外する方法
  • 2.回顧
    最終日です!後でGoing Deeperを行います途中で諦めようと思っていたのですが、どうしたのか、半分近くになってしまいました.できるかどうか考えていることが多いですが、自分なりにうまくやっていると思います.プログラマーレベル1も終わった以上、資料構造アルゴリズムの本を読み終え、レベル2をよく解くべきだ.時間が経つのは早いですね.