テキストの概要とテキストの分類



Pythonを使用したニュース消去を含むソースデータ加工後のデータの概要と、ソースデータに基づいて分類する方法について簡単に説明します.

1.テキスト要約(TextRankアルゴリズム)


gensimパッケージ、scikit-learnパッケージを使用して、Pythonはテキストの要約と分類アルゴリズムを提供します.要約gensimの要約パッケージはTextRankアルゴリズムに基づいて実現される.8年前(2013年)に自然言語処理を学んだ時に自ら開発した様子を振り返ると、世界は変わっていると思います.自動数学論文TextRankの類似性機能の変化
from gensim.summarization.summarizer import summarize
  • テキスト(str)-元のテキスト
  • ratio(float,optional)-0~1の間のFloat値
  • .要約する文の数のパーセントを決定します.
  • word count(intまたはNone、オプション)-出力に含める単語の数.ratioと一緒に使用する場合はratioは無視されます.
  • split(bool,optional)-真面文のリストを返します.Falseは、結合文字列からなる
  • を返します.
    df['summarize'] = df.text.apply(lambda x : summarize(x))
    df[df.index==5][['text','summarize']].to_html()
    text
    summarize
    5
    1日午後、ソウル汝矣島(ヨイド)の「もっと現代的なソウル」はショッピング好きの市民でいっぱいだ.防疫当局は首都圏2段阶で、首都圏ではない.同日から14日まで段階社会距離を2週間延長した.2021. ./ニュース1©ニュース1先月26日にオープンしたソウル永登浦区(ヨンドゥンポグ)の「更現代ソウル」デパートでは、週末ごとに人波が押し寄せ、防疫当局の悩みが深まっている.防疫当局は同時間帯の訪問者制限を「4平方メートル当たり1人」と勧告したが、実効性は低いという指摘もある.現代(ヒョンデ)ソウル側は8日、開業後10日間、200万人以上がデパートを訪れたと明らかにした.1日平均約20万人.コロナ19が拡散する前に、デパートごとに1日平均約10万人の訪問者が2倍ほど集まった.The現代(ヒョンデ)ソウルは、オープン後初の日曜日である先月28日、現代(ヒョンデ)デパートグループが設立された後、1日の売上高が102億ウォンだったという.防疫当局は、現代ソウルが新型コロナウイルス感染症(コロナ19)の新たな集団感染経路になるのではないかと懸念している.特にワクチン接種開始後、コロナ19に対する警戒心が弱まり、春を迎えて外出する人が増え、危険度が増大する.保健福祉部中央事故処理本部の孫英来(ソン・ヨンレ)社会戦略班長は8日のブリーフィングで、異例にも現代ソウルに言及し、「他の施設より密集度が高く、地元自治体やデパート側と集中度の緩和策を検討している」と述べた.しかし、防疫方針にも限界がある.現行の社会距離2期(首都圏第2段階)によると、デパートの大型スーパーでは「使用者制限」は適用されない.発熱検査、マスク着用などの措置に従えばよい.スポーツ施設、結婚式場、葬儀場などとは対照的だ.このため、現代ソウル側は、ソウル市や永登浦区(ヨンドゥンポグ)などの地方自治体協議を経て、6日から防疫を強化する方針だ.同時間帯の入場客を4平方メートルごとに1人程度に制限し、人気売り場では同時に利用できる顧客数を30%減らした.3月1ヵ月間、週末の駐車車両は自律2部制で、現代(ヒョンデ)デパートカード会員は2時間無料駐車が中断され、エレベーターの定員は40%減少した.防疫当局の関係者は、「営業秘密のため、1時間当たりの入場制限者すら知らなかった.より強硬な措置が必要だ」と話した.
    現代(ヒョンデ)ソウル側は8日、開業後10日間、200万人以上がデパートを訪れたと明らかにした.保健福祉部中央事故処理本部の孫英来(ソン・ヨンレ)社会戦略班長は8日のブリーフィングで、異例にも現代ソウルに言及し、「他の施設より密集度が高く、地元自治体やデパート側と集中度の緩和策を検討している」と述べた.現行の社会距離2期(首都圏第2段階)によると、デパートの大型スーパーでは「使用者制限」は適用されない.このため、現代ソウル側は、ソウル市や永登浦区(ヨンドゥンポグ)などの地方自治体協議を経て、6日から防疫を強化する方針だ.

    2.ニュース分類(K-Meansアルゴリズム)


    PythonのMLライブラリScikt-learningを使用して、ドキュメントを前処理できるようになりました.
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.preprocessing import normalize
    from sklearn.cluster import KMeans

  • CountVectorizer:テキストのタグ(,.space)などを使用して簡単な単語を作成し、BOW符号化ベクトルを生成します.
    (BOW:Back of Words,単語の集合と考えられる)[コメントブログ]

  • normalize:L 2 normがデフォルトです.L 2ノルムはEuclidean距離ノルムとも呼ばれ,ベクトル間の距離を簡単に求める.2 Dの場合、通常は、我々が使用するX、Y座標から距離を求めることに等しい.レイヤ2 normはいつ有効になりますか?
  • 標準化は、最初にオーバーフィットを防止するために使用された
  • KNNアルゴリズム,K-Meansアルゴリズムが前処理で最も多く用いられたのは
  • であった.
  • L 2ブログ22
  • の説明
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.preprocessing import normalize
    from sklearn.cluster import KMeans
    
    n_clusters = 20  #20개 군집화
    
    # CountVectrizer 토큰화 (df.text)
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(df.text) # WOB 생성
    
    # l2 정규화 적용
    X = normalize(X)  #WOB 정규화
    
    # k-means 알고리즘 
    kmeans = KMeans(n_clusters=n_clusters).fit(X) #WOB K-Means 적용
    
    # 학습된 레이블링 
    labels = kmeans.labels_

    グループ化して表示するだけです.