テキストの概要とテキストの分類

6739 ワード

Pythonを使用したニュース消去を含むソースデータ加工後のデータの概要と、ソースデータに基づいて分類する方法について簡単に説明します.

1.テキスト要約（TextRankアルゴリズム）

gensimパッケージ、scikit-learnパッケージを使用して、Pythonはテキストの要約と分類アルゴリズムを提供します.要約gensimの要約パッケージはTextRankアルゴリズムに基づいて実現される.8年前(2013年)に自然言語処理を学んだ時に自ら開発した様子を振り返ると、世界は変わっていると思います.自動数学論文TextRankの類似性機能の変化

from gensim.summarization.summarizer import summarize

テキスト(str)-元のテキスト

ratio(float,optional)-0～1の間のFloat値

.要約する文の数のパーセントを決定します.

word count(intまたはNone、オプション)-出力に含める単語の数.ratioと一緒に使用する場合はratioは無視されます.

split(bool,optional)-真面文のリストを返します.Falseは、結合文字列からなる

を返します.

df['summarize'] = df.text.apply(lambda x : summarize(x))
df[df.index==5][['text','summarize']].to_html()

text
summarize
5
1日午後、ソウル汝矣島(ヨイド)の「もっと現代的なソウル」はショッピング好きの市民でいっぱいだ.防疫当局は首都圏2段阶で、首都圏ではない.同日から14日まで段階社会距離を2週間延長した.2021. ./ニュース1©ニュース1先月26日にオープンしたソウル永登浦区(ヨンドゥンポグ)の「更現代ソウル」デパートでは、週末ごとに人波が押し寄せ、防疫当局の悩みが深まっている.防疫当局は同時間帯の訪問者制限を「4平方メートル当たり1人」と勧告したが、実効性は低いという指摘もある.現代(ヒョンデ)ソウル側は8日、開業後10日間、200万人以上がデパートを訪れたと明らかにした.1日平均約20万人.コロナ19が拡散する前に、デパートごとに1日平均約10万人の訪問者が2倍ほど集まった.The現代(ヒョンデ)ソウルは、オープン後初の日曜日である先月28日、現代(ヒョンデ)デパートグループが設立された後、1日の売上高が102億ウォンだったという.防疫当局は、現代ソウルが新型コロナウイルス感染症(コロナ19)の新たな集団感染経路になるのではないかと懸念している.特にワクチン接種開始後、コロナ19に対する警戒心が弱まり、春を迎えて外出する人が増え、危険度が増大する.保健福祉部中央事故処理本部の孫英来(ソン・ヨンレ)社会戦略班長は8日のブリーフィングで、異例にも現代ソウルに言及し、「他の施設より密集度が高く、地元自治体やデパート側と集中度の緩和策を検討している」と述べた.しかし、防疫方針にも限界がある.現行の社会距離2期(首都圏第2段階)によると、デパートの大型スーパーでは「使用者制限」は適用されない.発熱検査、マスク着用などの措置に従えばよい.スポーツ施設、結婚式場、葬儀場などとは対照的だ.このため、現代ソウル側は、ソウル市や永登浦区(ヨンドゥンポグ)などの地方自治体協議を経て、6日から防疫を強化する方針だ.同時間帯の入場客を4平方メートルごとに1人程度に制限し、人気売り場では同時に利用できる顧客数を30%減らした.3月1ヵ月間、週末の駐車車両は自律2部制で、現代(ヒョンデ)デパートカード会員は2時間無料駐車が中断され、エレベーターの定員は40%減少した.防疫当局の関係者は、「営業秘密のため、1時間当たりの入場制限者すら知らなかった.より強硬な措置が必要だ」と話した.
現代(ヒョンデ)ソウル側は8日、開業後10日間、200万人以上がデパートを訪れたと明らかにした.保健福祉部中央事故処理本部の孫英来(ソン・ヨンレ)社会戦略班長は8日のブリーフィングで、異例にも現代ソウルに言及し、「他の施設より密集度が高く、地元自治体やデパート側と集中度の緩和策を検討している」と述べた.現行の社会距離2期(首都圏第2段階)によると、デパートの大型スーパーでは「使用者制限」は適用されない.このため、現代ソウル側は、ソウル市や永登浦区(ヨンドゥンポグ)などの地方自治体協議を経て、6日から防疫を強化する方針だ.

2.ニュース分類（K-Meansアルゴリズム）

PythonのMLライブラリScikt-learningを使用して、ドキュメントを前処理できるようになりました.

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
from sklearn.cluster import KMeans

CountVectorizer:テキストのタグ(,.space)などを使用して簡単な単語を作成し、BOW符号化ベクトルを生成します.
(BOW:Back of Words,単語の集合と考えられる)[コメントブログ]

normalize:L 2 normがデフォルトです.L 2ノルムはEuclidean距離ノルムとも呼ばれ,ベクトル間の距離を簡単に求める.2 Dの場合、通常は、我々が使用するX、Y座標から距離を求めることに等しい.レイヤ2 normはいつ有効になりますか?

標準化は、最初にオーバーフィットを防止するために使用された

KNNアルゴリズム,K-Meansアルゴリズムが前処理で最も多く用いられたのは

であった.

L 2ブログ22

の説明

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
from sklearn.cluster import KMeans

n_clusters = 20  #20개 군집화

# CountVectrizer 토큰화 (df.text)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df.text) # WOB 생성

# l2 정규화 적용
X = normalize(X)  #WOB 정규화

# k-means 알고리즘 
kmeans = KMeans(n_clusters=n_clusters).fit(X) #WOB K-Means 적용

# 학습된 레이블링 
labels = kmeans.labels_

グループ化して表示するだけです.

Reference

この問題について(テキストの概要とテキストの分類), 我々は、より多くの情報をここで見つけました https://velog.io/@seen/텍스트-요약-및-텍스트-분류

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

Linuxインタラクティブログインおよびインタラクティブ実行について

WSL(Win 10 Linuxサブシステム)のいくつかの基礎構成