TF-IDFを使ってニュース記事の重要語を抽出すれば、それだけでニュースの内容わかるんじゃね?と思ったら全然ダメだった話
はじめに
こんにちは。
最近、ネットニュースを見るのが面倒くさくなってきたTakuyaHanadaです。
突然ですが、単語数個見るだけでニュースの内容がわかるって便利だと思いませんか?
私は便利だと思います。
そこで、最近学んだTF-IDFを使ってニュースの重要語を抽出し、順位の高い重要語を並べてニュースの概要がわかるか試してみました!
以下はその結果をまとめたものです。
使用したニュース記事
今回使用したニュース記事は、Yahoo!ニュースの4つの記事です。
- トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア(時事通信) - Yahoo!ニュース
- トランプ氏握手の作家ら「ご招待」? 桜井よしこ氏ら 「打ち合わせなし」(毎日新聞) - Yahoo!ニュース
- 栗山監督「100球投げて」輝星デビューへ条件提示(日刊スポーツ) - Yahoo!ニュース
- ドワンゴとグリー、VTuber事業で協業 「バーチャルキャスト」の番組を「REALITY」で配信可能に(ITmedia NEWS) - Yahoo!ニュース
これらのニュース記事から、
- ニュースタイトル
- 画像下の文章
- 本文
の3つをニュースデータとして取り出しました。
データの前処理
得られたニュースデータをMeCabを使って、一般名詞だけの文にしました。
< 処理前 >
トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア
< 処理後 >
トランプ ぶり 客 相撲 伝統 米 メディア
TI-IDFを計算
計算にはscikit-learnを使いました。
結果は各文ごとに、各単語のTF-IDF値を足して、ニュース全体の結果としました。
結果
TF-IDF値を降順にソートし、上位5件を見てみました。TF-IDF値は小数第4位を四捨五入しています。
- トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア(時事通信) - Yahoo!ニュース
順位 | 一般名詞 | TF-IDF値 |
---|---|---|
1 | 大統領 | 8.562 |
2 | トランプ | 6.773 |
3 | 写真 | 6.612 |
4 | 炉端 | 5.749 |
5 | 焼き | 5.749 |
- トランプ氏握手の作家ら「ご招待」? 桜井よしこ氏ら 「打ち合わせなし」(毎日新聞) - Yahoo!ニュース
順位 | 一般名詞 | TF-IDF値 |
---|---|---|
1 | トランプ | 21.350 |
2 | 席 | 20.296 |
3 | 月 | 16.337 |
4 | 首相 | 15.243 |
5 | こと | 13.614 |
- 栗山監督「100球投げて」輝星デビューへ条件提示(日刊スポーツ) - Yahoo!ニュース
順位 | 一般名詞 | TF-IDF値 |
---|---|---|
1 | 軍 | 28.906 |
2 | 戦 | 16.015 |
3 | 星 | 11.031 |
4 | こと | 8.943 |
5 | ドーム | 8.943 |
- ドワンゴとグリー、VTuber事業で協業 「バーチャルキャスト」の番組を「REALITY」で配信可能に(ITmedia NEWS) - Yahoo!ニュース
順位 | 一般名詞 | TF-IDF値 |
---|---|---|
1 | バーチャル | 15.860 |
2 | キャスト | 12.976 |
3 | 事業 | 9.011 |
4 | ユーザー | 8.118 |
5 | 者 | 7.621 |
まとめ
全然ダメでした。栗原監督に関しては「ドーム」が入っていなかったら野球のニュースと想像できません。
結果を見る限り、一般名詞の文字数が1のものに関しては、なくてもよいのでは?というものが多いので、一般名詞の文字数を2以上に限定すれば、もう少しマシになるかもしれないです。
次回があれば、もう少し工夫して試してみます。
参考
Author And Source
この問題について(TF-IDFを使ってニュース記事の重要語を抽出すれば、それだけでニュースの内容わかるんじゃね?と思ったら全然ダメだった話), 我々は、より多くの情報をここで見つけました https://qiita.com/ohakutsu/items/480e5f6416da05bb51ce著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .