TF-IDFを使ってニュース記事の重要語を抽出すれば、それだけでニュースの内容わかるんじゃね?と思ったら全然ダメだった話


はじめに

こんにちは。
最近、ネットニュースを見るのが面倒くさくなってきたTakuyaHanadaです。

突然ですが、単語数個見るだけでニュースの内容がわかるって便利だと思いませんか?
私は便利だと思います。

そこで、最近学んだTF-IDFを使ってニュースの重要語を抽出し、順位の高い重要語を並べてニュースの概要がわかるか試してみました!

以下はその結果をまとめたものです。

使用したニュース記事

今回使用したニュース記事は、Yahoo!ニュースの4つの記事です。

これらのニュース記事から、

  • ニュースタイトル
  • 画像下の文章
  • 本文

の3つをニュースデータとして取り出しました。

データの前処理

得られたニュースデータをMeCabを使って、一般名詞だけの文にしました。

前処理の例
< 処理前 >
トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア

< 処理後 >
トランプ ぶり 客 相撲 伝統 米 メディア

TI-IDFを計算

計算にはscikit-learnを使いました。
結果は各文ごとに、各単語のTF-IDF値を足して、ニュース全体の結果としました。

結果

TF-IDF値を降順にソートし、上位5件を見てみました。TF-IDF値は小数第4位を四捨五入しています。

  • トランプ氏への厚遇ぶり報道=「ほぼ観光客」「相撲の伝統揺さぶる」-米メディア(時事通信) - Yahoo!ニュース
順位 一般名詞 TF-IDF値
1 大統領 8.562
2 トランプ 6.773
3 写真 6.612
4 炉端 5.749
5 焼き 5.749
  • トランプ氏握手の作家ら「ご招待」? 桜井よしこ氏ら 「打ち合わせなし」(毎日新聞) - Yahoo!ニュース
順位 一般名詞 TF-IDF値
1 トランプ 21.350
2 20.296
3 16.337
4 首相 15.243
5 こと 13.614
  • 栗山監督「100球投げて」輝星デビューへ条件提示(日刊スポーツ) - Yahoo!ニュース
順位 一般名詞 TF-IDF値
1 28.906
2 16.015
3 11.031
4 こと 8.943
5 ドーム 8.943
  • ドワンゴとグリー、VTuber事業で協業 「バーチャルキャスト」の番組を「REALITY」で配信可能に(ITmedia NEWS) - Yahoo!ニュース
順位 一般名詞 TF-IDF値
1 バーチャル 15.860
2 キャスト 12.976
3 事業 9.011
4 ユーザー 8.118
5 7.621

まとめ

全然ダメでした。栗原監督に関しては「ドーム」が入っていなかったら野球のニュースと想像できません。

結果を見る限り、一般名詞の文字数が1のものに関しては、なくてもよいのでは?というものが多いので、一般名詞の文字数を2以上に限定すれば、もう少しマシになるかもしれないです。

次回があれば、もう少し工夫して試してみます。

参考