ソーシャルネットワークに基づく情緒分析II
ソーシャルネットワークに基づく情緒分析II
By白熊花田(http://blog.csdn.net/whiterbear)転載には出典を明記する必要があります.ありがとうございます.
前のページでは、微博データのキャプチャが行われています.このページでは、データの処理を紹介します.
無意味微博の定義
微博を観察してみると、多くのミニブログはユーザーがいくつかの活動に参加して転送するミニブログです.例えば、「SmashHit、著者:MediocreAB.オススメ!」http://t.cn/8Fkgg9k」「豆丁文書をダウンロードしたばかりです.プロジェクト会社の運営情報テンプレート」http://t.cn/RPjFZKf」「xi張亮のお紅の包み萶紅包が一番温かいです.私は張亮Seanのお年玉の中で@速いタクシーの提供する“速いタクシーの6元のお年玉”を引き出しました.早く手の息を試してみてください.あなたと幸せの間にはお年玉の距離しかありません.http://t.cn/RZg7iXL」をクリックします
これらの微博を無意味微博と定義し、簡単な処理を通じて無意味微博であるかどうかを判断し、この種の微博の全体的な微博における比重を計算する.
簡単な判断
上記の例を通して、このようなミニブログの多くは2つの特徴を持っていることが分かります.はリンクを持っています.http://t.cn/RPjFZKf」 は特定のキーワードを持っています.例えば、「おすすめ」、「お年玉」、「独占」、「交友」などの があります.
これらの特徴を利用して、簡単な判断をしました.まず微博を分詞し、この微博の中でTFF-IDFの重みが一番大きいキーワードをいくつか取得しました.これらのキーワードに上記の特徴が含まれているなら、この微博を無意味微博と定義します.(もちろん、分詞後のすべての語にこれらの特徴が含まれているかどうかを判断します)
注:ここの分詞は結巴分詞を使います.
疑似コードは以下の通りです
ここではmatplotlibモジュールを用いて円グラフを表示しています.
上の図は大仕事のミニブログの様子を示しています.
そして、すべての学校のデータ処理結果は以下の表の通りです.
学校の概要
有意義なミニブログ
意味のないミニブログ
大連理工大学
80.0%
20.0%
清華大学
79.0%
21.0%
北京大学
78.0%
22.0%
南京大学
79.0%
21.0%
華東政法大学
83.0%
17.0%
上記の表からわかるように、この5つの学校のマイクロブログのうち、意味のあるミニブログの割合は大体80.0%ぐらいで、その中で華東政法大学の割合は最も高く、83.0%に達しています.北京大学の割合は最も低く、78.0%を占めています.
締め括りをつける
ここで使われている判定は簡単すぎて、判定漏れやエラーがあった場合がありますが、ほとんどの無意味微博が判断できます.
次の編、微博の類似度分析.
By白熊花田(http://blog.csdn.net/whiterbear)転載には出典を明記する必要があります.ありがとうございます.
前のページでは、微博データのキャプチャが行われています.このページでは、データの処理を紹介します.
無意味微博の定義
微博を観察してみると、多くのミニブログはユーザーがいくつかの活動に参加して転送するミニブログです.例えば、「SmashHit、著者:MediocreAB.オススメ!」http://t.cn/8Fkgg9k」「豆丁文書をダウンロードしたばかりです.プロジェクト会社の運営情報テンプレート」http://t.cn/RPjFZKf」「xi張亮のお紅の包み萶紅包が一番温かいです.私は張亮Seanのお年玉の中で@速いタクシーの提供する“速いタクシーの6元のお年玉”を引き出しました.早く手の息を試してみてください.あなたと幸せの間にはお年玉の距離しかありません.http://t.cn/RZg7iXL」をクリックします
これらの微博を無意味微博と定義し、簡単な処理を通じて無意味微博であるかどうかを判断し、この種の微博の全体的な微博における比重を計算する.
簡単な判断
上記の例を通して、このようなミニブログの多くは2つの特徴を持っていることが分かります.
これらの特徴を利用して、簡単な判断をしました.まず微博を分詞し、この微博の中でTFF-IDFの重みが一番大きいキーワードをいくつか取得しました.これらのキーワードに上記の特徴が含まれているなら、この微博を無意味微博と定義します.(もちろん、分詞後のすべての語にこれらの特徴が含まれているかどうかを判断します)
注:ここの分詞は結巴分詞を使います.
疑似コードは以下の通りです
#
malWords =[u' ', u' ', u' ', u' ', u' ', u' ', u’http']
# 8
tags = jieba.analyse.extract_tags(content, 8, False)
# , ,
myset = set(malWords) & set(tags)
is_meaningful = 1 if myset.__len__() == 0 else 0
結果ここではmatplotlibモジュールを用いて円グラフを表示しています.
上の図は大仕事のミニブログの様子を示しています.
そして、すべての学校のデータ処理結果は以下の表の通りです.
学校の概要
有意義なミニブログ
意味のないミニブログ
大連理工大学
80.0%
20.0%
清華大学
79.0%
21.0%
北京大学
78.0%
22.0%
南京大学
79.0%
21.0%
華東政法大学
83.0%
17.0%
上記の表からわかるように、この5つの学校のマイクロブログのうち、意味のあるミニブログの割合は大体80.0%ぐらいで、その中で華東政法大学の割合は最も高く、83.0%に達しています.北京大学の割合は最も低く、78.0%を占めています.
締め括りをつける
ここで使われている判定は簡単すぎて、判定漏れやエラーがあった場合がありますが、ほとんどの無意味微博が判断できます.
次の編、微博の類似度分析.