迅速にあなたのTwitterのデータの関係を分析する


概要と設定


このポストは、あなたのTwitter Analyticsデータを調査するのを助けるために、いろいろなRライブラリと機能を使います.最初にすることはデータをダウンロードすることです.ここでの仮定は、既にTwitterユーザーで、少なくとも6ヶ月間使用しているということです.
一度そこに、あなたはTweets タブは、データをエクスポートするオプションを使用してつぶやきの活動にあなたをもたらす必要があります:

一度エクスポートデータをクリックすると、あなたは毎日のためにあなたの印象と契約メトリクスを提供しています“日”を選択します(また、データをエクスポートするには、右側のドロップダウンメニューの期間を選択します-デフォルトは“最後の28日”).
注:他のオプションは“つぶやき”を選択し、関連付けられたメトリクスと一緒に、各つぶやきのテキストをダウンロードします.我々は潜在的にこれで楽しいテキスト分析をすることができました、しかし、我々はもう一つのポストのためにそれを保存します.
このポストのために、私はすべての利用可能なデータをダウンロードしました.
ダウンロードした後、データを読んで、我々のケースでは、1つのデータフレームにすべての5ヶ月を組み合わせて、我々はreadr パッケージとread_csv() 関数tidyverse . それでは使用しますrbind() つのデータフレームを行単位で結合するには、次の手順に従います.
library(tidyverse)

# load data from September to mid-January
df1 <- read_csv("./daily_tweet_activity/daily_tweet_activity_metrics_paulapivat_20200901_20201001_en.csv")
df2 <- read_csv("./daily_tweet_activity/daily_tweet_activity_metrics_paulapivat_20201001_20201101_en.csv")
df3 <- read_csv("./daily_tweet_activity/daily_tweet_activity_metrics_paulapivat_20201101_20201201_en.csv")
df4 <- read_csv("./daily_tweet_activity/daily_tweet_activity_metrics_paulapivat_20201201_20210101_en.csv")
df5 <- read_csv("./daily_tweet_activity/daily_tweet_activity_metrics_paulapivat_20210101_20210112_en.csv")

# combining ALL five dataframes into ONE, by rows
df <- rbind(df1, df2, df3, df4, df5)

関係の探求


TwitterのAnalyticsは、広範囲にグループ化されているいくつかのメトリックを追跡します:Retweets、Reply、好き、ユーザープロフィールクリック、URLクリック、ハッシュタグクリック、詳細は拡大します、メディア見解とメディア契約.
他のメトリックのような“アプリケーションが開きます”と“促進された契約”は、私は使用していないので、任意のデータを利用していないサービスです.

指導問題


それはあなたの探査を集中することができますので、ガイドの質問をするのは便利です.私のツイートの1つが私のプロフィールをクリックする読者を促したかどうかに興味がありました.これのメトリックはuser profile clicks .
私の最初のガイドの質問は以下の通りです.

Which metrics are most strongly correlated with User Profile Clicks?


あなたは、単にcor.test() 関数は、それぞれのメトリックとUser Profile Click . 例えば、以下の3組の変数間の相関を計算する.User Profile Clicks and retweets , replies and likes , 別途.しばらくして、これは退屈なことができます.
cor.test(x = df$`user profile clicks`, y = df$retweets)
cor.test(x = df$`user profile clicks`, y = df$replies)
cor.test(x = df$`user profile clicks`, y = df$likes)
データセット全体のメトリックのペア間の関係を探索するより速い方法は、corelelogramを使用することです.
我々は、ベースRを開始しますので、correlelogramがあまりにも乱雑になっていないように視覚化変数の数を制限する必要があります.ここでは、最も高い相関する4つの変数がありますUser Profile Clicks :
# four columns are selected along with user profile clicks to plot
df %>%
    select(8, 12, 19:20, `user profile clicks`) %>%
    plot(pch = 20, cex = 1.5, col="#69b3a2")
以下はビジュアルです.

ここでは穏やかな関係を持つ別の4つのメトリックです
df %>%
    select(6:7, 10:11, `user profile clicks`) %>%
    plot(pch = 20, cex = 1.5, col="#69b3a2")

視覚的に、適度な関係の散乱プロットは、より識別可能な方向で、より分散されていることがわかります.
ベースRは信頼できるが、我々はより多くの有益なプロットを得ることができますGGally パッケージ.ここで4つの高相関変数User Profile Clicks :
library(GGally)

# GGally, Strongest Related
df %>%
    select(8, 12, 19:20, `user profile clicks`) %>%
    ggpairs(
        diag = NULL,
        title = "Strongest Relationships with User Profile Clicks: Sep 2020 - Jan 2021",
        axisLabels = c("internal"),
        xlab = "Value"
    )

ここでは、4つの最も高い相関変数の間のcorelelogramがありますuser profile clicks :

ここでは、中庸相関変数User Profile Clicks :

あなたが見ることができるように、これらは散布計画を提供するだけでなく、それぞれの対の間の相関の数値も示します.
今、私たちがここで見ている最初のパターンが異なるデータセットに一般化することを意味しないので、あなたのデータの相関のパターンが異なっているのは全く可能です.
データサイエンス、機械学習、R、パイソン、SQLとより多くのより多くの内容のために.