Twitterをスクレイピングしてもっとも古いぴえんツイートを見付ける
Twitterをスクレイピングして過去のツイートを取得できる twitterscraper-ruby gem を作成しました。
このtwitterscraper-ruby gemを使えば「もっとも古いツイート」や「ある単語をツイートした最初の人」を簡単に見付けることができます。
告知
SNSデータを用いた分析、Ruby on Railsを用いたWeb開発について、ご依頼やご相談は @ts_3156 までお気軽にご連絡ください。
なぜいまさらスクレイピングなのか
ツイートを大量に取得する方法は、大別するとTwitter Search API(無料版)、Twitter Search API(有料版)、Twitterのスクレイピングの3通りがあります。
Twitter Search API(無料版)
おそらく世の中の99%の方はこの方法を使ってツイートを取得しています。ツイッターが提供しているAPIなので安心して利用できる一方、利用回数に強力な制限があり、また、最大のデメリットとして「直近の7日間のツイート」しか取得できません。このため、「最近のツイートを少しだけ取得する」ことしかできません。
Twitter Search API(有料版)
このAPIを使うと、月々あたり数百万円
ほど支払うことで、過去の全てのツイートを検索することができるようになります。利用回数に制限はありますが、比較的緩やかな制限でありツイートの取得という意味では不自由することはなくなります。
※有料のAPIには様々な種類があり、正確な名称は異なります
Twitterのスクレイピング
twitterscraper-ruby gemが利用している方法です。Twitter Search APIのデメリットである利用回数の制限や対象期間の制限を気にすることなく、高速に大量のツイートを取得することができます。ただし、スクレイピングは利用規約で明確に禁止されている行為であり、完全に自己責任で行う必要があります。
この記事では、できるだけツイッターに負荷をかけない方法でいくつかの調査を行っています。
「ぴえん」をツイートした最初の人を調べる
最近流行っている「ぴえん」を最初にツイートした人を調べてみました。意外に歴史は古く、2008年5月22日の時点で現在のぴえんとほぼ同じ意味で使った人が見つかりました。
twitterscraper-rubyをインストール後に下記のコマンドを実行すれば、最初の「ぴえん」ツイートを取得することができます。
$ twitterscraper --query 'ぴえん' --start_date 2008-03-21 --end_date 2009-03-21 --lang ja --limit 10 --proxy --threads 10
ちなみに、現在のぴえんと違う意味であれば、もっとも古いぴえんは2008年1月24日にツイートされています。ぴえんロー(ピェンロー鍋)やぴえん粥(ヤーピエンジョウ)という食べ物があり、この意味でのツイートでした。
年号として「令和」をツイートした最初の人を調べる
この予言ツイートのことは、2019年の春頃にネットでとてつもなくバズっていたので知っている方も多いと思います。
平成の次の年号として「令和」が最初にツイートされたのは「2016年7月13日」です。twitterscraper gemを使えばこのツイートを簡単に見付けることができます。
twitterscraper-rubyをインストール後に下記のコマンドを実行すれば、令和予言ツイートを取得することができます。
$ twitterscraper --query '令和' --start_date 2016-07-13 --end_date 2016-07-14 --limit 10
ちなみに、「年号としての令和」ではなく「ただの文字列としての令和」であれば、もっと前にツイートしている人はたくさんいます。中国語で偶然同じ並びになることがあるようです。
取得できる中でもっとも古いツイートを見付ける
公式のTwitter Searchであれば、最大で「2006-03-21」まで遡ってツイートを取得することができます。
試しに、もっとも古いツイートを取得してみました。その結果、2006年3月22日のjust setting up my twttr
がもっとも古いツイートであることが判明しました。
twitterscraper-rubyをインストール後に下記のコマンドを実行すれば、もっとも古いツイートを取得することができます。
twitterscraper --query 'just' --start_date 2006-03-21 --end_date 2006-03-22 --limit 10
告知
SNSデータを用いた分析、Ruby on Railsを用いたWeb開発について、ご依頼やご相談は @ts_3156 までお気軽にご連絡ください。
参考リンク
Author And Source
この問題について(Twitterをスクレイピングしてもっとも古いぴえんツイートを見付ける), 我々は、より多くの情報をここで見つけました https://qiita.com/ts-3156/items/1787a5418fb70ce6bd3c著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .