robots.txtでQiita投稿件数の年度別推移などを分析してみた


はじめに

robots.txtの中身を調べたらQiitaのいろいろランキングのようにいろいろ分析できそうだったのでやってみました。

年度別、残存する投稿件数の推移グラフ

最初の分析はQiitaの投稿件数の年度別推移です。記事の投稿日の年ごとの投稿件数を数えます。

2020年まで右肩上がりに投稿記事数が増えましたが、2021年度の投稿件数が減っています。Qiitaに何があったのでしょうか?

この記事のデータはすべて2022/3/4時点のデータです。分析の途中で1日前に取得したデータと見比べたら数十件の投稿記事が減っていました。自身の記事を削除されたと思いました。過去時点の投稿件数とは一致しません。

年度 投稿件数
2011 528
2012 6,529
2013 14,969
2014 37,734
2015 53,976
2016 66,866
2017 70,458
2018 96,245
2019 125,729
2020 142,590
2021 114,591

2021年度の投稿件数114,591は投稿日が2021年の記事総数(2022/3/4時点)です。

最初の記事の投稿日が2011/9/16で2011年度の期間が短いためグラフから省きました。

どのようにしてグラフを作成したか

robots.txtを調べたら記事のURLが投稿日順に並んでいました。

年度別に年始と年末の投稿を見つけてURLの件数を数えました。

投稿者別、投稿記事数ランキング

分析することで初めて見える景色があります。

順位 投稿者 投稿記事数
1位 7of9 6,196
2位 kaizen_nagoya 3,142
3位 ohisama@github 2,526

いろいろな分析データ

他のデータについてもrobots.txtを調べてURLの件数を数えました。

分析項目 データ
ユーザー総数 2,502,520
記事を作成したユーザー総数 86,346
記事総数 747,405
Organization総数 1,537
タグ総数 73,636
質問総数 6,003
記事を作成したユーザーの割合 3.5%
記事を作成したユーザーの平均記事数 8.7

スパムユーザーが多いのかもしれませんが、記事を作成したユーザーの割合が低いのが気になりました

Qiitaのユーザー総数を出すブックマークレット

robots.txtには存在する記事のURLが載っているためユーザー総数を出せませんでしたが、このブックマークレットならユーザー総数を出せます。

javascript: (() => document.location.host === "qiita.com"
	? fetch("https://qiita.com/api/v2/users").then((a) => alert("Qiitaのユーザー数は " + a.headers.get("link").match(/page=(\d+)>; rel="last"/u)[1] * 20 + " です"))
	: alert("qiita.comで実行してください")
)();

さいごに

Qiita検索でrobots.txtを調べてもあまり記事が出てこなかったことからrobots.txt自体があまり知られていないのではないかと思いました。robots.txtが分析するのに役に立ちます

以前はQiita User Ranking というサイトでContributionの上位を確認できたそうです。データ量が多くなったせいか、サービスが止まり、分析者にとって冬の時代が来たのかもしれません

2021年度以降のいろいろランキングが公式から提供されています。ありがたいことです

データ量の多さにパソコンが悲鳴を上げましたが、分析は楽しかったです