サイトのページ数を調べる


サイトのページ数を調べる

ページ数が少ないサイトだったら
人力で調査することも可能でしょうが、
数十を超えたあたりからもうめんどくさい。

クローラを使う

e-word先生から転載。


クローラ 【 crawler 】
 クローラとは、全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWebページを回収するプログラム。


ページ内のリンクを辿って、他のページに行って
さらに、そのページのリンクから別のページへ行って・・・
って繰り返してくれるソフトです。たぶん。おそらく。

サイトマップを作るとか、孤立してるページを見つけるとか出来るらしい。

スパイダー 【 spider 】 とも呼ぶらしいです。
どうも、厳密にはクローラとスパイダーは別物らしい。
詳しくは、おまけで。

今回、使用したクローラ

  • Website Explorer

  • WildShark SEO Spider

クローラでサイトの URL 一覧を生成して
そこからページ数を調べるという戦略。

使用方法

ページ数を調べたいサイトのトップのURLを入力するだけ。以上。

二つのソフトをあげた理由としては

  • Website Explorer は日本語でわかりやすく、設定も豊富そう

  • WildShark SEO Spider はフィルタに正規表現を使用できるので、うまく使えれば便利そう

という完全なる主観。

どちらも URL 一覧を Excel に出力できるので
出力してから整理すればいいのかもしれない。

おまけ クローラとスパイダーの違い

検索エンジンの5つのプログラム - スパイダーとクローラって別物?
http://www.seojuku.info/seoblog/searchengine/20070111095317.html
によれば

クローラ : ページのリンクを追跡
スパイダー : ウェブページをダウンロード

とのことです。

そもそも、クロールという単語は 「這い回る」「ハイハイする」などの意味らしいです。

なので、
クローラ → ハイハイして、ページをたどっていくソフト
スパイダー → たどって行って、絡め取って持って帰ってくるソフト
っていうイメージなのかな。
なるほど、わからん。