1. ホーム
  2. SEO用語集
  3. クローラーとは

クローラーとは

crawler

クローラーとは、検索エンジンがWebページの情報を集める時に使うプログラムのことです。ロボットやスパイダーという言い方をする場合もあります。

特にGoogleが使うクローラーをGooglebotと呼ぶこともあります。

GoogleがWebページの情報を収集するクローラーには、一般的な検索用のクローラー(PC用のクローラー)、スマートフォン用のクローラー、画像用のクローラーなど、幾つかの種類があり、それぞれ別の役割・ユーザーエージェントを持っています。

Googleが使っているクローラーの種類、ユーザーエージェントの違いは、Google クローラ – Search Console ヘルプに詳しく書かれています。

クローラーは基本的にWebページに張られている、aタグによるリンクを辿って、WebサイトからWebサイト、WebページからWebページへの移動を行っています。
そのため、クローラーに発見してほしいURLには適切な内部リンクを設置することが重要なポイントになります。

クロールの最適化(クローラビリティの向上)

検索エンジンにインデックスしてほしいページがなかなかインデックスされない…。そんな問題に直面した経験はないでしょうか。

検索エンジンにインデックスされない原因には、noindexタグが設置されている、canonicalタグで別のURLに正規化されているなどの幾つかの理由が考えられますが、クローラーがURLを発見できない場合もインデックスされません。

クローラーにとってのWebページの辿りやすさをクローラビリティと呼びます。
人にとってのWebページの辿りやすさという意味のユーザビリティを考慮すれば、ほとんどの場合で問題が起きることはありませんが、やはりクローラビリティ独自で注意すべきポイントもいくつかあります。

そこで、クロールを最適化する(クローラビリティを向上させる)ための重要なポイントを解説しましょう。

内部リンクの階層が深くなりすぎないようにする

クローラーがページにたどり着けるように、内部リンクの階層は深くなりすぎないように注意する必要があります。

例えば、ブログの記事一覧ページなどの、複数ページに分かれているページの場合、10ページ目より50ページ目の方がクローラーがたどり着けない可能性が高くなります。(途中にWebサイト外部からリンクが無いと仮定した場合)

TOPページから何回もクリックする必要があるようなページは、クローラーがたどり着くことができず、クロール対象から漏れることがあります。

重要なページはTOPページから直接リンクを設置するなど、できるだけ少ないクリックでアクセスできるようにしましょう。

内部リンクの階層を深くしすぎないことは、ユーザビリティの観点からも重要です。

正しいステータスコードを返す

Webサーバーは、クローラーやブラウザからのリクエストに対して、ステータスコードと呼ばれる3桁の数字を返します。

ページが問題なく表示される場合には200、ページが存在しない場合には404など、状況に応じて返すコードが決まっています。

クローラーもこのステータスコードを確認していますので、ページが問題なく表示されているのに404を返したり、逆にページが存在しないのに200を返すようなことが無いように注意しましょう。

ページが問題なく表示されているのに、ステータスコードに404を返している場合、ページが正しくインデックスされない可能性もあります。

XMLサイトマップを活用する

サーチコンソールからXMLサイトマップをGoogleに送信すると、GoogleがWebページをクロールする手助けをすることができます。

特に膨大なページ数を持っているWebサイトや、新しく立ち上げたばかりのWebサイトではXMLサイトマップを活用すると効果的。Googleは送信されたXMLサイトマップの内容を参考にしながらWebサイトをクロールしますので、効率よくWebページをクロールしてもらうことができます。

1枚のXMLサイトマップファイルに記載できるURL数は5万URLまでですが、複数のサイトマップファイルに分割してGoogleに送信することもできます。

サイトマップの作成方法などについては、サイトマップについて – Search Console ヘルプに詳しく書かれています。

robots.txtでクロールを制御する

ユーザーが検索した結果ページなど、どうしても自動で生成されてしまうページが存在する場合や、検索エンジンにインデックスしてもらいたくないページがある場合、robots.txtを使って、クロールをブロックすることもできます。

ただし、ページを検索結果に表示させないように指定するnoindexタグと併用する場合には注意が必要です。

robots.txtでクロールをブロックしてしまうと、検索エンジンはWebページに記述されたnoindexタグを読むことができませんので、いつまでたっても検索結果にページが表示される状態になってしまいます。

robots.txtに関する詳しい解説は、robots.txtとはをご覧ください。

クローラーが辿れないリンクの方法を使わない

クローラーはaタグを使ったリンクを辿ってページ間を移動しますので、フォームボタンによるリンクや、JavaScriptによるリンクなどは辿ることができません。

不動産サイトや求人サイトなど、ユーザーが複数の条件を入力してページを探すWebサイトの場合、クローラーが辿れない方法でリンクされていることがあります。

そういったWebサイトでは、ユーザーが選択する条件の部分にaタグを使ってリンクを設置するなどの工夫が必要です。

人気SEO専門記事

人気SEO専門記事一覧を見る

人気SEO専門記事

2014. 09. 02 (火)
今さらだけど知りたい、読点の使い方…

ライティングのコツ

2015. 06. 24 (水)
知られざるWordの使い方「スタイル、アウトライ…

ライティングのコツ

2015. 05. 29 (金)
迷ったらこうする[漢字/ひらがな編] -「出来る…

ライティングのコツ

人気SEO専門記事一覧を見る

pagetop