1. HOME
  2. すべての記事一覧
  3. SEO
  4. クローラーとは

クローラーとは

公開日:2016年08月23日

最終更新日:2024年06月03日

  • twitter
  • facebook
  • はてB!

crawler

当記事ではクローラーとは何か分かりやすく説明いたします。また、クローラビリティ(=クローラーにとってのWebページの辿りやすさ)の重要性についても解説しています。

【無料DL】「SEO内部対策チェックシート」を無料ダウンロードするSEO内部対策チェックシート(お役立ち資料)

クローラーとは

クローラーとは検索エンジンがWebページの情報を集める時に使うプログラムのことです。ロボットやスパイダーという言い方をする場合もあります。特にGoogleが使うクローラーをGooglebotと呼ぶこともあります。

GoogleがWebページの情報を収集するクローラーには、一般的な検索用のクローラー(PC用のクローラー)、スマートフォン用のクローラー、画像用のクローラーなど、幾つかの種類があり、それぞれ別の役割・ユーザーエージェントを持っています。

Googleが使っているクローラーの種類、ユーザーエージェントの違いは、Google クローラ – Search Console ヘルプに詳しく書かれています。

クローラーは基本的にWebページに張られている、aタグによるリンクを辿って、WebサイトからWebサイト、WebページからWebページへの移動を行っています。そのため、クローラーに発見してほしいURLには適切な内部リンクを設置することが重要なポイントになります。

クロールの最適化(クローラビリティの向上)

検索エンジンにインデックスしてほしいページがなかなかインデックスされない…。そんな問題に直面した経験はないでしょうか。

検索エンジンにインデックスされない原因には、noindexタグが設置されている、canonicalタグで別のURLに正規化されているなどの幾つかの理由が考えられますが、クローラーがURLを発見できない場合もインデックスされません。

クローラーにとってのWebページの辿りやすさをクローラビリティと呼びます。
人にとってのWebページの辿りやすさという意味のユーザビリティを考慮すれば、ほとんどの場合で問題が起きることはありませんが、やはりクローラビリティ独自で注意すべきポイントもいくつかあります。

そこで、クロールを最適化する(クローラビリティを向上させる)ための重要なポイントを解説しましょう。

内部リンクの階層が深くなりすぎないようにする

クローラーがページにたどり着けるように、内部リンクの階層は深くなりすぎないように注意する必要があります。

例えば、ブログの記事一覧ページなどの、複数ページに分かれているページの場合、10ページ目より50ページ目の方がクローラーがたどり着けない可能性が高くなります。(途中にWebサイト外部からリンクが無いと仮定した場合)

TOPページから何回もクリックする必要があるようなページは、クローラーがたどり着くことができず、クロール対象から漏れることがあります。

重要なページはTOPページから直接リンクを設置するなど、できるだけ少ないクリックでアクセスできるようにしましょう。

内部リンクの階層を深くしすぎないことは、ユーザビリティの観点からも重要です。

正しいステータスコードを返す

Webサーバーは、クローラーやブラウザからのリクエストに対して、ステータスコードと呼ばれる3桁の数字を返します。

ページが問題なく表示される場合には200、ページが存在しない場合には404など、状況に応じて返すコードが決まっています。

クローラーもこのステータスコードを確認していますので、ページが問題なく表示されているのに404を返したり、逆にページが存在しないのに200を返すようなことが無いように注意しましょう。

ページが問題なく表示されているのに、ステータスコードに404を返している場合、ページが正しくインデックスされない可能性もあります。

XMLサイトマップを活用する

サーチコンソールからXMLサイトマップをGoogleに送信すると、GoogleがWebページをクロールする手助けをすることができます。

特に膨大なページ数を持っているWebサイトや、新しく立ち上げたばかりのWebサイトではXMLサイトマップを活用すると効果的。Googleは送信されたXMLサイトマップの内容を参考にしながらWebサイトをクロールしますので、効率よくWebページをクロールしてもらうことができます。

1枚のXMLサイトマップファイルに記載できるURL数は5万URLまでですが、複数のサイトマップファイルに分割してGoogleに送信することもできます。

サイトマップの作成方法などについては、サイトマップについて – Search Console ヘルプに詳しく書かれています。

robots.txtでクロールを制御する

ユーザーが検索した結果ページなど、どうしても自動で生成されてしまうページが存在する場合や、検索エンジンにインデックスしてもらいたくないページがある場合、robots.txtを使って、クロールをブロックすることもできます。

ただし、ページを検索結果に表示させないように指定するnoindexタグと併用する場合には注意が必要です。

robots.txtでクロールをブロックしてしまうと、検索エンジンはWebページに記述されたnoindexタグを読むことができませんので、いつまでたっても検索結果にページが表示される状態になってしまいます。

robots.txtに関する詳しい解説は、robots.txtとはをご覧ください。

クローラーが辿れないリンクの方法を使わない

クローラーはaタグを使ったリンクを辿ってページ間を移動しますので、フォームボタンによるリンクや、JavaScriptによるリンクなどは辿ることができません。

不動産サイトや求人サイトなど、ユーザーが複数の条件を入力してページを探すWebサイトの場合、クローラーが辿れない方法でリンクされていることがあります。

そういったWebサイトでは、ユーザーが選択する条件の部分にaタグを使ってリンクを設置するなどの工夫が必要です。

株式会社フルスピードのSEOコンサルティングサービスのご紹介

株式会社フルスピードのSEOコンサルティングサービスのご紹介(資料DLページ)
株式会社フルスピードのSEOコンサルティングサービス(株式会社フルスピードはAhrefs社のオフィシャルパートナーです)

株式会社フルスピードはSEOコンサルティングサービスをご提供しています。株式会社フルスピードは2001年の創業から5,500社以上ものSEOコンサルティング実績を積み上げてまいりました。

株式会社フルスピードは世界で60万人が導入する最高水準のSEO分析ツールAhrefsのオフィシャルパートナーでもあり、これまで培ってきたSEOノウハウとAhrefsのサイト分析力を活かしたSEOコンサルティングサービスをご提供することが可能です。SEOコンサルティングサービスの詳細に関しましては上記バナーをクリックしてご確認くださいませ。お気軽にご相談ください。

「Google Search Console導入マニュアル」を無料ダウンロードする
Google Search Console 徹底解説! 導入マニュアル(お役立ち資料)

この記事を書いた人
GrowthSeed編集部

GrowthSeed編集部

株式会社フルスピードのGrowthSeed編集部です。企業のマーケティング担当者へ向けてWebマーケティングの成長の種となる情報を発信しています。 Twitter , Facebookで記事の更新情報やセミナーの最新情報などを日々発信しているので、ぜひフォローしてみてください。

記事の関連タグ
       

Webマーケティングに関する
資料請求・ご依頼はこちら