robots.txtとは
クローラーとは
- 用語解説
公開日:2016年08月23日
最終更新日:2024年06月03日
当記事ではクローラーとは何か分かりやすく説明いたします。また、クローラビリティ(=クローラーにとってのWebページの辿りやすさ)の重要性についても解説しています。
↓【無料DL】「SEO内部対策チェックシート」を無料ダウンロードする
目次
クローラーとは
クローラーとは検索エンジンがWebページの情報を集める時に使うプログラムのことです。ロボットやスパイダーという言い方をする場合もあります。特にGoogleが使うクローラーをGooglebotと呼ぶこともあります。
GoogleがWebページの情報を収集するクローラーには、一般的な検索用のクローラー(PC用のクローラー)、スマートフォン用のクローラー、画像用のクローラーなど、幾つかの種類があり、それぞれ別の役割・ユーザーエージェントを持っています。
Googleが使っているクローラーの種類、ユーザーエージェントの違いは、Google クローラ – Search Console ヘルプに詳しく書かれています。
クローラーは基本的にWebページに張られている、aタグによるリンクを辿って、WebサイトからWebサイト、WebページからWebページへの移動を行っています。そのため、クローラーに発見してほしいURLには適切な内部リンクを設置することが重要なポイントになります。
クロールの最適化(クローラビリティの向上)
検索エンジンにインデックスしてほしいページがなかなかインデックスされない…。そんな問題に直面した経験はないでしょうか。
検索エンジンにインデックスされない原因には、noindexタグが設置されている、canonicalタグで別のURLに正規化されているなどの幾つかの理由が考えられますが、クローラーがURLを発見できない場合もインデックスされません。
クローラーにとってのWebページの辿りやすさをクローラビリティと呼びます。
人にとってのWebページの辿りやすさという意味のユーザビリティを考慮すれば、ほとんどの場合で問題が起きることはありませんが、やはりクローラビリティ独自で注意すべきポイントもいくつかあります。
そこで、クロールを最適化する(クローラビリティを向上させる)ための重要なポイントを解説しましょう。
内部リンクの階層が深くなりすぎないようにする
クローラーがページにたどり着けるように、内部リンクの階層は深くなりすぎないように注意する必要があります。
例えば、ブログの記事一覧ページなどの、複数ページに分かれているページの場合、10ページ目より50ページ目の方がクローラーがたどり着けない可能性が高くなります。(途中にWebサイト外部からリンクが無いと仮定した場合)
TOPページから何回もクリックする必要があるようなページは、クローラーがたどり着くことができず、クロール対象から漏れることがあります。
重要なページはTOPページから直接リンクを設置するなど、できるだけ少ないクリックでアクセスできるようにしましょう。
内部リンクの階層を深くしすぎないことは、ユーザビリティの観点からも重要です。
正しいステータスコードを返す
Webサーバーは、クローラーやブラウザからのリクエストに対して、ステータスコードと呼ばれる3桁の数字を返します。
ページが問題なく表示される場合には200、ページが存在しない場合には404など、状況に応じて返すコードが決まっています。
クローラーもこのステータスコードを確認していますので、ページが問題なく表示されているのに404を返したり、逆にページが存在しないのに200を返すようなことが無いように注意しましょう。
ページが問題なく表示されているのに、ステータスコードに404を返している場合、ページが正しくインデックスされない可能性もあります。
XMLサイトマップを活用する
サーチコンソールからXMLサイトマップをGoogleに送信すると、GoogleがWebページをクロールする手助けをすることができます。
特に膨大なページ数を持っているWebサイトや、新しく立ち上げたばかりのWebサイトではXMLサイトマップを活用すると効果的。Googleは送信されたXMLサイトマップの内容を参考にしながらWebサイトをクロールしますので、効率よくWebページをクロールしてもらうことができます。
1枚のXMLサイトマップファイルに記載できるURL数は5万URLまでですが、複数のサイトマップファイルに分割してGoogleに送信することもできます。
サイトマップの作成方法などについては、サイトマップについて – Search Console ヘルプに詳しく書かれています。
robots.txtでクロールを制御する
ユーザーが検索した結果ページなど、どうしても自動で生成されてしまうページが存在する場合や、検索エンジンにインデックスしてもらいたくないページがある場合、robots.txtを使って、クロールをブロックすることもできます。
ただし、ページを検索結果に表示させないように指定するnoindexタグと併用する場合には注意が必要です。
robots.txtでクロールをブロックしてしまうと、検索エンジンはWebページに記述されたnoindexタグを読むことができませんので、いつまでたっても検索結果にページが表示される状態になってしまいます。
robots.txtに関する詳しい解説は、robots.txtとはをご覧ください。
クローラーが辿れないリンクの方法を使わない
クローラーはaタグを使ったリンクを辿ってページ間を移動しますので、フォームボタンによるリンクや、JavaScriptによるリンクなどは辿ることができません。
不動産サイトや求人サイトなど、ユーザーが複数の条件を入力してページを探すWebサイトの場合、クローラーが辿れない方法でリンクされていることがあります。
そういったWebサイトでは、ユーザーが選択する条件の部分にaタグを使ってリンクを設置するなどの工夫が必要です。
株式会社フルスピードのSEOコンサルティングサービスのご紹介
↓株式会社フルスピードのSEOコンサルティングサービスのご紹介(資料DLページ)
株式会社フルスピードはSEOコンサルティングサービスをご提供しています。株式会社フルスピードは2001年の創業から5,500社以上ものSEOコンサルティング実績を積み上げてまいりました。
株式会社フルスピードは世界で60万人が導入する最高水準のSEO分析ツールAhrefsのオフィシャルパートナーでもあり、これまで培ってきたSEOノウハウとAhrefsのサイト分析力を活かしたSEOコンサルティングサービスをご提供することが可能です。SEOコンサルティングサービスの詳細に関しましては上記バナーをクリックしてご確認くださいませ。お気軽にご相談ください。
-
-
SEO内部対策とは?考え方からマイナス要因を無くす施策まで解説!
- SEO内部対策
- SEO基礎
-
Googleサーチコンソールのカバレッジエラーの確認方法と解決方法
- Google Search Console
- SEO 分析
-
2年目Web担当者のための、Google Search Console使いこなし実践テクニック
- Google Search Console
-
ページエクスペリエンスとは?検索結果ランキング決定の要因となったシグナルの対策について解説
- Google Search Console
- Google検索アルゴリズム
- SEO内部対策
- SEO基礎
-
インデックスとは┃Google検索エンジンにコンテンツが認識される仕組み
- 用語解説