1. ホーム
  2. SEO専門記事
  3. 検索エンジン全般
  4. 【連載】Google検索エンジンの仕組み|SEOの基礎力講座 Vol.02

【連載】Google検索エンジンの仕組み|SEOの基礎力講座 Vol.02

著者: 深井 秀行
  • 検索エンジン全般
  • 初級

Google検索エンジンの仕組み

こんにちは。SEOコンサルタントの深井です。

Googleの検索結果は、どのような仕組みで表示されているか知っていますか?

アップしたサイトやページをすぐにGoogleに認識してほしい!
いや、すぐに検索結果に表示されたい!

と思っても、検索エンジンの仕組みを理解していなければ対処することができません。

Google検索エンジンの全容は公開されていませんが、どのような流れで検索結果画面が作られているのか、プロセスの一部分は公開されています。Googleから公開されている話とこれまでの歴史も踏まえながら、検索エンジンの仕組みを探ります。

少し話がそれますが、よく「考える前に行動しよう!」という人がいます。解釈の仕方によりますが、この言葉は奮起を促すための、いわばスローガンです。
この言葉を額面とおりに受け取って、考える前に行動したら・・・当たり前ですが失敗します。
大胆に行動する人がいれば保守的な人もいます。ただ、行動の原理を理解していればどちらの行動でも、不要な行動には至らないという点で一致します。
SEOで成果を出そうと思えば、対象となるGoogle検索エンジンの原理を理解し対応策を考えてこそ、行動の質や成果も変わってくるものです。

SEOの対策方法やノウハウを学ぶ前に、急がず、検索結果に表示されるまでのプロセスを理解しましょう!

ステップ1 クロール

検索の道のりは、検索クエリが入力される前に、数兆に及ぶページをクロールすることから始まります。
クローラと呼ばれるプログラム(ロボットやスパイダーと呼ばれることもあり、Googleのメインクローラは”Googlebot”といいます)が、WEBページ間のリンクを辿ることによってWEBサイトを自動的に探し出します。
クローラがありとあらゆるWEBページを探し出す行為を、クロールといいます。

クロールのプロセスは、以下が一般的です。
・過去のクロールから得られたリストを活用する
・WEBサイトの所有者から提供されたXMLサイトマップから他サイトへのリンクを辿る

新たにサイトを制作した、あるいはページを追加した際は、以下の方法でクローラを呼び込むことができます。
・サーチコンソールからXMLサイトマップを送信
・サーチコンソールのFetch as Googleでリクエストを送信
・公式サイトや関連サイトからリンクで紹介

昔は、サイト内にHTMLのサイトマップを用意することがクローラの手助けになるといわれていましたが、Googleのジョン・ミューラー氏が2015年7月に、「XMLサイトマップがあればHTMLのサイトマップは必要としていない」とコメントしています。
(※あくまでも検出の手助けには必要としてないとの解釈です。ユーザーの利便性が増すのであれば活用しましょう)

より詳しい内容は、用語集「クローラとは」でご紹介しています。

ステップ1 クロール

ステップ2 インデックス生成

クローラが集めたサイト情報はリポジトリに一時格納され、解読しやすいように細かく分解されます。

例えばテキストの場合、日本語そのままで格納されると情報量が莫大になるため、形態素解析で分割し、単語ごとに数値に変換してから格納します。
「私はフルスピードの深井です」
という文章であれば
「私(代名詞)/は(助詞)/フルスピード(固有名詞)/の(助詞)/深井(固有名詞)/です(助動詞)」という形態素に分解され、私=01、フルスピード=02、深井=03、のように数値に変換されるイメージです。
“は” “の” “です”などの助詞や助動詞はストップワードと認識され、除外されます。
単語の位置や単語の頻度、付加要素、全体のテーマ性も加味されます。
その他にも、内部リンクの状態や第三者サイトからのリンク状態なども細かく分解され、多くの項目でインデックスが生成されます。

インデックス生成は、検索エンジンにサイト内容を的確に伝え理解を促す、非常に重要なプロセスです。検索エンジンとの親和性を意識するクローラビリティ対策が求められます。重要な部分になるので、別の章でじっくりふれたいと思います。

※注 一部はGoogleの公式アナウンスではありません。プログラムの一般論をもとに説明しています。

ステップ2 インデックス生成

ステップ3 インデックス

リポジトリで分解された情報はインデックスに保存されます。世界中のサイト情報を格納している、いわば検索エンジンの屋台骨となる部分です。
Googleのインデックスは1億ギガバイトを超え、インデックスの構築に費やした処理時間は累積で100万時間を超えるといわれています。

検索をする際の情報はすべてインデックスから取り出されるため、インデックスにサイト情報が保存されないと、検索結果に表示されることはありません。
“インデックス削除”という言葉を聞いたことがありますか?これはGoogleのガイドラインに反する行為を行った結果、ペナルティとしてインデックスから削除されることを指します。すなわち、検索結果に表示されない、一大事!ということです。

話題になっていることや最新ニュースを検索すると、数分前にアップされた情報を検索結果画面で目にすることがあります。
これは2010年6月、コードネーム「Caffeine(カフェイン)」と呼ばれるインデックスシステムの刷新によるものです。
刷新前は、ページの保存と検索結果への反映に数週間の大きな時間差が発生していたため、最新情報を検索結果画面で見ることができませんでした。これが、「Caffeine(カフェイン)」の登場で、最短数分でクロールからインデックス、そして検索結果画面に表示されることが可能になりました。いまでは当たり前とされているリアルタイム情報の閲覧です。

インデックスされることに特別な対応策は必要ありません。
ただし、HTMLのheadセクションに「noindex」のmeta robotsタグが付いている場合は注意が必要です。このタグは、検索結果に表示させたくないときに利用するものです。誤って記述されていると、いつまでたっても検索結果に表示されません。
「noindex」は、インデックスされないと勘違いする名称ですが、実はクロールしインデックスに格納します。ただ、検索結果には表示されないので、外から見るとインデックスされていないように見えるのです。

より詳しい内容は、用語集「インデックスとは」でご紹介しています。

ステップ3 インデックス

ステップ4 検索アルゴリズム

検索アルゴリズムとは、ある特定の問題を解く手順を、複雑な計算式や言語学を組み合わせて定義したものです。検索エンジンの核となる部分で、全容は公表されておらずブラックボックスです。
サイトを評価し順位を決定するシグナルはGoogle独自のものであり、200を超える要素と複雑な計算式によってランキングが生成されます。

少し古いデータですが2011年の実績では、テスト~評価~分析のプロセスをもとに538件のアルゴリズム改善が実用化されています。
新たなシグナルや複雑なシグナルの組み合わせを研究したり、検索結果の品質評価や新たな評価基準の開発など、エンジニア主導のもと日々多くの改良が加えられています。

多くは公表されないアルゴリズムですが、一部公表された”考慮される要素の例”を紹介します。

・PageRank
・ウェブサイトのコンテンツのデータ鮮度
・特定のサイトにリンクしている他のウェブサイトの数とそのリンクの権限
・ウェブページ上の語句
・検索キーワードの同義語
・スペルチェック
・サイト上のコンテンツの質
・ウェブページの URL とタイトル
・最適な結果の種類は何か (ウェブページ、画像、動画、ニュース記事、パーソナル検索結果など)
・カスタマイズ
・そのユーザーとつながっている人がすすめている結果

ステップ4 検索アルゴリズム

ステップ5 検索結果画面に表示

ユーザーが検索クエリを入力すると、インデックスから情報を探し出し、検索アルゴリズムの計算によって一致するページがスコア付されます。そして、関連性が高いと判断された検索結果が約0.25秒~0.5秒で返されます。

結果が返されるまで、検索クエリは世界中のさまざまなデータセンターを経由するので、平均で2,400キロメートルもの旅をすることになります。その速度は毎時10億キロメートルの光速並みになります。

検索結果画面は、広告の位置を変える大きな改善や、ページタイトルの文字数を拡大するなど気づかないほどの小さな改善を多く実行しています。
すべてはユーザーの利便性を第一に考え、日々カスタマイズを繰り返しているのです。

ステップ5 検索結果画面に表示

まとめ

検索結果が返される約0.25秒の裏側をご紹介しました。
検索エンジンの大枠の流れは感じていただけたと思います。

日常生活でよく使うパソコンや家電製品などは、原理や構造が分からなくても使うことができます。しかし、原理や構造が分かっていると故障したときに原因が特定でき、場合によっては自分で直すことができます。

SEOも同じです。

検索エンジンの原理が分かっているからこそ、原因が想定でき問題を解決することができます。

検索エンジンは情報を取得する強力なツールとしての役割を果たしてきました。今後もその役割を担っていくと考えます。
SEOの第一歩は、検索エンジンの原理を理解することです!

第3回目の「検索アルゴリズムの200要素を公開」は2016年9月14日(水)掲載です。
今しばらくお待ちください。

それでは、引き続き宜しくお願いします!

深井 秀行

この記事の著者:深井 秀行
SEOコンサルタントに求められるのは、ビジネスモデルの理解とマーケティング戦略をイメージできるチカラです。経営にSEOを活かすよう力を尽くします。
Google活用ガイドブック
Googleを活用するうえで知っておきたい基本知識をグッと凝縮し、一冊にまとめました。

詳細はこちら

人気SEO専門記事

人気SEO専門記事一覧を見る

人気SEO専門記事

2014. 09. 02 (火)
今さらだけど知りたい、読点の使い方…

ライティングのコツ

2015. 06. 24 (水)
知られざるWordの使い方「スタイル、アウトライ…

ライティングのコツ

2015. 05. 29 (金)
迷ったらこうする[漢字/ひらがな編] -「出来る…

ライティングのコツ

人気SEO専門記事一覧を見る

pagetop