2014年08月15日
みなさんこんにちは。アナリストの荒木です。
今回は、検索結果画面の上下に表示されている「○○(検索したキーワード)に 関連する検索キーワード」がどのように作られているのか、その仕組みを解明す る糸口になると思われる特許をご紹介します。
※Googleの検索アルゴリズムに導入されている保証はありませんのでご注意ください。 ご紹介する特許の全文は、下のリンクからご覧いただけます。 (別ウィンドウで表示されます) 今回取り扱う特許:Systems and methods for providing search query refinements
目次
Googleが他のクエリを提案する理由は、クエリの曖昧性を回避するためです。
例えば「土曜日」で検索すると、関連するキーワードには 「郵便局 土曜日 窓口」「確定申告 土曜日」「新札 交換 土曜日」等が表示されます。
▼関連する検索キーワードが表示されていると想定できる検索結果
「土曜日」のような曖昧なクエリの場合、Googleの検索結果ページには土曜日の郵便局窓口ページや土曜日の英訳ページ等、様々なページが表示される傾向があります。 この場合、土曜日の英単語を調べたいユーザーにしてみれば、郵便局のページは不要です。
しかし曖昧なクエリの場合、ユーザーの様々なニーズに応える必要があるため、あるユーザーには不要な情報でも、検索結果に表示せざるを得ないのです。
そこでGoogleは、ユーザーが必要な情報を調べやすいように、関連するキーワードを提案します。
本特許では、以下の手順で作成します。
※ここでのクラスタとは、キーワードの集合を意味しています。
過去にユーザーが検索してきたキーワードを特徴づけます。 その際、集めてきたページにとってその単語がどれだけ重要かを計算するTFIDFを用いて特徴量を計算します。
TFIDFは以下2つのパラメータの掛け算で決まる値を示します。
次に、集めてきたキーワードをクラスタリングします。 TFIDFの値が近いキーワードを同じクラスタとします。
▼各クラスタを色別に分けた場合の概念図
そして、クラスタ内の単語数を数えます。 最も単語の多いクラスタが、関連するキーワードの候補に一番近いクラスタとして選ばれます。 (図の場合、赤く塗りつぶされたクラスタが関連するキーワード候補に一番近いクラスタです。)
最初に、特徴量の平均を計算し、クラスタの中心を求めます。
そして、クラスタ内の各キーワードをクラスタの中心に応じてスコアリングします。
ある値以上スコアが高いキーワードをクラスタの代表的なキーワードとします。
最後に、入力されたキーワードに応じて、この代表的なキーワードを「関連する検索キーワード」として表示します。
実際に「土曜日」を検索された方は気づかれたと思いますが、関連する検索キーワードはサジェスト(検索窓にクエリを入力すると出てくるキーワード)と別物です。 ※余談ですが、「関連キーワード ツール」などで検索するとサジェストを表示してくれるツールが見つかります(ツール作成者ありがとうございます!)が、関連する検索キーワードを抽出するツールは見かけたことがないです。
また、検索クエリから作られる関連キーワードですが、体感的にサジェストの方がキーワードの変化が早く感じます。サジェストと関連する検索キーワードの違いをアルゴリズムの観点から比較しても面白いかもしれませんね。
そもそも、ユーザーが関連する検索キーワードの機能をどの程度使っているのか分かりませんので、Googleの機能を意識的に使っているのかどうか、ユーザーにアンケートを取ってみたいと思います。 (参照:時代はロングテールSEO!?検索エンジン利用実態調査 )
最後までお読み頂きありがとうございました! 次回もよろしくお願いします!
Ahrefs Positions Explorerで検索キーワードが丸裸に!?
【2018年版】Ahrefsで使える「キーワードエクスプローラー」の使い方
URL「www」ありなしのSEO効果は?統一すべき理由や設定方法を解説
BtoBこそサイト改善でリード獲得!自然検索経由で成果を伸ばす方法
どうして!? Twitterのアカウントがロックされてしまう理由と解除方法
迷ったらこうする[漢字/ひらがな編] -「出来る/できる」「事/こと」など
企業向けFacebookページ(ビジネスアカウント)の作成・管理方法
なぜNAVERまとめはサービス終了したのか!?SEO視点で調べてみた
知られざるWordの使い方「スタイル、アウトライン」編