公開日:2015年03月30日
最終更新日:2021年02月12日
こんにちは。アナリストの荒木です。
以前ご紹介した機械学習アルゴリズムのなかで、導入がとても簡単なクラスタ分析を紹介します。 今回ご紹介する方法は、環境のインストールからデータ分析実施まで合わせて1時間もかかりませんので、少し手の空いた時間に試していただければ幸いです。
目次
クラスタ分析とは、さまざまな個体を一定の手順に基づいて似ている集団(クラスタ)に分類し、その中から意味あるものを発見する分析方法です。
ポジショニングマップも個体を分類する手法ですが、軸が3次元、4次元と増えるにつれ、どのように分類すべきかで迷ってしまうことがあります。
例えば、検索エンジンで集客したページを分類した場合、以下のようにパターンが考えることができます。
クラスタ分析では3次元以上の軸であっても、自動的に似ているページを集めることで、その特徴を知ることができます。
今回は、AppVIPのコラム記事のアクセスデータを使って、クラスタ分析を行います。
[検索トラフィック] → [検索クエリ] → [上位のページ] → [このテーブルをダウンロード]
今回は、コンテンツSEOのページ毎の閲覧開始データをダウンロードします。 [行動] → [サイトコンテンツ] → [ランディングページ] → 検索窓からディレクトリを指定 → [ダウンロード]
※特定ページの確認方法はこちらをご確認ください。 ※集計対象期間をGoogleウェブマスターツールと合わせてください。
エクセルで、GoogleウェブマスターツールとGoogleアナリティクスのデータを紐づけます。 今回は、[セッション][直帰率][ページ/セッション][平均セッション時間][表示回数][CTR][平均掲載順位] 以外の余分な軸を削除します。
▼加工後のデータ
※エクセルで加工する場合は[http://domain]を削除し、URLをキーにしてvlookup関数で紐づけてください。 ※すべて数値データに変換してください。
Rはオープンソースの統計解析言語です。こちらからダウンロードいただけます。
クラスタリングアルゴリズムは、機械学習アルゴリズムまとめで紹介した、K-meansという手法を用います。 K-meansは、あらかじめグルーピングする数(クラスタ数)を決める手法ですので、AppVIPのコラム記事のページを4クラスタに分類します。
手順は以下の通りです。
1.用意したデータを環境にロード
accessData <- read.csv("access_data.csv")
2.URL(1列目)データ以外の値でクラスタリング
result <- kmeans(accessData[,-1],4)
3.クラスタの平均値を出力する
write.csv(result$centers,"centers.csv")
4.各ページが所属するクラスタを出力する
write.csv(cbind(accessData,result$cluster),"result_kmearns.csv")
クラスタ毎に、各軸の平均値を確認します。
クラスタ1は、「セッションが多いが、他ページへの誘導が少なく、平均セッション時間が長い」という特徴から、”人気独占コンテンツ”と呼ぶことにします。
クラスタ2は、「セッションは少ないが、ほかページに誘導している。一方で、平均セッション時間が短く、順位とCTRが低い」という特徴から、”ほかページへの誘導が早いコンテンツ”と呼ぶことにします。
クラスタ3は、「セッションは少ないが、平均セッション時間が長く、ほかページに誘導している。順位とCTRが低い」という特徴から、”読んだ後に他ページへ誘導しているコンテンツ”と呼ぶことにします。
クラスタ4は、「セッションが多いが、他ページへの誘導が少なく、平均セッション時間が短い」という特徴から、”内容が薄い人気コンテンツ”と呼ぶことにします。
各クラスタの特徴から、以下の改善点を考えることができます。
クラスタ1 ”人気独占コンテンツ”:関連ページへのリンクを設置するなど、他ページへの回遊を促す。
クラスタ2 ”ほかページへの誘導が早いコンテンツ”:順位上昇とCTRの改善を視野に入れたタイトルの書き換えを行い、ページ内コンテンツを追加する。
クラスタ3 ”読んだ後に他ページへ誘導しているコンテンツ”:順位上昇とCTRの改善を視野に入れたタイトルの書き換えを行い、サイト内からのリンクを増やす。
クラスタ4 ”内容が薄い人気コンテンツ”:ユーザーが求めていると考えられる、深堀したコンテンツをページ内に追加する。
▼クラスタと各ページの関係
クラスタ分析は、複雑に絡み合ったパターンも、クラスタ数を限定することでその集団の特徴を確認することができます。
また、クラスタごとの改善点がそのまま各ページの改善につなります。
Rを使うと簡単に着手できますので、本記事が機械学習を始めるきっかけになれば幸いです。
最後までご覧いただきありがとうございました!
GrowthSeed編集部
株式会社フルスピードのGrowthSeed編集部です。企業のマーケティング担当者へ向けてWebマーケティングの成長の種となる情報を発信しています。 Twitter , Facebookで記事の更新情報やセミナーの最新情報などを日々発信しているので、ぜひフォローしてみてください。
【保存版】これだけは覚えておきたいAhrefsの使い方(ダッシュボード編)
なぜNAVERまとめはサービス終了したのか!?SEO視点で調べてみた
企業のSNS運用のポイントや手順・事例を紹介!SNSで認知度を高めてファンを増やそう
検索キーワードを分析!検索アナリティクスを使った分析方法
【2018年版】Ahrefsで使える「キーワードエクスプローラー」の使い方
パンダアップデートの生みの親が出願した特許をご紹介します。
ブログ記事リライトの手順や注意点をSEOのプロが解説!
Googleビジネスプロフィール(旧Googleマイビジネス)の編集方法を徹底解説!登録方法から管理画面の使い方まで
SEOとURLの関係とは? 検索順位への影響などをプロが徹底解説
URL「www」ありなしのSEO効果は?統一すべき理由や設定方法を解説
モバイルファーストインデックス(MFI)とは?概要や確認方法・対策方法まで徹底解説
Google、May 2022 Core Updateを展開!2022年初のコアアップデート
サーチコンソールの権限付与の設定方法┃2022年最新
モバイルフレンドリーとは?条件、確認方法、対応方法を解説
サーチコンソールのインデックス登録のリクエスト方法とインデックスできない時の解決方法
Webマーケティングにお困りの際は お気軽にご相談ください