SEOにおけるインデックスコントロール

内部施策の基礎工事

検索流入の対象ページ(正規URL)を、
100%インデックスさせることは
内部リンクやコンテンツ改善を行う前に必須の施策です。
正規URL が1,000ページあるサイトで、
インデックス率 100%(インデックス数 1,000ページ)が”正常”とした場合、
・ インデックス率 50%(インデックス数 500ページ/過小インデックス)
・ インデックス率 200%(インデックス数 2,000ページ/過剰インデックス)
の場合、何かしらのSEO的な問題が発生していると考えられます。

対象ページを 100%インデックスさせる

本記事では、
① 非正規URLの発生を必要最低限に抑える
② 正規URLを100% インデックスさせる
③ 非正規はクロールさせない
をインデックスコントロールの基本方針とし、
コントロールできていない場合の問題別に制御手法を解説します。

過小インデックスの場合、
“クローラビリティ”もしくは “コンテンツの品質” に課題があります。
インデックス状況がそもそも監視されていない場合、
上記の課題に気づけないこと自体も問題です。

過剰インデックスは、
一般的なウェブサイトで問題になることは多くありませんが、
数万ページ以上の規模のサイトでは過剰インデックスの結果、
ドメイン全体の低評価を招き、順位下落・流入が減少する事例もあります。

Google-bot の仕組み

インデックスコントロールを行うためには、
Googleの検索システムが
Web上のコンテンツをどのように評価しているのか。
Google-bot の仕組み
(「クロール」「レンダリング」「インデキシング」の処理フロー)
を理解することが必要です。

クロール

GoogleがURLを発見するプロセス。
Google はGoogle-bot(クローラー/スパイダー)を使用して
世界中のWebサイトのリンクを辿り、情報を収集しています。
まずはじめに Googleが Webコンテンツの場所(URL)を知るなければ
コンテンツが評価・順位付けされることもありません。
「WebサイトにGoogle-botがどの程度アクセスしているか」を確認するには
サーバーの生ログを解析する「生ログ分析」が有効です。
※ グーグルサーチコンソール にも
クローラーのアクセス状況を確認できる機能( クロールの統計情報 )
がありますが、実務でがあまり参考になりません。

推薦ツール

①Screaming Frog
https://www.screamingfrog.co.uk/seo-spider/
Webサイトクローラーです。
実際のサイトをクロールすることで、bot が検知できるURLを知ることができます。
なお、自社で管理しているサイトをクロールするのは、特に問題ありませんが(法律的に。サーバーリソースに関してはインフラさんに確認してください)、
考えなしに他社サイトをクロールすると、問題になることもあるのでご注意ください
Librahack : 容疑者から見た岡崎図書館事件
http://librahack.jp/

②Announcing The Log File Analyser
https://www.screamingfrog.co.uk/log-file-analyser-1-0/
生ログ(botのアクセスログ)の解析に有効です。
bot のアクセスログは多くのアクセス解析ソフトで見れないため(設定が必要)
サーバーの生ログを見ることになります。

レンダリング

Google-bot は Webサイトにアクセスすると、
コンテンツの内容を理解しようとします。(「レンダリング」プロセス)
Google-bot は、テキストコンテンツの理解は得意ですが
画像や動画コンテンツ、JavaScritp 等を理解する能力は高くありません。
特にJavaScript は、最新の技術動向に Google-bot の性能が追いついていないため
最新のフレームワークやライブラリを使用する場合は注意が必要です。

SEOに役立つ、Googlebotのレンダリングを検証する4つの方法 | 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/four-ways-to-debug-googlebots-rendering/

インデキシング

WebサイトをGoogle が発見(クロール)し、
コンテンツにも問題がない(レンダリング)場合、
Googleのサーバーにコンテンツの情報が保存されます。
(「インデキシング」プロセス)

Google 検索の仕組み – Search Console ヘルプ https://support.google.com/webmasters/answer/70897?hl=ja

インデックスの確認方法

インデックスの状況を確認するには、
主に 「Google Search Console」 と 「特殊検索コマンド」 を利用します。

Google Search Console

インデックス カバレッジ レポート – Search Console ヘルプ
https://support.google.com/webmasters/answer/7440203?hl=ja&authuser=0

インデックスカバレッジレポートで監視を行う場合、
正規URLの登録率(インデックス率)が主な指標になります。
そのため、インデックスコントロールを行う前に
「正規URLの洗い出し」 → 「sitemap.xml の定常運用」の実施が必要です。

特殊検索

特定ディレクトリのインデックス状況や
特定KWに関するページの確認に site/intitle/info の各特殊検索コマンド が有用です。
※ 特殊検索では、”期待される正確な結果”は返ってこないため、
インデックス数の監視には向きません。

【Web担必見!】これだけは知っておきたいGoogleの特殊検索方法8選 | プロモニスタ
https://promonista.com/howto-google-search/

コマンド単体以外の組み合わせ検索も是非お試しください。
「site:hoge.com/fuge/ intitel:ふげ」
検索結果:hoge.com ドメイン /fuge/ ディレクトリ配下で”ふげ”に関連するページ

Google bot の制御方法

本来は正規URLのみを表示させるのが理想ですが、
何かしらの理由で非正規URLが発生してしまう場合、
以下いずれかの制御が必要です。

robots

robots.txt ファイルについて – Search Console ヘルプ
https://support.google.com/webmasters/answer/6062608?hl=ja&authuser=0

robots.txt を提供する以外にも
meta タグに記述する方法 や X-Robots-Tag を利用することもできます。

robots に関するよくある質問 – Search Console ヘルプ
https://support.google.com/webmasters/answer/7424835?hl=ja&ref_topic=6061961&authuser=0

ドメイン、ディレクトリ単位でしか制御できないため
URL構成が複雑なサイトでは運用自体が難しいかもしれません。
その場合、パラメータ単位で制御が可能な GSC 「URLパラメータ」の利用を検討してください。
「Disallow」ディレクティブ の注意点
「Disallow」の指定されたディレクトリを bot はクロールすることができません。
Disallow 指定されたページの meta も見ることができないため、
ページに記述してある制御構文は認識されない点に注意してください。

Google Search Console 「URLパラメータ」

URL パラメータ ツールでパラメータを分類する – Search Console ヘルプ
https://support.google.com/webmasters/answer/6080550?hl=ja

「robots」による制御と比べると、制御力は劣る印象ですが
パラメータの種類が膨大なサイトではある程度の効果を発揮します。

クローキングはNG

botを制御する議論の中で必ず出てくるアイデアが
「ユーザーと bot に異なるコンテンツを表示する」方法ですが、
多くの場合、クローキングスパムに該当するのでご注意ください。

クローキング – Search Console ヘルプ
https://support.google.com/webmasters/answer/66355?hl=ja

クロール効率の向上/インデックスの促進

数十万ページ以上の Webサイトはクロールバジェトへの注意が必要です。

Googlebot のクロール バジェットとは?
https://webmaster-ja.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html

クローラーがURLを発見する手助けとしてWebマスターが出来ることは
「内部リンクを適切に設計する」と「sitemap.xml を提供する」ことです。

サイト本来の情報構造が適切に設計されていることが前提ですが、
主に以下の点に注意してください。
・ 情報構造設計の基礎知識
https://www.slideshare.net/rikiha/ss-84043896

・ 内部リンク:カテゴリ/パンくずリンクを設置する
・ 内部リンク:関連コンテンツ同士をリンクさせる
・ sitemap.xml を運用する
サイトマップの作成と送信 – Search Console ヘルプ
https://support.google.com/webmasters/answer/183668/?hl=ja&authuser=0

問題別の対策

インデックスコントロール時に発生する主な問題点と対策案です。
※「インデックスさせようとしているページに、
「検索ユーザーに提供する価値がある」ことが前提になります。
「ページの本質的な価値」に疑問が残る場合、
提供価値の向上を先に議論してください。

「クロール」プロセスにおける主な問題

内部リンク不足

気づくタイミング:クロール調査 や 生ログ分析のURLが実際のページ数より少ない
対策:内部リンクの構造を見直す
所見:クローラーが回れてない問題。内部リンクを増やすと改善します

過剰なアーカイブ/タグページ

気づくタイミング:アーカイブ/タグページ群のクロール比率が高い
対策:アーカイブ/タグページを必要最低限に減らす
所見:重要ではないページばっかりクロールされてる問題。
タグが大好きな人で、WordPressの投稿タグが3万とかあった例もありましたが
カテゴリで整理した方がユーザーにも親切かと。
メディア系サイトは、公開初期から整理されたカテゴリを用意することが難しいですが(カテゴリ分けする記事が存在しないため)
定期的に構造化しておいた方が、あとから大変な思いをしなくて済みます。

ユーザーのためが最強のSEO!nanapiのSEOで何をしているか けんすう日記
http://blog.livedoor.jp/kensuu/archives/54268130.html

検索条件の掛け合わせ

気づくタイミング:Search Consoleで 異常な数のパラメータ/除外ページが検知されている
対策:ファセットナビゲーションの設計
ファセット ナビゲーションのベスト プラクティスと 5 つのワースト プラクティス

Google ウェブマスター向け公式ブログ
https://webmaster-ja.googleblog.com/2014/03/faceted-navigation-best-and-5-of-worst.html

所見:ECサイトの落とし穴問題。
考えて設計しないと商品の絞り込みとかで無限にURLパターンが…。
大きいECサイトで億単位の重複URLが発生してたときは、
「Googleも大変だな…(同情)」と思いました。

リダイレクトチェーン

気づくタイミング:クロール調査。
「スクリーミングフロッグ」はリダイレクトチェーンのチェック機能があるので便利です。
対策:リダイレクトは1回で終わらせる(理想)
所見:運営歴が長いサイトだと、担当者も状況を把握できていないので解決が困難なので、作り直した(リニューアル) 方が早いと思うことも…

301リダイレクトするページ数に上限はあるの? – 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/is-there-a-limit-to-how-many-301-redirects-i-can-do-on-a-site/

会員向けコンテンツ

気づくタイミング:担当者がログインの必要なページの話をしている
対策:啓蒙。ビジネス観点 × SEOの議論を決着させる
所見:公開/非公開 or FCFの検討かと。

FCF の現状は確認しておいた方がいいかもしれません。
Google、First Click Free (FCF) プログラムを廃止予定 | 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/google-is-ending-first-click-free-program/

「レンダリング」プロセスにおける主な問題

JavaScript

気づくタイミング:インデックスされないから Fetch as したら結果がおかしい
対策:使用している js の検証 ※多くはデモサイトのレンダリングで判断可
所見:フロントエンド/デザイナーさんへの啓蒙が必要なやつ。
Google が bot の性能を上げてくれるのを待っている人も。

Googlebotのレンダリングサービスが年内にアップデートか?  – 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/wrs-will-be-updated-by-2018/

「インデキシング」プロセスにおける主な問題

低品質(重複コンテンツ)

気づくタイミング:順位下落した ページのタイトル・本文を検索したとき
対策:
コピーコンテンツとは/SEO初心者への必須知識と対策法
https://seopack.jp/seoblog/20160819-copy-contents/

所見:システム要因の場合は、「クロール」プロセスで問題になることが多いのと
「本質的な価値提供」を前提条件とした場合、
上記以外で低品質コンテンツに該当するのは「コピペ」ぐらいかなと

画像・動画の多用

気づくタイミング:目視
対策:画像にaltを入れる。動画を構造化マークアップする
画像・動画の内容をテキスト化する
所見:実際にページを確認するの大事です。
画像や動画がメインコンテンツの場合、
コストは掛かりますが文字起こし(※1)も有効です
※1:スライドシェアのスライドページ下部にあるテキストはSEO用だと思ってます

過剰な広告

気づくタイミング:目視?
対策:ビジネスサイドを説得して広告を減らす
所見:実装前に止めるので、実際に体験したことはないのですが
広告貼りすぎて順位落ちたりすると気づくのでしょうか。

まとめ

意図せず発生してしまうことも多い不適切なインデックス。
しっかりコントロールして、施策に専念したいですね。