SEOにおけるインデックスコントロール

2022年4月26日

内部施策の基礎工事
検索流入の対象ページ（正規URL）を、
100%インデックスさせることは
内部リンクやコンテンツ改善を行う前に必須の施策です。
正規URL が1,000ページあるサイトで、
インデックス率 100%（インデックス数 1,000ページ）が”正常”とした場合、
・インデックス率 50%(インデックス数 500ページ/過小インデックス)
・インデックス率 200%（インデックス数 2,000ページ/過剰インデックス）
の場合、何かしらのSEO的な問題が発生していると考えられます。

対象ページを 100%インデックスさせる
本記事では、
① 非正規URLの発生を必要最低限に抑える
② 正規URLを100% インデックスさせる
③ 非正規はクロールさせない
をインデックスコントロールの基本方針とし、
コントロールできていない場合の問題別に制御手法を解説します。

過小インデックスの場合、
“クローラビリティ”もしくは “コンテンツの品質” に課題があります。
インデックス状況がそもそも監視されていない場合、
上記の課題に気づけないこと自体も問題です。

過剰インデックスは、
一般的なウェブサイトで問題になることは多くありませんが、
数万ページ以上の規模のサイトでは過剰インデックスの結果、
ドメイン全体の低評価を招き、順位下落・流入が減少する事例もあります。

Google-bot の仕組み
インデックスコントロールを行うためには、
Googleの検索システムが
Web上のコンテンツをどのように評価しているのか。
Google-bot の仕組み
（「クロール」「レンダリング」「インデキシング」の処理フロー）
を理解することが必要です。

クロール
GoogleがURLを発見するプロセス。
Google はGoogle-bot（クローラー/スパイダー）を使用して
世界中のWebサイトのリンクを辿り、情報を収集しています。
まずはじめに Googleが Webコンテンツの場所（URL）を知るなければ
コンテンツが評価・順位付けされることもありません。
「WebサイトにGoogle-botがどの程度アクセスしているか」を確認するには
サーバーの生ログを解析する「生ログ分析」が有効です。
※ グーグルサーチコンソールにも
クローラーのアクセス状況を確認できる機能（クロールの統計情報）
がありますが、実務でがあまり参考になりません。

推薦ツール
①Screaming Frog
https://www.screamingfrog.co.uk/seo-spider/
Webサイトクローラーです。
実際のサイトをクロールすることで、bot が検知できるURLを知ることができます。
なお、自社で管理しているサイトをクロールするのは、特に問題ありませんが（法律的に。サーバーリソースに関してはインフラさんに確認してください）、
考えなしに他社サイトをクロールすると、問題になることもあるのでご注意ください
Librahack ：容疑者から見た岡崎図書館事件
http://librahack.jp/

②Announcing The Log File Analyser
https://www.screamingfrog.co.uk/log-file-analyser-1-0/
生ログ（botのアクセスログ）の解析に有効です。
bot のアクセスログは多くのアクセス解析ソフトで見れないため（設定が必要）
サーバーの生ログを見ることになります。

レンダリング
Google-bot は Webサイトにアクセスすると、
コンテンツの内容を理解しようとします。（「レンダリング」プロセス）
Google-bot は、テキストコンテンツの理解は得意ですが
画像や動画コンテンツ、JavaScritp 等を理解する能力は高くありません。
特にJavaScript は、最新の技術動向に Google-bot の性能が追いついていないため
最新のフレームワークやライブラリを使用する場合は注意が必要です。

SEOに役立つ、Googlebotのレンダリングを検証する4つの方法 | 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/four-ways-to-debug-googlebots-rendering/

インデキシング
WebサイトをGoogle が発見（クロール）し、
コンテンツにも問題がない（レンダリング）場合、
Googleのサーバーにコンテンツの情報が保存されます。
（「インデキシング」プロセス）

Google 検索の仕組み – Search Console ヘルプ https://support.google.com/webmasters/answer/70897?hl=ja

インデックスの確認方法
インデックスの状況を確認するには、
主に「Google Search Console」と「特殊検索コマンド」を利用します。

Google Search Console
インデックスカバレッジレポート – Search Console ヘルプ
https://support.google.com/webmasters/answer/7440203?hl=ja&authuser=0

インデックスカバレッジレポートで監視を行う場合、
正規URLの登録率（インデックス率）が主な指標になります。
そのため、インデックスコントロールを行う前に
「正規URLの洗い出し」 → 「sitemap.xml の定常運用」の実施が必要です。

特殊検索
特定ディレクトリのインデックス状況や
特定KWに関するページの確認に site/intitle/info の各特殊検索コマンドが有用です。
※ 特殊検索では、”期待される正確な結果”は返ってこないため、
インデックス数の監視には向きません。

【Web担必見！】これだけは知っておきたいGoogleの特殊検索方法8選 | プロモニスタ
https://promonista.com/howto-google-search/

コマンド単体以外の組み合わせ検索も是非お試しください。
「site:hoge.com/fuge/ intitel:ふげ」
検索結果：hoge.com ドメイン /fuge/ ディレクトリ配下で”ふげ”に関連するページ

Google bot の制御方法
本来は正規URLのみを表示させるのが理想ですが、
何かしらの理由で非正規URLが発生してしまう場合、
以下いずれかの制御が必要です。

robots
robots.txt ファイルについて – Search Console ヘルプ
https://support.google.com/webmasters/answer/6062608?hl=ja&authuser=0

robots.txt を提供する以外にも
meta タグに記述する方法や X-Robots-Tag を利用することもできます。

robots に関するよくある質問 – Search Console ヘルプ
https://support.google.com/webmasters/answer/7424835?hl=ja&ref_topic=6061961&authuser=0

ドメイン、ディレクトリ単位でしか制御できないため
URL構成が複雑なサイトでは運用自体が難しいかもしれません。
その場合、パラメータ単位で制御が可能な GSC 「URLパラメータ」の利用を検討してください。
「Disallow」ディレクティブの注意点
「Disallow」の指定されたディレクトリを bot はクロールすることができません。
Disallow 指定されたページの meta も見ることができないため、
ページに記述してある制御構文は認識されない点に注意してください。

Google Search Console 「URLパラメータ」
URL パラメータツールでパラメータを分類する – Search Console ヘルプ
https://support.google.com/webmasters/answer/6080550?hl=ja

「robots」による制御と比べると、制御力は劣る印象ですが
パラメータの種類が膨大なサイトではある程度の効果を発揮します。

クローキングはNG
botを制御する議論の中で必ず出てくるアイデアが
「ユーザーと bot に異なるコンテンツを表示する」方法ですが、
多くの場合、クローキングスパムに該当するのでご注意ください。

クローキング – Search Console ヘルプ
https://support.google.com/webmasters/answer/66355?hl=ja

クロール効率の向上/インデックスの促進
数十万ページ以上の Webサイトはクロールバジェトへの注意が必要です。

Googlebot のクロールバジェットとは？
https://webmaster-ja.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html

クローラーがURLを発見する手助けとしてWebマスターが出来ることは
「内部リンクを適切に設計する」と「sitemap.xml を提供する」ことです。

サイト本来の情報構造が適切に設計されていることが前提ですが、
主に以下の点に注意してください。
・情報構造設計の基礎知識
https://www.slideshare.net/rikiha/ss-84043896

・内部リンク：カテゴリ/パンくずリンクを設置する
・内部リンク：関連コンテンツ同士をリンクさせる
・ sitemap.xml を運用する
サイトマップの作成と送信 – Search Console ヘルプ
https://support.google.com/webmasters/answer/183668/?hl=ja&authuser=0

問題別の対策
インデックスコントロール時に発生する主な問題点と対策案です。
※「インデックスさせようとしているページに、
「検索ユーザーに提供する価値がある」ことが前提になります。
「ページの本質的な価値」に疑問が残る場合、
提供価値の向上を先に議論してください。

「クロール」プロセスにおける主な問題
内部リンク不足
気づくタイミング：クロール調査や生ログ分析のURLが実際のページ数より少ない
対策：内部リンクの構造を見直す
所見：クローラーが回れてない問題。内部リンクを増やすと改善します

過剰なアーカイブ/タグページ
気づくタイミング：アーカイブ/タグページ群のクロール比率が高い
対策：アーカイブ/タグページを必要最低限に減らす
所見：重要ではないページばっかりクロールされてる問題。
タグが大好きな人で、WordPressの投稿タグが3万とかあった例もありましたが
カテゴリで整理した方がユーザーにも親切かと。
メディア系サイトは、公開初期から整理されたカテゴリを用意することが難しいですが（カテゴリ分けする記事が存在しないため）
定期的に構造化しておいた方が、あとから大変な思いをしなくて済みます。

ユーザーのためが最強のSEO！nanapiのSEOで何をしているかけんすう日記
http://blog.livedoor.jp/kensuu/archives/54268130.html

検索条件の掛け合わせ
気づくタイミング：Search Consoleで異常な数のパラメータ/除外ページが検知されている
対策：ファセットナビゲーションの設計
ファセットナビゲーションのベストプラクティスと 5 つのワーストプラクティス

Google ウェブマスター向け公式ブログ
https://webmaster-ja.googleblog.com/2014/03/faceted-navigation-best-and-5-of-worst.html

所見：ECサイトの落とし穴問題。
考えて設計しないと商品の絞り込みとかで無限にURLパターンが…。
大きいECサイトで億単位の重複URLが発生してたときは、
「Googleも大変だな…(同情)」と思いました。

リダイレクトチェーン
気づくタイミング：クロール調査。
「スクリーミングフロッグ」はリダイレクトチェーンのチェック機能があるので便利です。
対策：リダイレクトは1回で終わらせる（理想）
所見：運営歴が長いサイトだと、担当者も状況を把握できていないので解決が困難なので、作り直した（リニューアル）方が早いと思うことも…

301リダイレクトするページ数に上限はあるの？ – 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/is-there-a-limit-to-how-many-301-redirects-i-can-do-on-a-site/

会員向けコンテンツ
気づくタイミング：担当者がログインの必要なページの話をしている
対策：啓蒙。ビジネス観点 × SEOの議論を決着させる
所見：公開/非公開 or FCFの検討かと。

FCF の現状は確認しておいた方がいいかもしれません。
Google、First Click Free (FCF) プログラムを廃止予定 | 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/google-is-ending-first-click-free-program/

「レンダリング」プロセスにおける主な問題
JavaScript
気づくタイミング：インデックスされないから Fetch as したら結果がおかしい
対策：使用している js の検証 ※多くはデモサイトのレンダリングで判断可
所見：フロントエンド/デザイナーさんへの啓蒙が必要なやつ。
Google が bot の性能を上げてくれるのを待っている人も。

Googlebotのレンダリングサービスが年内にアップデートか？ – 海外SEO情報ブログ
https://www.suzukikenichi.com/blog/wrs-will-be-updated-by-2018/

「インデキシング」プロセスにおける主な問題
低品質（重複コンテンツ）
気づくタイミング：順位下落したページのタイトル・本文を検索したとき
対策：
コピーコンテンツとは／SEO初心者への必須知識と対策法
https://seopack.jp/seoblog/20160819-copy-contents/

所見：システム要因の場合は、「クロール」プロセスで問題になることが多いのと
「本質的な価値提供」を前提条件とした場合、
上記以外で低品質コンテンツに該当するのは「コピペ」ぐらいかなと

画像・動画の多用
気づくタイミング：目視
対策：画像にaltを入れる。動画を構造化マークアップする
画像・動画の内容をテキスト化する
所見：実際にページを確認するの大事です。
画像や動画がメインコンテンツの場合、
コストは掛かりますが文字起こし(※1)も有効です
※1：スライドシェアのスライドページ下部にあるテキストはSEO用だと思ってます

過剰な広告
気づくタイミング：目視？
対策：ビジネスサイドを説得して広告を減らす
所見：実装前に止めるので、実際に体験したことはないのですが
広告貼りすぎて順位落ちたりすると気づくのでしょうか。

まとめ
意図せず発生してしまうことも多い不適切なインデックス。
しっかりコントロールして、施策に専念したいですね。

Posted by Giovanni