最近多発している「WEBコンテンツがインディックスされない件」についてお伝えしています。
google Jhon muller氏の見解と、私熊谷による検証と分析、インディックスされない件をどう解消すればいいのか検証結果までお伝えしていますのでご参考ください。
Contents
google Jhon muller氏の見解・インディックスされない原因を読み解く
以下の出典を意訳要約しています。
出典:youtube/watch?time_continue=1665&v=92x8eJNOKYo&feature=emb_logo
インディックスされないページが2割あるのが普通
はじめに「すべてのページをクローリングするわけではない」と言及している部分から。
※以下Jhon muller氏の発言の要約意訳・抜粋
グーグルはウエブサイトの2割はインディックスしていない(100%インディックスするわけではない)、我々自身それを把握しています。
しかしインディックスされないコンテンツについてウエブサイト運営者が必ずしも修正しなければならないわけではありません。一時的な問題の場合もあるからです。
サイト全体のクオリティの問題であることのほうが多いように思います。
クロールするに値するかどうかの判断
次に、「こんな場合はクローリングしない」との発言です。※以下Jhon muller氏の発言の要約意訳
理論的にはすべてをクロールすることは不可能、ウエブサイトを公平にクロールする方法もありません。
データベース上の多くのURLを余計に維持することはできないので、クローラーはクロールする価値があるものが何かを推測します。※すべてをインディックスしようとすると多大なコストが必要
多くのウエブサイトが技術的に向上しているので、クローラーはより単純化された動作で、クロールの頻度、より頻繁にクロールするURL、Webのどの部分を無視するかを決定する必要があるのです。
ルールがあるわけではなく、クローリングごとに独自の判断が下され、個々のクローリングの指標は本当に千差万別と言えます。
Jhon muller氏の発言の要旨は、よりストレートに言えば「クローリングされたかったら本気でコンテンツ制作せよ」といったことに尽きるのではないでしょうか。
既に制作されたコンテンツについて同じ趣旨の内容をテキストを総入れ替えするのも難しいというのが現実だと思いますので、以下を参考にされてくださいね。
インディックスされないページについての対策
このジョンミュラー氏の発言を受けてウエブサイト運営者は「とは言ってもインディックスされないページがあるのは困る」というのが現実だと思います。
【効果絶大】コピーコンテンツ扱いされているらしいのでその部分を修正
コピーコンテンツ扱いされてインディックスされない頻度:+∞
Jhon muller氏の発言で注目すべきは「クオリティの問題」といった点でしょう。

コピーコンテンツ扱いされているかもしれない文字列を削除しただけで一発インディックスされるケースは割と多かったです。
一方コンテンツ作成者は「どんなコンテンツがニーズがあるのかを知るためにライバルサイトをチェックする」というのは業務の一環でもあり、避けられるものでもありません。
ライバルサイトを閲覧すればそのコンテンツの内容が嫌でも頭に残るので、意図的にコピペをしてコンテンツ作成していなくても似通ったテキストになっているケースはゼロにはできるものでもない。
しかし自分ではコピペしてないと思ったとしても、クローラーからそう判定されてしまったとしたら、素直に修正するしかないというのが現実。
なかなかインディックスされないなとわかったら、便利なコピーチェックツールを使ってコピー判定されていないかを確認するのをおすすめします。
以下コピーチェックツールを使ってどのようにページを修正して行けばいいかをお伝えしますので参考ください。

step
1コピーチェックツールでインディックスされないページのテキストを入力
おすすめのコピーチェックツールは以下のサイトになります。
おすすめツール
赤枠内に、対象ページのテキストと、対象ページのURLを打ち込んで「チェックする」のボタンを押して判定を待ちましょう
step
2判定結果のチェック
判定結果が出たら、コピーコンテンツ扱いされている可能性が大きいテキストを確認します。
基本は以下「類似・一致・テキスト間」で似通ったサイトが存在していると指摘されなければOKです。
特に一致率判定の項目をよくチェックしてみましょう。
全く問題ないパターンの例
step
3ハイリスクテキスト文字列を徹底的に修正
しかし、コピーチェックツールで問題なしと判定されたとしても、ハイリスクなテキストが混じっている場合があるので、一つ一つの結果を見てみるべきです。
▼セーフの場合
「カスタマイズ~スライドショー」の部分は赤い帯が点線で区切られています。
この場合、全てのテキストが地続きで一致率判定されているわけではないのでセーフです。
▼即修正を要する場合①
「なぜか~鉄板に」の部分は即修正すべき部分です。ここまで一致した文字列は真似しているとしか見られないパターンとなります。
▼即修正を要する場合②
「カテゴリ~が仕上がる」の部分も即修正すべき部分です。ここまで一致した文字列は真似しているとしか見られないパターンとなります。
修正すべき部分の判断のコツはつかめたでしょうか? 赤い帯が(点線で区切られることなく)長く続いている場合は、即修正です。
step
5念のため修正したコンテンツでもう一度チェック
念のためですが、修正した後のコンテンツをもう一度チェックツールで判定してみましょう。
もし前のデータがいっぱいになっている場合は「削除してから判定する」のがおすすめです。
step
6どうしてもコンテンツ化したい場合画像化も検討
どうしてもコンテンツ化しなければいけない場合もあると思います。
例えば以下のような情報のコンテンツ化です。
どうしても同じ内容にならざるを得ない一例
- 固有名詞をいくつかリスト化しなければならない
- 略歴の記載で他のサイトでも出身大学・勤務地などの情報が丸被りせざるを得ない 等
代替案
代替案としておすすめなのがこれらのテキストのパートを画像化してアップロードするといった方法です。

本気になってコンテンツを作成
数年前まで、私自身コンテンツ作成するときに以下のような流れでインディックス登録をしていました。
- 記事のURLを決定
- コンテンツの文字だけアップロード
- インディックス登録
- 画像の挿入や装飾
このインディックス登録のやり方が祟ったのか? 装飾や画像が多いコンテンツからすると手抜きと見做されてしまったのは否めません。

この点は正直私自身の推測の域を超えません。
しかし装飾や画像を入れるだけでもそれなりの情報量が増えるし、「インディックスされないならされないなりに本気になってコンテンツ作成するしかない」と感じて装飾や画像を入れるとインディックスされるケースが多いように思います。
対象URLが深い階層になっている場合、パーマリンクを変える
インディックスされない頻度:
クロールされないのではなく発見されないだけかもしれない
【補足】Xサーバーユーザーの注意点
インディックスされない頻度:+∞ ※インディックスされないのが常態化している