インディックスされない問題の原因と対策・クローラーはすべてのページに来るわけではない

最近多発している「WEBコンテンツがインディックスされない件」についてお伝えしています。

google Jhon muller氏の見解と、私熊谷による検証と分析、インディックスされない件をどう解消すればいいのか検証結果までお伝えしていますのでご参考ください。

google Jhon muller氏の見解・インディックスされない原因を読み解く

以下の出典を意訳要約しています。

出典:youtube/watch?time_continue=1665&v=92x8eJNOKYo&feature=emb_logo

インディックスされないページが2割あるのが普通

はじめに「すべてのページをクローリングするわけではない」と言及している部分から。

※以下Jhon muller氏の発言の要約意訳・抜粋

グーグルはウエブサイトの2割はインディックスしていない(100%インディックスするわけではない)、我々自身それを把握しています。

しかしインディックスされないコンテンツについてウエブサイト運営者が必ずしも修正しなければならないわけではありません。一時的な問題の場合もあるからです。

サイト全体のクオリティの問題であることのほうが多いように思います。

クロールするに値するかどうかの判断

次に、「こんな場合はクローリングしない」との発言です。※以下Jhon muller氏の発言の要約意訳

理論的にはすべてをクロールすることは不可能、ウエブサイトを公平にクロールする方法もありません。

データベース上の多くのURLを余計に維持することはできないので、クローラーはクロールする価値があるものが何かを推測します。※すべてをインディックスしようとすると多大なコストが必要

多くのウエブサイトが技術的に向上しているので、クローラーはより単純化された動作で、クロールの頻度、より頻繁にクロールするURL、Webのどの部分を無視するかを決定する必要があるのです。

ルールがあるわけではなく、クローリングごとに独自の判断が下され、個々のクローリングの指標は本当に千差万別と言えます。

Jhon muller氏の発言の要旨は、よりストレートに言えば「クローリングされたかったら本気でコンテンツ制作せよ」といったことに尽きるのではないでしょうか。

既に制作されたコンテンツについて同じ趣旨の内容をテキストを総入れ替えするのも難しいというのが現実だと思いますので、以下を参考にされてくださいね。

インディックスされないページについての対策

このジョンミュラー氏の発言を受けてウエブサイト運営者は「とは言ってもインディックスされないページがあるのは困る」というのが現実だと思います。

 

【効果絶大】コピーコンテンツ扱いされているらしいのでその部分を修正

コピーコンテンツ扱いされてインディックスされない頻度:+∞

Jhon muller氏の発言で注目すべきは「クオリティの問題」といった点でしょう。

熊谷ヒカル
弊社が運営しているいくつかのウエブサイトでは、コピーコンテンツ扱いされてインディックスされないパターンが最多でした。「コピーコンテンツ=低品質」の代表ですよね。

コピーコンテンツ扱いされているかもしれない文字列を削除しただけで一発インディックスされるケースは割と多かったです。

一方コンテンツ作成者は「どんなコンテンツがニーズがあるのかを知るためにライバルサイトをチェックする」というのは業務の一環でもあり、避けられるものでもありません。

ライバルサイトを閲覧すればそのコンテンツの内容が嫌でも頭に残るので、意図的にコピペをしてコンテンツ作成していなくても似通ったテキストになっているケースはゼロにはできるものでもない。

しかし自分ではコピペしてないと思ったとしても、クローラーからそう判定されてしまったとしたら、素直に修正するしかないというのが現実。

なかなかインディックスされないなとわかったら、便利なコピーチェックツールを使ってコピー判定されていないかを確認するのをおすすめします。

以下コピーチェックツールを使ってどのようにページを修正して行けばいいかをお伝えしますので参考ください。

熊谷ヒカル
私はこの方法でインディックスされたケースが半数以上でした。おすすめです。

step
1
コピーチェックツールでインディックスされないページのテキストを入力

おすすめのコピーチェックツールは以下のサイトになります。

おすすめツール

赤枠内に、対象ページのテキストと、対象ページのURLを打ち込んで「チェックする」のボタンを押して判定を待ちましょう

step
2
判定結果のチェック

判定結果が出たら、コピーコンテンツ扱いされている可能性が大きいテキストを確認します。

基本は以下「類似・一致・テキスト間」で似通ったサイトが存在していると指摘されなければOKです。

特に一致率判定の項目をよくチェックしてみましょう。

全く問題ないパターンの例

step
3
ハイリスクテキスト文字列を徹底的に修正

しかし、コピーチェックツールで問題なしと判定されたとしても、ハイリスクなテキストが混じっている場合があるので、一つ一つの結果を見てみるべきです。

▼セーフの場合

「カスタマイズ~スライドショー」の部分は赤い帯が点線で区切られています。

この場合、全てのテキストが地続きで一致率判定されているわけではないのでセーフです。

▼即修正を要する場合①

「なぜか~鉄板に」の部分は即修正すべき部分です。ここまで一致した文字列は真似しているとしか見られないパターンとなります。

▼即修正を要する場合②

「カテゴリ~が仕上がる」の部分も即修正すべき部分です。ここまで一致した文字列は真似しているとしか見られないパターンとなります。

 

修正すべき部分の判断のコツはつかめたでしょうか? 赤い帯が(点線で区切られることなく)長く続いている場合は、即修正です。

step
5
念のため修正したコンテンツでもう一度チェック

念のためですが、修正した後のコンテンツをもう一度チェックツールで判定してみましょう。

もし前のデータがいっぱいになっている場合は「削除してから判定する」のがおすすめです。

step
6
どうしてもコンテンツ化したい場合画像化も検討

どうしてもコンテンツ化しなければいけない場合もあると思います。

例えば以下のような情報のコンテンツ化です。

どうしても同じ内容にならざるを得ない一例

  • 固有名詞をいくつかリスト化しなければならない
  • 略歴の記載で他のサイトでも出身大学・勤務地などの情報が丸被りせざるを得ない 等

代替案

代替案としておすすめなのがこれらのテキストのパートを画像化してアップロードするといった方法です。

熊谷ヒカル
画像のaltタグに、画像に相応しい説明を入れてみてくださいね
【まとめページの場合】
複数のページのまとめ的な位置づけとしてのページの場合は、個々のページとは別にオリジナル要素をかなり意識して書き加える必要があります。

個人的にですが、こうしたページの需要がゼロというわけでもないと思うものの、コピー判定されてまとめページが評価されないならば、斬新なオリジナル要素を加えるしかないと思います。

 

本気になってコンテンツを作成

数年前まで、私自身コンテンツ作成するときに以下のような流れでインディックス登録をしていました。

  1. 記事のURLを決定
  2. コンテンツの文字だけアップロード
  3. インディックス登録
  4. 画像の挿入や装飾

このインディックス登録のやり方が祟ったのか? 装飾や画像が多いコンテンツからすると手抜きと見做されてしまったのは否めません。

熊谷ヒカル
装飾されていないWEBサイトで上位表示されているケースはあります。「装飾なしの投稿は手抜きか?」と考えるのは私自身の感覚です笑

この点は正直私自身の推測の域を超えません。

しかし装飾や画像を入れるだけでもそれなりの情報量が増えるし、「インディックスされないならされないなりに本気になってコンテンツ作成するしかない」と感じて装飾や画像を入れるとインディックスされるケースが多いように思います。

対象URLが深い階層になっている場合、パーマリンクを変える

インディックスされない頻度:

クロールされないのではなく発見されないだけかもしれない

 

【補足】Xサーバーユーザーの注意点

インディックスされない頻度:+∞ ※インディックスされないのが常態化している

 

  • この記事を書いた人

熊谷ヒカル

2017年からインターネットビジネスを始め、いろんなジャンルの特化サイトを構築してきました。


現在はブログ初心者さん向け・同じような志を持つ人に教えながら特化サイト構築を両立しています。


2022年のとあるASPでの実績は349万円(「2022年の累計実績」・2月15日現在)、詳細は下記よりどうぞ。