【2019年4月】サイトマップが Google Search Console に検出されなくなっている件について その1

 

サイトマップが Search Console に検出されない件・2019年4月上旬現在の状況

2019年4月19日現在、私のブログの

Google Search Consoleを使ってみる。【その2.サイトマップ登録編】

には、こんなことを書いているのですが…

なぜか2018年秋頃から、

以前登録されていたはずのものが認識されなくなっている状況が続いています。

正確には、徐々に消えて行って、現在 0 に至るという。

     ホラーか…

 

Search Console の「サイトマップ」を見てみると…

f:id:mikanusagi:20190412225407p:plain

定期的に自動的に送信・読み込みはされているようで、

ステータスは「成功しました」となっているのですが、

検出されたURLが「ゼロ」…?

 

中をみてみると、、

f:id:mikanusagi:20190412225424p:plain

正常に処理されていて、「取得できませんでした」

これをさらに見てみると、

f:id:mikanusagi:20190412230123p:plain

「サイトマップを読み込めませんでした」

 

え…なんで…?(´・_・`)

 

f:id:mikanusagi:20190412232940p:plain

記事毎にみてみてみると、インデックス登録はされているものの、

該当するサイトマップがないということになっている模様。

 

でも、私の別サイトでは、

f:id:mikanusagi:20190418195808p:plain

こっちはRSSが認識されていないけど、sitemap.xml は認識されている様子。

(ただ、私のサイトのうち、sitemap.xml が認識されてたのは、この一つだけ。)

なんで認識されたりされなかったりするんでしょう。。 

 

タイムラグがあるといっても、数か月ずっとゼロって…(´・_・`)

 

気にはなっていたものの、サイトマップ送信自体はなくても

検索エンジンにクロールしてもらうことは可能ですし、

このブログのRSSとかは認識されているようだったので、放置していました。

 

…が、、RSS/Atom フィードでサイトの更新情報は送信されているとはいえ、

グーグルさん自身が XML サイトマップ と RSS/Atom フィードの両方を使用することを推奨していたし (そんな日もあるさより【その3.RSS/Atom feed 登録編】)、

気がむいたので、

現時点で解決策がないか探してみようと思います。

 

 

1、そもそもXMLサイトマップは有効なのか

以前に有効なのかどうかを確認したことはありますが、

現在XMLサイトマップ (sitemap.xml) とロボッツテキスト (robots.txt) が

実は無効になっているなんてオチだと困るので、念のため確認。

確認方法は、自分のサイトマップ等のURLを検索してみるだけです。

なお、私は はてなブログを利用しているので、

サイトマップは自動生成されています。

 

sitemap.xml

http://自分のサイトのトップページのURL/sitemap.xml

私の場合は、https://www.mikanusagi.com/sitemap.xml

robots.txt

http://自分のサイトのトップページのURL/robots.txt

 

sitemap.xml の encoding の問題?

見方は良く分からないのですが 、とりあえず、このページの場合 (4/12に確認)。

f:id:mikanusagi:20190413000006p:plain

存在はしている様子。

 

グーグルのサイトマップ関連の記事を見てみる。

f:id:mikanusagi:20190413000617p:plain

サイトマップの作成と送信 - Search Console ヘルプ より 

あれ…?(*'▽')

私のは encoding="ISO-8859-1" になってるけど、

グーグルのサンプルページは encoding="UTF-8" になってる。

グーグルの記事には、

f:id:mikanusagi:20190414030720p:plain

Build and submit a sitemap - Search Console Help より

サイトマップファイルはUTF-8 エンコードで作成してって書いてある…。(´_ゝ`)

もしかして、これ影響してる? ここの部分を変えたらいいの?

 

よくわからないので、はてなのサポート窓口さんに聞いてみました。

f:id:mikanusagi:20190418195509p:plain

あれ。問題なさそうだ。

結果、

私の普段使用しているEdgeの不具合のようでした。

Edge showing bogus XML encoding - Microsoft Edge Development

 

別のブラウザで見てみると、f:id:mikanusagi:20190418192726p:plain

ちゃんとUTF-8になっていました。

てことは、encoding は問題ではない ですね。

 

サイトマップの構造は?

f:id:mikanusagi:20190418192726p:plain

もう一度先程の画面。

私のサイトの場合、

<sitemapindex> の中に <sitemap> があって、

<siemap> の中に、

URLが.../sitemap.xml?page=1,2,3...、

sitemap_page.xml と表示されるものがあるという形のようです。

<lastmod> ってのは、最終更新日のこと。

 

素人的イメージとしては…

f:id:mikanusagi:20190419225745p:plain

こんな感じ?あってます?

ちなみに sitemap_page.xml は、固定ページのURLが含まれている模様。

 

サイトマップインデックスって何だ?

サイトマップは、一つのファイルに含むことができるURLに上限があって、

50,000個までで、ファイルサイズは10MBまでということになっているそうです。

だから、ページ数が増えると、サイトマップの数も増える仕様。

 

はてなブログの場合は、自動的にサイトマップを増やしてくれています。

 

複数になってしまったサイトマップは、

サイトマップインデックスでまとめてしまうことができる。

で、Search Console は、このインデックスファイルを認識することができます。

※ 参考サイト:サイトマップインデックスファイルの利用 - Google Search Consoleの使い方

 

複数作成されているサイトマップはどうなっているの?

どうも、複数のサイトマップが存在している様子。

たとえばこのブログの、あるサイトマップはコレで、

f:id:mikanusagi:20190419233018p:plain

もう一つはこうなってる。

f:id:mikanusagi:20190419232953p:plain

これを見る限りでは、ひとつひとつURLが指定されていて、最終更新日も表示されているから、きちんと作成されていそうですよね。。

 

イメージ的にはこんな感じでしょうか?

f:id:mikanusagi:20190419233124p:plain

 

ここまで見た感じでは、

作成されているサイトマップには

問題になりそうな箇所はないように見えます。。(*´Д`) by 素人  

 

ロボッツテキストは?

f:id:mikanusagi:20190419202722p:plain

私のサイトのロボッツテキストの一部抜粋。

Sitemap: https://自分のURL/sitemap_index.xml

となっていて、Disallow指定 (クロールを拒否する指示) に

サイトマップが含まれているなんてこともなさそう。

一部のサイトマップが認識されていることを考えると、

こちらの記載も問題なさそう。 

 

1、の結論

「そもそもXMLサイトマップは有効なのか」という疑問に対しては、

とりあえず現段階では、問題があるようには思えないというのが、

素人的結論となりました。

 

 

さて。。

本当はこのまま次の話を書こうと思っていたのですが、

思った以上に長くなってしまったので、

次の記事で続きを書きます。

それではこのへんで。(*´Д`)/

 

 

【2019/4/23 続きはこちら】

サイトマップが Google Search Console に検出されなくなっている件について その2

【2019/6/11 解決編はこちら】

サイトマップが Google Search Console に検出されなくなっている件について その3:解決した