- サイトマップが Search Console に検出されない件・2019年4月上旬現在の状況
- 1、そもそもXMLサイトマップは有効なのか
- sitemap.xml の encoding の問題?
- サイトマップの構造は?
- ロボッツテキストは?
- 1、の結論
サイトマップが Search Console に検出されない件・2019年4月上旬現在の状況
2019年4月19日現在、私のブログの
Google Search Consoleを使ってみる。【その2.サイトマップ登録編】
には、こんなことを書いているのですが…
なぜか2018年秋頃から、
以前登録されていたはずのものが認識されなくなっている状況が続いています。
正確には、徐々に消えて行って、現在 0 に至るという。
ホラーか…
Search Console の「サイトマップ」を見てみると…
定期的に自動的に送信・読み込みはされているようで、
ステータスは「成功しました」となっているのですが、
検出されたURLが「ゼロ」…?
中をみてみると、、
正常に処理されていて、「取得できませんでした」
これをさらに見てみると、
「サイトマップを読み込めませんでした」
え…なんで…?(´・_・`)
記事毎にみてみてみると、インデックス登録はされているものの、
該当するサイトマップがないということになっている模様。
でも、私の別サイトでは、
こっちはRSSが認識されていないけど、sitemap.xml は認識されている様子。
(ただ、私のサイトのうち、sitemap.xml が認識されてたのは、この一つだけ。)
なんで認識されたりされなかったりするんでしょう。。
タイムラグがあるといっても、数か月ずっとゼロって…(´・_・`)
気にはなっていたものの、サイトマップ送信自体はなくても
検索エンジンにクロールしてもらうことは可能ですし、
このブログのRSSとかは認識されているようだったので、放置していました。
…が、、RSS/Atom フィードでサイトの更新情報は送信されているとはいえ、
グーグルさん自身が XML サイトマップ と RSS/Atom フィードの両方を使用することを推奨していたし (そんな日もあるさより【その3.RSS/Atom feed 登録編】)、
気がむいたので、
現時点で解決策がないか探してみようと思います。
1、そもそもXMLサイトマップは有効なのか
以前に有効なのかどうかを確認したことはありますが、
現在XMLサイトマップ (sitemap.xml) とロボッツテキスト (robots.txt) が
実は無効になっているなんてオチだと困るので、念のため確認。
確認方法は、自分のサイトマップ等のURLを検索してみるだけです。
なお、私は はてなブログを利用しているので、
サイトマップは自動生成されています。
sitemap.xml
http://自分のサイトのトップページのURL/sitemap.xml
私の場合は、https://www.mikanusagi.com/sitemap.xml
robots.txt
http://自分のサイトのトップページのURL/robots.txt
sitemap.xml の encoding の問題?
見方は良く分からないのですが 、とりあえず、このページの場合 (4/12に確認)。
存在はしている様子。
グーグルのサイトマップ関連の記事を見てみる。
サイトマップの作成と送信 - Search Console ヘルプ より
あれ…?(*'▽')
私のは encoding="ISO-8859-1" になってるけど、
グーグルのサンプルページは encoding="UTF-8" になってる。
グーグルの記事には、
Build and submit a sitemap - Search Console Help より
サイトマップファイルはUTF-8 エンコードで作成してって書いてある…。(´_ゝ`)
もしかして、これ影響してる? ここの部分を変えたらいいの?
よくわからないので、はてなのサポート窓口さんに聞いてみました。
あれ。問題なさそうだ。
結果、
私の普段使用しているEdgeの不具合のようでした。
Edge showing bogus XML encoding - Microsoft Edge Development
別のブラウザで見てみると、
ちゃんとUTF-8になっていました。
てことは、encoding は問題ではない ですね。
サイトマップの構造は?
もう一度先程の画面。
私のサイトの場合、
<sitemapindex> の中に <sitemap> があって、
<siemap> の中に、
URLが.../sitemap.xml?page=1,2,3...、
sitemap_page.xml と表示されるものがあるという形のようです。
<lastmod> ってのは、最終更新日のこと。
素人的イメージとしては…
こんな感じ?あってます?
ちなみに sitemap_page.xml は、固定ページのURLが含まれている模様。
サイトマップインデックスって何だ?
サイトマップは、一つのファイルに含むことができるURLに上限があって、
50,000個までで、ファイルサイズは10MBまでということになっているそうです。
だから、ページ数が増えると、サイトマップの数も増える仕様。
はてなブログの場合は、自動的にサイトマップを増やしてくれています。
複数になってしまったサイトマップは、
サイトマップインデックスでまとめてしまうことができる。
で、Search Console は、このインデックスファイルを認識することができます。
※ 参考サイト:サイトマップインデックスファイルの利用 - Google Search Consoleの使い方
複数作成されているサイトマップはどうなっているの?
どうも、複数のサイトマップが存在している様子。
たとえばこのブログの、あるサイトマップはコレで、
もう一つはこうなってる。
これを見る限りでは、ひとつひとつURLが指定されていて、最終更新日も表示されているから、きちんと作成されていそうですよね。。
イメージ的にはこんな感じでしょうか?
ここまで見た感じでは、
作成されているサイトマップには
問題になりそうな箇所はないように見えます。。(*´Д`) by 素人
ロボッツテキストは?
私のサイトのロボッツテキストの一部抜粋。
Sitemap: https://自分のURL/sitemap_index.xml
となっていて、Disallow指定 (クロールを拒否する指示) に
サイトマップが含まれているなんてこともなさそう。
一部のサイトマップが認識されていることを考えると、
こちらの記載も問題なさそう。
1、の結論
「そもそもXMLサイトマップは有効なのか」という疑問に対しては、
とりあえず現段階では、問題があるようには思えないというのが、
素人的結論となりました。
さて。。
本当はこのまま次の話を書こうと思っていたのですが、
思った以上に長くなってしまったので、
次の記事で続きを書きます。
それではこのへんで。(*´Д`)/
【2019/4/23 続きはこちら】
サイトマップが Google Search Console に検出されなくなっている件について その2
【2019/6/11 解決編はこちら】
サイトマップが Google Search Console に検出されなくなっている件について その3:解決した