Googleがrobots.txtを標準化、noindex構文のサポートが終了に
Googleなどの検索エンジンは、定期的にあなたの運営するサイトを見に来ていることはご存知でしょうか。
これをクロールと言いますが、クロールは検索エンジンのシステムにあるクローラーと言われるロボットが、サイトを巡回し、その情報を収集することです。
なぜクロールするかというと、Webサイトにどんな情報があり、どんなテーマで構成されていて、それがユーザーにとってプラスか否かなどを独自のルールで評価するためで、その評価は検索エンジンで上位に表示されるかどうかの指標になります。
で、このクロールに対して、サーバーを覗いてもらう前に様々な指示が出来るのが、今回お話するrobots.txtというテキストファイルになります。
目次
robots.txtとは
robots.txtとは、例えば、クローラーに対してこのような指示を出します。
- 特定のページを見ないで欲しいと指示
- sitemap.xmlの場所を指示
- クロールを行う期間を指示
繰り返しになりますが、GoogleやBingなどの検索エンジンはWebサイトをクロールしていますが、その際にrobots.txtを書いておくと自身のサーバーの負担を増やすことなく、効率的にクローラーに巡回してもらえるというわけです。
現在では世界中のWebサイトの中で、5億を超えるサイトがrobots.txtを使用しているとも言われています。
Googleがrobots.txtの整備に着手
もともとrobots.txtは検索エンジン側がオフィシャルに公開したものではなく、一般的な、Webサイトの管理者として働いていたマーティン・カスターという人物により1994年に考えだされたものです。
そんな背景もあって、その仕様はインターネット標準に準拠したものではありませんでした。
もちろん事実上の仕様はありましたが、それがインターネット標準でないため、開発者の解釈によってrobots.txtの書き方にブレが出てきてしまい、クローラーがrobots.txtを認識したりしなかったりすることが起きていたのです。
そこで立ち上がったのがGoogleです。あいまいな標準規格から、正式な規格へとルール化しようという活動が2019年7月1日にGoogle主導で始まりました。
その整備の一環として、noindex構文を撤廃
こうしたrobots.txt標準化活動の一環として、robots.txtのnoindex構文については今後サポートを行わないとGoogleが発表したのです。
noindexと聞くと、HTMLのmetaタグの指定方法でピンとくるWeb担当者が多いかもしれませんね。「え?使えなくなるの?」と少しドキッとした方もいるかもしれません。
もちろん心配は無用です。今回使えなくなるのはrobots.txtのnoindex構文のことですから。
そもそもこの構文を使い、実際に機能させている方は非常に少ないのではないでしょうか。robots.txtでnoindexを指定するサイトは、Googleによるとなんと0.001%(!)。全く使われてない指定方法なのです。通常であれば何もする心配する必要がありません。
noindex構文の代替対応
ただ、もしこの0.001%の中に入っている方がいらっしゃるなら、noindexの効果がある指示をクロールに対して行う必要があります。
以下、具体的な対応例を挙げましょう。
robots.txtでDisallow構文を用いる
こちらはrobots.txtにおける、「特定のページをクロールさせない」指示の正式な方法です。
HTMLでメタタグ「noindex」を用いる
個々のページで指定する場合、この方法が一般的です。
BASIC認証をかける
パスワードで保護することでクロールされなくなります。ただしユーザーも見られなくなるので注意が必要です。
まとめ
robots.txtはあなたがWeb担当者であれば、身近なファイルかもしれません。そのよく使うファイルが今、今後も正しく使われるために、現在仕様が整備されています。
今回は全体の0.001%しか使用されていない構文でしたが、突然サポートが中止される構文が出てくるなどの変化が起きています。今後もそうした傾向は続くと考えられるため、注目しておくべきニュースだと思います。
関連記事こちらの記事も合わせてどうぞ。