noindexとrobots.txtでインデックス防止

ホームページを制作する場合や新しいページを追加する際、公開前にテストページを作成するケースが多くある。しかし、テストページを通常のページと同じように公開するとクローラーにインデックスされてしまう可能性があるので注意が必要だ。今回はnoindexとrobots.txtでクローラーによるインデックスを防ぐ方法をご案内する。

テストサイトがインデックスされてしまう悲劇

例えこちらがテストページのつもりでWEBページを制作してもクローラーが通ってインデックスしてしまえば、検索結果に表示されてしまうことになる。さらに、テストページと公開ページの両方が残っていれば、重複したWEBページになってしまい、Googleの検索エンジンからの評価を下げてしまうことになる。せっかくコンテンツを増やして、検索順位の上昇に力を入れていても、このような問題を起こしてしまうと台無しだ。

noindexでクローラーを制御する

noindexの使い方は簡単だ。インデックスされたくないページに、<meta name=”robots” content=”noindex”>を書くだけだ。しかし、インデックスされたくないすべてのページに同じように記する必要がある。

robot.txtを使ってクローラーを制御する

robots.txtは、クローラーによるWebサイトへのアクセスを一括で制御できる。あるディレクトリのみインデックスされないように制御するといったことも可能でなのだ。robots.txtというファイルを作成し、以下のような必要な制御情報を記述して、サーバーのルートディレクトリにファイルを置こう。

まずは、robots.txtに以下を書き込もう。
User-Agent:*

これは、Google、Yahoo!などすべてのクローラーを対象にするという記載だ。
この記述の後に、どの部分をインデックスさせないのか指定する。

サイト全体をインデックスしない場合

Disallow: /

新規制作のWEBサイトを構築しているときに使用することになるだろう。

指定したディレクトリのみをインデックスしない場合

Disallow: /ディレクトリ名/

たとえば、Disallow: /test/

指定したページのみをインデックスしない場合

Disallow: /ディレクトリ名/ページ名(ファイル名)

たとえば、Disallow: /test/testpage.html

今回のまとめ

インデックス関係はWEBコンテンツを制作する中で特に注意したいところだ。テストページを制作する際のルールとして手順を社内で共有するなどしておくとよいだろう。逆にインデックスしたいページにnoindexをつけてしまうといったミスもあるかもしれない。作業的には決して難しい部分ではないだけに注意しておきたい。