テストページは要注意！noindexとrobots.txtでインデックス防止

ホームページを制作する場合や新しいページを追加する際、公開前にテストページを作成するケースが多くある。しかし、テストページを通常のページと同じように公開するとクローラーにインデックスされてしまう可能性があるので注意が必要だ。今回はnoindexとrobots.txtでクローラーによるインデックスを防ぐ方法をご案内する。

1 テストサイトがインデックスされてしまう悲劇
2 noindexでクローラーを制御する
3 robot.txtを使ってクローラーを制御する
4 今回のまとめ

テストサイトがインデックスされてしまう悲劇

例えこちらがテストページのつもりでWEBページを制作してもクローラーが通ってインデックスしてしまえば、検索結果に表示されてしまうことになる。さらに、テストページと公開ページの両方が残っていれば、重複したWEBページになってしまい、Googleの検索エンジンからの評価を下げてしまうことになる。せっかくコンテンツを増やして、検索順位の上昇に力を入れていても、このような問題を起こしてしまうと台無しだ。

noindexでクローラーを制御する

noindexの使い方は簡単だ。インデックスされたくないページに、<meta name=”robots” content=”noindex”>を書くだけだ。しかし、インデックスされたくないすべてのページに同じように記する必要がある。

robot.txtを使ってクローラーを制御する

robots.txtは、クローラーによるWebサイトへのアクセスを一括で制御できる。あるディレクトリのみインデックスされないように制御するといったことも可能でなのだ。robots.txtというファイルを作成し、以下のような必要な制御情報を記述して、サーバーのルートディレクトリにファイルを置こう。

まずは、robots.txtに以下を書き込もう。
User-Agent:*

これは、Google、Yahoo!などすべてのクローラーを対象にするという記載だ。
この記述の後に、どの部分をインデックスさせないのか指定する。

サイト全体をインデックスしない場合

Disallow: /

新規制作のWEBサイトを構築しているときに使用することになるだろう。

指定したディレクトリのみをインデックスしない場合

Disallow: /ディレクトリ名/

たとえば、Disallow: /test/

指定したページのみをインデックスしない場合

Disallow: /ディレクトリ名/ページ名（ファイル名）

たとえば、Disallow: /test/testpage.html

今回のまとめ

インデックス関係はWEBコンテンツを制作する中で特に注意したいところだ。テストページを制作する際のルールとして手順を社内で共有するなどしておくとよいだろう。逆にインデックスしたいページにnoindexをつけてしまうといったミスもあるかもしれない。作業的には決して難しい部分ではないだけに注意しておきたい。

テストページは要注意！noindexとrobots.txtでインデックス防止

テストサイトがインデックスされてしまう悲劇

noindexでクローラーを制御する

robot.txtを使ってクローラーを制御する

サイト全体をインデックスしない場合

指定したディレクトリのみをインデックスしない場合

指定したページのみをインデックスしない場合

今回のまとめ

Related Posts

JPEG、PNG、GIF・・・知ってるようで知らない画像ファイル形式

ぐるなび、食べログがあっても飲食店にホームページは必要なのか

ホームページ更新を外部委託するメリットと外注先の選び方

これは使える！商用利用可能な無料画像素材サイトを厳選

レスポンシブでつくる？それともスマホサイトは別で制作するのか

62年ぶりの大雪の中、札幌のウェブコンサルが呟く集客サイトの作り方