WordPressサイトのrobots.txtについてのまとめ!

robots-txtの働きイメージ

※2016年5月追記
WordPressの仮想robots.txt の記述が変更されていました。
現在は、以下のようなrobots.txtが生成されています。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

結論から言ってしまいますと、このrobots.txtでOKですので、robots.txtに関して何かする必要はなくなりました(^^ゞ

というわけで、以下読まれる必要はありません(^^ゞ

早急にリライトしようと思っておりますが、取り急ぎ(^^ゞ

以前の記事、「WPカテゴリページのSEO的カスタマイズ・LP化&重複回避」で、robots.txtがSEO上重要だという趣旨のことを書きました。

一方、下手にrobots.txtを作成してしまうと、インデックスされるデータに問題が発生する可能性もある、ということについて触れていませんでした。

しかし、何もせずGoogle任せにすることで生じるリスクもあります。

ここでは、上記のことを勘案した上で、WordPressでサイト作成する際のrobots.txtについてまとめてみました。

では、まず、基本的な設定について理解するところから見ていきましょう。

WordPressサイトでは何もしなくても仮想robots.txtが生成されている

  1. WordPressでサイトを作成した場合で、
  2. パーマリンクがデフォルトのhttp://example.com/?p=123 でない設定の時、

以下のような仮想robots.txt が生成されます。

1.ルートディレクトリにWordPressをインストールした場合

User-agent: *
Disallow: /wp-admin/

※2016年5月追記
仮想robots.txt の記述が変更されていました。
現在は、以下のようなrobots.txtが生成されています。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

2.サブディレクトリにWordPressをインストールし、サイトのアドレスをルートディレクトリにしている場合

User-agent: *
Disallow: /directory/wp-admin/
Allow: /directory/wp-admin/admin-ajax.php

”directory”の部分は、WordPressをインストールしたディレクトリに相当します。

サブディレクトリインストールWPをルートディレクトリ表示にする、というのは、以下のような手順を踏んだサイトのことを言います。

サブディレクトリインストールWPをルートディレクトリ表示にする

この手順を踏んでいない = サブディレクトリのWordPressサイトをルートディレクトリ表示にしていない場合は、仮想robots.txtは404を返し、クローラーが読むことが出来ませんので、存在しないのと同じです。

ちなみに、表示設定で、「検索エンジンがサイトをインデックスしないようにする」に☑を入れた場合は、

User-agent: *
Disallow: /

となり、全てのファイルにアクセスしないで下さい、という設定になっています。

また、この仮想robots.txtは、FTPソフトで見てもサーバー上に存在しませんが、ブラウザで、 ドメイン/robots.txt をアドレスに入れて開くとご自分のrobots.txtの内容を確認できます。

下は、ブラウザでWordPress.comのrobots.txtを確認してみた時のキャプチャです。

WordPress.comのロボットテキスト

仮想robots.txtがあるから、それでOK

特に何もしなければ、仮想robots.txtと、sitemap.xmlやcanonicalタグからのデータを読み取ってもらい、Googleにお任せ状態にしていても、ほぼ問題は起きないかもしれません。

きちんとした予備知識も持たないまま、手動で間違ったrobotos.txtをあげてしまい、カオスになるくらいなら、よくわからないうちは手を入れない方が得策かもしれません。です。

また、SEOプラグイン、All In One SEO Packなどでアーカイブページはnoindexなどのきっちり指定をしている場合や、カスタマイズでnoindexをばっちりしてある場合は、robots.txtをわざわざ作成し手動であげる必要はありません。

ただ、何もしない状態というのは、Googlebotをはじめとするクローラーに何かしらスパムであるという「誤解」されてしまった場合には、ペナルティを受ける可能性も含んでいる状態だということも、承知しておく必要があります。

以下、自分でサイトを管理する上で、クロールして欲しくないものや欲しいものをロボットに伝えるrobots.txtの管理もちゃんとしたい、と思われる方の為に、読んでおくべきと思われる記事やポイントをまとめてみました。

robots.txt の基本と重要性について

やはりバズ部さんの記事、

robots.txtの書き方と効果的な活用法
http://bazubu.com/robots-txt-16678.html

が論理的でわかりやすく、モレもないので、しっかり理解できます。

robots.txtが初めてという方でも、疑問が全て解決すると思うので、是非参考にして欲しい。

と書かれているように、初心者でもその基本と重要性がこの記事を読むとよくわかります。

しかしながら、実際に robots.txt をいざ作ろうとすると、バズ部さんの上記の記事だけでは、ちょっと難しい・・ので、実務的に参考になる記事を。

実際に robots.txt を作る時に参考になる記事

robots.txtを改善してGoogleにブログの構造を的確に伝えよう
http://naifix.com/robots-txt-improvement/

Naifixさん、わかりやすい記事をありがとうございます<(_ _)>

上記記事によれば、以前は、

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Allow: /wp-content/uploads
Disallow: /*?*
Disallow: /*?

Sitemap: http://naifix.com/sitemap.xml.gz

としていたけれど、現在は

Useragent: *
Disallow: /wpadmin/
Disallow: /wpincludes/
Allow: /wpincludes/js/
Sitemap: http://naifix.com/sitemap.xml.gz

というシンプルなrobots.txtに変更したとのことですね。

バズ部さんの記事をしっかり読めば、内容はお分かりになると思うのですが、

/wp-admin/  と /wp-includes/ を Disallow ・・・>読まないで下さい

/wpincludes/js/ は Allow ・・・>読んで下さい

と指定することで、wpincludes 内の JS を読み込ませています。

以上を踏まえて、当サイトのrobots.txtはこんな風にしました。

下は、Search Console(旧ウェブマスターツール)のHTMLの改善で、重複するメタデータ(description)の中の一行です。

重複するメタデータdescription

この下の方のURLって、公開前の記事のプレビューURLですね^^;

キャッシュの関係でしょうか、何故インデックスされるのかが謎ですが・・^^;

は、プラグイン、Ktai Styleの生成している動的ページURLらしいです。

なんにしろ、本当にインデックスされたいURLと同じ内容のプレビューページURLがインデックスされたら、それはdescriptionが重複するのは当たり前ですね~(´・_・`)。

で、Naifixさんは現在は省かれた、

Disallow: /*?*
Disallow: /*?

の2行で、動的生成される ? のついたURLのものはブロックすることにしました。

ただ、注意していただきたいのは、パーマリンク設定をデフォルトの example.com/?p=123 にしていた場合は、全ての投稿記事がブロックされてしまうこと。お気をつけ下さい。

その他もろもろ設定、サブディレクトリのサブサイトの設定も追加しまして、現在は以下のようになっております。

robots-txt説明

※追記 2015/9/3
tagページをはじめとする、アーカイブページのメタタグ重複問題をrobots.txtで解消できるか出来ないかの検証は「出来ない」との結果が出ましたので、noindexでの対応に変更しました。

現在使用しているrobots.txtは以下のようにしております。
robots-txt改

ココまで読んでこられた方ならわかっていらっしゃると思うのですが、スパッとコピペで終了、というのは危険です。

ご自分の設定と照らし合わせながら、一行一行確認して作成をして下さい。

作成後は、FTPソフトでルートディレクトリ直下にアップします。htacessのファイルと同じ場所だと考えるとわかりやすいです。

その後の設定方法については、WEB担の記事が大変わかりやすかったので、Googleのヘルプページとともに記載しておきます。

WEB担当者フォーラム
robots.txtを修正したときにグーグルのキャッシュをすぐに更新する方法
http://web-tan.forum.impressrd.jp/e/2014/11/18/18706

Googleヘルプ
更新した robots.txt を Google に送信https://support.google.com/webmasters/answer/6078399?hl=ja&ref_topic=6061961

ではでは、今日はこの辺で。

以上、「WordPressサイトのrobots.txtについてのまとめ!」でした。

 お役に立ったら、下のボタンをクリックしていただけるとうれしいです(^^)

Published:2015/08/03

Written by

WordPressサイトのrobots.txtについてのまとめ!」への1件のフィードバック

コメントを残す