Alexx The Rocks

雑記。

Google botから特定の写真をクロールさせたくない時の手法

2021年9月24日 更新
Categoryweb制作
tag

検索結果に、自サイト内の意図しない写真が載った場合

ケースバイケースではあるけど、自サイトの写真で「これは載せて欲しくないな…」というときは、自サイトのrobots.txtに記述してクロールさせないようにする。

robots.txtに特殊な事を書いてなければ、多分この書き方が多いと思う(なんとなく)。

User-agent: *
Sitemap: http://www.example.com/sitemap.xml

これを、特定の写真があるディレクトリ(/hoge/hoge/)の特定の写真(hoge.jpg)をDisallowする。

User-agent: *
Sitemap: http://www.example.com/sitemap.xml

User-agent: Googlebot-Image
Disallow: /hoge/hoge/hoge.jpg

ワイルドカードが使える

ワイルドカードが使えるようなので、記述にルールを付けてれば(例えば「example_」で始まるjpgを除外する時)、柔軟に書ける。

User-agent: *
Sitemap: http://www.example.com/sitemap.xml

User-agent: Googlebot-Image
Disallow: /hoge/hoge/example_*.jpg$

※「$」で文の終了を明記。

また、hogeのディレクトリ直下が複数(「/hoge/hoge1/」と「/hoge/hoge2/」とか)に分かれていて、それぞれのimageフォルダ(「/hoge/hoge1/image/」と「/hoge/hoge2/image/」とか)に「example_」で始まるjpgがある時は下記のようになる。

User-agent: *
Sitemap: http://www.example.com/sitemap.xml

User-agent: Googlebot-Image
Disallow: /hoge/*/image/example_*.jpg$

html,css,jsに意識が行き過ぎて、robots.txtとかhtaccessとかに書き方はつい忘れがちor勉強しない事が多いので備忘録的に。