ホワイトハウスのrobots.txtが駄目な件
ウェブサイトを構築するときの検索エンジンクローラー等の制御に有効な方法としてrobots.txtがあり、このテキストファイルにUser-Agent文字列や排除したいディレクトリを指定しておくと、礼儀正しい検索エンジンクローラー(GoogleとかYahoo!とか)であれば、指示に従ってくれる。
但し、このrobots.txtはあくまでもロボットに不要な行動を起こさせないための指示なので、秘密にしたいディレクトリをこのファイルに書くのは間違っており、秘密にしたいものは別の手段でガードする必要がある。
ここで、試しに、Googleで「"robots.txt" "disallow:" filetype:txt」という文字列で検索すると、3番目にホワイトハウスのrobots.txtがヒットする。
但し、このrobots.txtはあくまでもロボットに不要な行動を起こさせないための指示なので、秘密にしたいディレクトリをこのファイルに書くのは間違っており、秘密にしたいものは別の手段でガードする必要がある。
ここで、試しに、Googleで「"robots.txt" "disallow:" filetype:txt」という文字列で検索すると、3番目にホワイトハウスのrobots.txtがヒットする。
で、このホワイトハウスのrobots.txt、誰でも見ることができるのであるが、この検索結果のURLを開くと以下のように、山ほど、ホワイトハウスが内緒にしたい(?)と思われるディレクトリ一覧が表示される。
以下略
えっと、これ何て言う釣りですか?
各ディレクトリへのアクセスを試してみるには勇気がいるかもしれない。
■2009年1月22日追記
米国の大統領が替わった関係か、robots.txtも変わったらしい。
新しい内容は以下の通り
User-agent: * Disallow: /includes/
非常にシンプルになっているが、恐らく、あのディレクトリに
●お探し物は見つかりましたか?まだの方は以下の検索をご利用下さい。
●当ブログのRSSフィードをお手持ちのRSSリーダーにご登録いただくと、エントリ追加時のみ更新通知が届くため、確認の手間が省けます。よろしければ、どうぞ。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- Firefoxで簡単YouTube動画ダウンロード(2006.10.30)
- 拡張現実でポンゲーム(2009.07.06)
- 3分でわかるPodcast(2008.04.25)
- 2009年のgoogleエイプリルフールネタは川柳(2009.04.01)
- Macの無線LAN経由でコピー失敗問題(2009.03.30)








コメント