« 紙細工でパズルを作成(その2) | トップページ | ウクライナの軍隊の広告 »

2007/12/17

ホワイトハウスのrobots.txtが駄目な件

ブックマークに追加する
ウェブサイトを構築するときの検索エンジンクローラー等の制御に有効な方法としてrobots.txtがあり、このテキストファイルにUser-Agent文字列や排除したいディレクトリを指定しておくと、礼儀正しい検索エンジンクローラー(GoogleとかYahoo!とか)であれば、指示に従ってくれる。
但し、このrobots.txtはあくまでもロボットに不要な行動を起こさせないための指示なので、秘密にしたいディレクトリをこのファイルに書くのは間違っており、秘密にしたいものは別の手段でガードする必要がある。

ここで、試しに、Googleで「"robots.txt" "disallow:" filetype:txt」という文字列で検索すると、3番目にホワイトハウスのrobots.txtがヒットする。


robots.txtの検索結果


で、このホワイトハウスのrobots.txt、誰でも見ることができるのであるが、この検索結果のURLを開くと以下のように、山ほど、ホワイトハウスが内緒にしたい(?)と思われるディレクトリ一覧が表示される。


ホワイトハウスのrobots.txt
以下略





えっと、これ何て言う釣りですか?

各ディレクトリへのアクセスを試してみるには勇気がいるかもしれない。




■2009年1月22日追記
米国の大統領が替わった関係か、robots.txtも変わったらしい。

新しい内容は以下の通り
User-agent: *
Disallow: /includes/

非常にシンプルになっているが、恐らく、あのディレクトリに 罠 機密文書があると思(違


●お探し物は見つかりましたか?まだの方は以下の検索をご利用下さい。
 
当ブログ内 (within this blog) Web
●当ブログのRSSフィードをお手持ちのRSSリーダーにご登録いただくと、エントリ追加時のみ更新通知が届くため、確認の手間が省けます。よろしければ、どうぞ。
当ブログのRSSフィード
●当ブログの更新情報+α(deliciousのブックマーク他)はTwitter経由でも確認できます。是非フォローしてください。(実はRSSフィードよりも更新が早かったりします)

|

パソコン・インターネット」カテゴリの記事

blog comments powered by Disqus


●Google広告


●その他の広告



トラックバック

この記事のトラックバックURL:

●トラックバックされる方へのご注意
本文中でこのエントリのアドレスを引用してください。引用(言及リンク)がない場合はスパム(迷惑行為)として削除します。
なお、迷惑行為かどうかを人力で判定しているため、トラックバックが反映されるまでに少々、お時間を頂いています。
For foreigners: If you would like to trackback to this entry, please include permlink of this entry in your entry. If your entry doesn't include this permlink, I will delete your trackback as spam.

この記事へのトラックバック一覧です: ホワイトハウスのrobots.txtが駄目な件:

 
Google