百度(Baidu)のクローラー
中国の検索サイトに、百度というサイトがある。
最近、ココログのアクセス解析がバージョンアップされて生ログを参照できるようになったが、この生ログに、百度のクローラーからのアクセスがいくつか記録されているのを発見した。
この百度のクローラーは実に不可解なアクセスをしているようだ。
最近、ココログのアクセス解析がバージョンアップされて生ログを参照できるようになったが、この生ログに、百度のクローラーからのアクセスがいくつか記録されているのを発見した。
この百度のクローラーは実に不可解なアクセスをしているようだ。
Technorati Tags: baiduspider, ロボット, 百度
当ブログ管理人の認識では、普通のクローラーはサイトのトップページから順番にリンクを辿ってコンテンツの索引化を行うものと考えていたが、生ログを見る限り、トップページから順番にリンクを辿っているようには見えない。
しかも、ココログの生ログでは次のようなアクセスまで記録されていた。
2006/08/03 00:46:40 * 思考と習作: ページ名未取得 リモートホスト 60.28.17.36 ユーザーエージェント Baiduspider ( http://www.baidu.com/search/spider.htm) 端末 Robot/Tool# 「ページ名未取得」って、どうやればこんなアクセスが...
なお、普通のアクセスであれば、
2006/08/04 03:23:20 * 思考と習作: 「Ajax」の発音 リモートホスト 60.28.17.36 ユーザーエージェント Baiduspider ( http://www.baidu.com/search/spider.htm) 端末 Robot/Toolといったアクセスログになっている。
# 但し、順番は謎
調べてみると、この百度のクローラーは、かなり行儀(頭?)が悪いロボットらしい。
リンク:ITサポーターズの仲間たち - 行儀の悪い糞bot
お家サーバ等のリソース制限が厳しいサーバを運用している方々にとっては、このような非常識なアクセスを行うロボットを弾くのは当然のことだと思う。
なお、このリンク先のエントリでは、早速、iptablesでパケットをDROPしているが、このDROP対象のIPアドレスと当ブログにアクセスに来ているIPアドレスは第4オクテットが異なっている。
より完全に該当のロボットを弾くにはiptablesの記述を下記のように変更すればより良く(?)弾ける
/sbin/iptables -A INPUT -i ppp0 -s 60.28.0.0/15 -j DROPこれは、whoisサーバで「60.28.17.36」を調べると、
route: 60.28.0.0/15 descr: CNC Group CHINA169 Tianjin Province Networkという結果が得られる。
このアドレス範囲全てがBaiduとも思えないが、中国からのアクセスが減って困るサイトは限定されるのではないだろうか...
補足)
robots.txtを当ブログに設定してみたところ、設置後20時間程で来なくなった。
# なお、当ブログ管理人は、この百度に対して、昨年の11月21日に
# ITmediaに掲載されていた記事
# 「中国大手検索サイトの著作権侵害裁判と中国ユーザーの反応」
# 程度のイメージしか持っていない。
■2007年3月5日追記
Baiduではないが、米国から来たia_archiverというクローラーについて、別エントリに記載
リンク:ia_archiver
■2007年5月13日追記
最近、週末にMSRBotがやって来るので別エントリに記載
リンク:MSRBotは週次のバッチ処理?
■2008年2月10日追記
百度の新しいIPアドレス等がいくつかのサイトで報告されていたため、別エントリに追記した。
リンク:百度(Baidu)のクローラーがまだひどいらしい件
さて、これはイタチごっこになりそうな予感...
●お探し物は見つかりましたか?まだの方は以下の検索をご利用下さい。
●当ブログのRSSフィードをお手持ちのRSSリーダーにご登録いただくと、エントリ追加時のみ更新通知が届くため、確認の手間が省けます。よろしければ、どうぞ。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- Firefoxで簡単YouTube動画ダウンロード(2006.10.30)
- 拡張現実でポンゲーム(2009.07.06)
- 3分でわかるPodcast(2008.04.25)
- 2009年のgoogleエイプリルフールネタは川柳(2009.04.01)
- Macの無線LAN経由でコピー失敗問題(2009.03.30)








コメント
トラバありがとうございます。
思ったより大きなとこだったんですね。こんなにIP持っているとはちょっと驚きでした。
私もrobots.txtに従うみたいなのでDROP解除してみました。どうなることやら・・・
今回は非常に助かりましたよ。
投稿: 甘党 | 2006/08/06 21:56