« PyChecker - Python版lint | トップページ | TBSと署名 »

2006/08/06

百度(Baidu)のクローラー

ブックマークに追加する
中国の検索サイトに、百度というサイトがある。

最近、ココログのアクセス解析がバージョンアップされて生ログを参照できるようになったが、この生ログに、百度のクローラーからのアクセスがいくつか記録されているのを発見した。

この百度のクローラーは実に不可解なアクセスをしているようだ。

Technorati Tags: , ,



当ブログ管理人の認識では、普通のクローラーはサイトのトップページから順番にリンクを辿ってコンテンツの索引化を行うものと考えていたが、生ログを見る限り、トップページから順番にリンクを辿っているようには見えない。

しかも、ココログの生ログでは次のようなアクセスまで記録されていた。
2006/08/03 00:46:40 * 思考と習作: ページ名未取得
リモートホスト 60.28.17.36
ユーザーエージェント Baiduspider ( http://www.baidu.com/search/spider.htm)
端末 Robot/Tool
# 「ページ名未取得」って、どうやればこんなアクセスが...

なお、普通のアクセスであれば、
2006/08/04 03:23:20 * 思考と習作: 「Ajax」の発音
リモートホスト 60.28.17.36
ユーザーエージェント Baiduspider ( http://www.baidu.com/search/spider.htm)
端末 Robot/Tool
といったアクセスログになっている。
# 但し、順番は謎


調べてみると、この百度のクローラーは、かなり行儀(頭?)が悪いロボットらしい。
リンク:ITサポーターズの仲間たち - 行儀の悪い糞bot

お家サーバ等のリソース制限が厳しいサーバを運用している方々にとっては、このような非常識なアクセスを行うロボットを弾くのは当然のことだと思う。

なお、このリンク先のエントリでは、早速、iptablesでパケットをDROPしているが、このDROP対象のIPアドレスと当ブログにアクセスに来ているIPアドレスは第4オクテットが異なっている。

より完全に該当のロボットを弾くにはiptablesの記述を下記のように変更すればより良く(?)弾ける
/sbin/iptables -A INPUT -i ppp0 -s 60.28.0.0/15 -j DROP
これは、whoisサーバで「60.28.17.36」を調べると、
route:        60.28.0.0/15
descr:        CNC Group CHINA169 Tianjin Province Network
という結果が得られる。
このアドレス範囲全てがBaiduとも思えないが、中国からのアクセスが減って困るサイトは限定されるのではないだろうか...


補足)
robots.txtを当ブログに設定してみたところ、設置後20時間程で来なくなった。


# なお、当ブログ管理人は、この百度に対して、昨年の11月21日に
# ITmediaに掲載されていた記事
# 「中国大手検索サイトの著作権侵害裁判と中国ユーザーの反応
# 程度のイメージしか持っていない。



■2007年3月5日追記
Baiduではないが、米国から来たia_archiverというクローラーについて、別エントリに記載
リンク:ia_archiver


■2007年5月13日追記
最近、週末にMSRBotがやって来るので別エントリに記載
リンク:MSRBotは週次のバッチ処理?



■2008年2月10日追記
百度の新しいIPアドレス等がいくつかのサイトで報告されていたため、別エントリに追記した。

リンク:百度(Baidu)のクローラーがまだひどいらしい件

さて、これはイタチごっこになりそうな予感...

●お探し物は見つかりましたか?まだの方は以下の検索をご利用下さい。
 
当ブログ内 (within this blog) Web
●当ブログのRSSフィードをお手持ちのRSSリーダーにご登録いただくと、エントリ追加時のみ更新通知が届くため、確認の手間が省けます。よろしければ、どうぞ。
当ブログのRSSフィード
●当ブログの更新情報+α(deliciousのブックマーク他)はTwitter経由でも確認できます。是非フォローしてください。(実はRSSフィードよりも更新が早かったりします)

|

パソコン・インターネット」カテゴリの記事

blog comments powered by Disqus


●Google広告


●その他の広告



トラックバック

この記事のトラックバックURL:

●トラックバックされる方へのご注意
本文中でこのエントリのアドレスを引用してください。引用(言及リンク)がない場合はスパム(迷惑行為)として削除します。
なお、迷惑行為かどうかを人力で判定しているため、トラックバックが反映されるまでに少々、お時間を頂いています。
For foreigners: If you would like to trackback to this entry, please include permlink of this entry in your entry. If your entry doesn't include this permlink, I will delete your trackback as spam.

この記事へのトラックバック一覧です: 百度(Baidu)のクローラー:

 
Google