« ユダの福音書(National Geographicの記事) | トップページ | Ajaxに適した12種類のアプリケーション »

2006/04/09

Universal Encoding Detector

ブックマークに追加する

リンク: Universal Encoding Detector: character encoding auto-detection in Python

Python Japan User's Groupのニュースで紹介されていた。文書の文字コード方式を判別するためのPython用ライブラリ

文字コードを検出した結果をDictionaryのデータで返してくれる

以下、リンク先のサンプルをためしてみた。

>>> import urllib
>>> urlread = lambda url: urllib.urlopen(url).read()
>>> import chardet
>>> chardet.detect(urlread("http://www.google.co.jp/"))
{'confidence': 0.98999999999999999, 'encoding': 'SHIFT_JIS'}

これは結構、便利かもしれない。

なお、Windows環境でもインストールは簡単で、リンク先のモジュールをダウンロードした後に解凍し、「python setup.py install」するだけで使用できる。


●お探し物は見つかりましたか?まだの方は以下の検索をご利用下さい。
 
当ブログ内 (within this blog) Web
●当ブログのRSSフィードをお手持ちのRSSリーダーにご登録いただくと、エントリ追加時のみ更新通知が届くため、確認の手間が省けます。よろしければ、どうぞ。
当ブログのRSSフィード
●当ブログの更新情報+α(deliciousのブックマーク他)はTwitter経由でも確認できます。是非フォローしてください。(実はRSSフィードよりも更新が早かったりします)

|

Python」カテゴリの記事

blog comments powered by Disqus


●Google広告


●その他の広告



トラックバック

この記事のトラックバックURL:

●トラックバックされる方へのご注意
本文中でこのエントリのアドレスを引用してください。引用(言及リンク)がない場合はスパム(迷惑行為)として削除します。
なお、迷惑行為かどうかを人力で判定しているため、トラックバックが反映されるまでに少々、お時間を頂いています。
For foreigners: If you would like to trackback to this entry, please include permlink of this entry in your entry. If your entry doesn't include this permlink, I will delete your trackback as spam.

この記事へのトラックバック一覧です: Universal Encoding Detector:

 
Google