3266247
HOME \| DIARY \| PROFILE	【フォローする】【ログイン】

傀儡師の館.Python

【毎日開催】

15記事にいいね！で1ポイント

10秒滞在

いいね! --/--

次の日記を探す

おめでとうございます！
ミッションを達成しました。

※「ポイントを獲得する」ボタンを押すと広告が表示されます。

Ruby

(0)

甘い物

Profile

kugutsushi

フォローする

Free Space

設定されていません。

< 新しい記事

新着記事一覧(全1863件)

過去の記事 >

2007.11.15

Python から Yahoo! 日本語形態素解析Webサービスを使う (1)

テーマ：プログラミング言語 Python を使う(336)

カテゴリ：Python

日本語形態素解析Webサービスを使ってなんかするかな。とりあえず、だれか Python でいいもの作っていないかなぁと捜してみると、２つ見つかった。

ヒビノキロクの方は、pyparsing を使った検索式を構文解析するPythonモジュールとかも公開されている。pylonshqのWikiのソースを表示するGreasemonkey マニアだなぁ。Monoで.NET Compact Framework向けのアプリケーションをコンパイルするとかもある。

Inforno の方は、Python:お手軽にPluggableにするとか公開されている。Python版Lingr APIライブラリとか PythonによるNESエミュレータ開発5 とか見ると、やっぱり、この方もマニアな方か。

とりあえず、両方見てみる。Inforno の jlp の方は、他の Yahoo! API にも対応することを前提とした設計のライブラリになっている。検索 API 等他の API も組み込んでいくのであれば、これをベースにするのもよいかもしれないが、テキスト解析のみだと overkill な感じなので、とりあえず置いておく。

ヒビノキロクの webma.py の方は、テキスト解析のみに対応している。解析後のデータの取り出しもシンプルなので、とりあえずは、こちらを使わせてもらう。

ちょっと、ヒビノキロク: Yahoo! 形態素解析 API for Python のコードを眺めてみる。使っているライブラリは、urllib、lxml、formencode。urllib は標準ライブラリで、HTTP のアクセスをするときによく使われるもの。lxml と fromencode は easy_install でインストールできる。easy_install lxml とか、easy_install formencode とか。formencode は SQLObject や TurboGears などを使っている人は easy_install でインストールしていればまとめてインストールされているはず。使っていなくても手動でインストールしているはず。

lxml だが、これは便利だな。現状、2.0系統と（まだ alpha）、lxml 1.3.x 系統が開発されている。

lxml is a Pythonic, mature binding for the libxml2 and libxslt libraries. It provides safe and convenient access to these libraries using the ElementTree API.

ということで、libxml2 と libxslt のバインディングで、ElementTree API を使ったライブラリ。XML を扱う Python のライブラリとしては、最近は ElementTree が標準的な地位を占めていると思うが（Python 2.5.x から標準ライブラリに入った）、これは、壊れた XML データを渡すと扱えないのに対して、lxml だと、壊れた XML や HTML データでも適当に直してくれるようだ。Twisted Mind: 誰もさわらないlxmlについて。にその例がある。

# vim: fileencoding=utf8

from lxml import etree
from StringIO import StringIO

broken_html = "<head><title>ついすてっどまいんど<body><h1>Django!!</html>"
parser = etree.HTMLParser()
et = etree.parse(StringIO(broken_html), parser)
print etree.tostring(et.getroot(), 'utf-8', pretty_print=True)

Twisted Mind: 誰もさわらないlxmlについて。

壊れているのに、ちゃんと、<html>、</titlel>、</head> 等々、足りない部分を勝手に補完してくれている。ふーん。いつでもそれが良いとは限らないかもしれないけど、便利かもしれない。ElementTree だと壊れているとエラーで扱えないし。Python で HTML ファイルから情報を取り出すにはで以前にはまった。lxml なら、こういう問題もクリアかな。lxmlでHTMLスクレーピングをやっている人がいた。lxmlを使ってあるURLから画像のURL一覧を取得するもあった。その他、Humming Via Kitchen: lxmlを試してみたよ。。perezvonの日記: libxml2でのXPathの練習。

でもって、perezvonの日記: lxmlのlibxml2バージョンを確認するには、

>>> from lxml import etree
>>> etree.LIBXML_VERSION
(2, 6, 28)

もう一つ使われているのは、 FormEncode。これも最近よく使われるてのかな。SQLObject、Subway、TurboGears、Pylons でも使われているから、このあたりを扱っている人たちが使うようになっているのか。フォームの validation とか生成のために作られたもので、ここでは validation のために使われている。下の例では Int かどうかをチェックして、そうでなければエラーにできる。

>>> import formencode
>>> from formencode import validators
>>> validator = validators.Int()
>>> validator.to_python("10")
10
>>> validator.to_python("ten")
Traceback (most recent call last):
...
Invalid: Please enter an integer value

FormEncode Validation

FormEncodeで複合validation、FormEncodeでイメージアップロード用のバリデータを作るなども参照。

本題に入る前に、長くなってしまったので次へ続く。

お気に入りの記事を「いいね！」で応援しよう

Last updated 2007.11.15 19:58:32
コメント(0) | コメントを書く

[Python] カテゴリの最新記事

janome を使った Python プログラムを pyi… 2024.04.08
Tkinter でも、見た目のよい GUI を作れる 2024.02.25
Chromecast を Python で制御する 2016.01.10