|
カテゴリ:ことばの処理
Yet Another 仕事のツール 第46回 茶筌とMUSASHIで純和風テキストマイニング で MUSASHI (Mining Utilities and System Architecture for Scalable processing of HIstorical data) が扱われているので読んでみる。MUSASHI はシェルスクリプト中でコマンドをパイプでつないでいくタイプのシステムなので、何かに別のシステム(ウェブサイト等)に結果を組み込んだりするときには使い勝手は楽でよいかもしれない。
「一つのコマンドは一つの処理」というシンプルさがいい。けど、数値データを扱うにはよいかもしれないが、テキストマイニングに使うのであればやっぱり KH Coder の方がいいな。別に結果を外だしにしたければ、DB にクエリをかけるスクリプト書いてしまえばいいわけだし。Yet Another ... のようなものなら SQL 文一発で出せるし。。。。あんまり魅力的な例ではないな。 けど辞書の改良するときに、案外便利な使い方ができそうな気がしてきた。その他にも使い方によっては KH Coder でいったんデータを作ったものを MUSASHI に渡してあれこれやるのはありかな。
データマイニングツール MUSASHI(5) MUSASHIとWEKA に MUSASHI の結果を WEKA を使って視覚化している。Weka は Java で書かれたデータマイニングソフトウェアで、本来は機械学習のアルゴリズムを豊富に備えていてそうした処理をするものだけれど、視覚化することのみのために上記の記事では使っているようだ。 でもって、Weka は Pentaho というビジネス・インテリジェンスのオープンソースプロジェクトに参加したようだ。Product Overviewのあたりを見てみる。Pentaho は機能としては次のようなものがあり、
Pentaho プロジェクトには次のオープンソースのプロジェクトが加わっているようだ。
へぇー、こんなものあったのか。オープンソースBIの潮流を見たら、Pentaho って、
なのね。Pentahoプロジェクト を見ると日本語でだいたいのイメージがつかめる。最近、こちらの方面に興味がなかったから、こういう状況になっているとは知らなかった。というか、Eclipse Foundation,BI/レポーティング・ツールの新版「BIRT 2.0」を公開 などの記事を見ているかもしれないが記憶に残っていなかった。そのときに興味がないと記憶に残らないものだな。 それにしても、最近、ほんとうにオープンソースですごいものがどんどんどんどんどんどん出てくる。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2006.10.29 22:03:55
コメント(0) | コメントを書く
[ことばの処理] カテゴリの最新記事
|