鶏が口だけでも飛び立ちます

2008/03/05(水)16:08

起業の価値

起業(171)

失敗したことを後で生かしたいと思い書いているけれど、本当に頭がぐちゃぐちゃになっていて書きづらい。半年か1年経ってから、冷静に自分を見つめなおした方がいい気がする。 たぶん、こういうこともあるから、すぐには報告できなかったり書けなかったりするんだろう。会社の倒産と違って、「自主廃業」に近いから残務整理もさほどあるわけではない。 だけど、途中までしかかっていた案件を提供してくれた人や、なかには期待していただいていた人には申し訳ないと思う。なんのために起業したか?ということを振り返ってみる。実は世の中の切羽詰まったニーズはない。しかし、近い将来は必ず必要とされ、そろそろ出始めているニーズに対して対応したいという気持ちがあった。すでに、Googleをはじめとする先端的な企業や研究所は、研究し始めていると思う。またスクレイピングを専門にする会社はなくても、個人でやっている人はところどころ出始めている。スクレイピングっていうのは、スキー板を磨くという意味もあるんだけれど、Webから情報を取り出して加工することをいう。Webの情報がデータベースと考えれば、それを活用したい、データを集めたいという要望はインターネットが始まるぐらいのときからあったと思う。しかし、2000年頃までは、インターネットの情報が少ないこと、Web情報を取得するための言語や環境が不十分だったから、あまり発達しなかった。2000年頃からPerlなどを使って始める人が出始めていて、PHP, Pythonなどの言語を使ってやる人が出てきた。プログラムの微調整が必要なので、JavaやC/C++などはスクレイピングをするための言語しては向かず、Perlなどのスクリプト言語が向いている。そのうち同じことを考える人が出てきて、、ライブラリを書き、そのライブラリが充実してきて開発も楽になった。Rubyを選んだのは、日本人がつくった言語なので日本語の処理に期待が持てたという理由がある。 スクレイピングというのは、大学などの研究ではやっても評価されない、普通の企業もそこまでの継続的な需要はない、マイナーな業務であると思う。だから一人でやるには意義があったと思う。 そして、このスクレイピングを応用して自然言語(日常言語)の理解までいけば、Webから情報を抽出した後で文脈を理解して、Webが巨大なデータベースとなる。検索エンジンは単に文字列を使った検索だが、自然言語を使った検索が可能だし、Webのデータを構造的に理解するようになる。AIとして理解するのは大変だが、その前の段階でスクレイピングを使って文脈の構造を理解できるようになるのではと考えた。つまり、検索エンジンの次の世代となる。 だけど、その道は険しかった。スクレイピングの入り口で止まってしまって、なかなか先へ進むことができないでいる。 少し先へ進むと、「WebのHTML文書から、人間が自然に読み取っているように、スクレイピングで読み取らねばならない」という問題にぶつかる。AIを実現するのは困難だが、その前段階でやれることがいくつかあるはずだ。それを見つけて一つ一つ実現していこう... その入口は小さくても、大きな成果が待っているように見えたのだが、なかなか厳しいんだな。しかも途中の成果ではなかなか食えないしね。うまくいけば、Google規模のリターンはあると思うんだけれど、問題は可能性が低いこと。私の頭では1000年経っても、どこまでいけるんだか。数年後にGoogleか類似の企業が実現して、さらに日本は遅れをとっていく。。結局、夢は大きすぎて、それに耐えきれなかったんだな。 明日から?は、スクレイピングの問題点について考えてみます。

続きを読む

総合記事ランキング

もっと見る