オープンソースの音声認識 Sphinx と Julius
Javaベースの音声認識エンジン「Sphinx-4 1.0」β2が公開 らしい。Sphinx-4は、カーネギー・メロン大学が米国防高等研究計画局(DARPA)の支援を受けて開発した音声認識技術プロジェクトを土台としたもの。現在、Sun、三菱電機の米国研究所Mitsubishi Electric Research Laboratories(MERL)、米HPと共同で開発が進められている。ライセンスは BSD Lincense。難しい話を抜きにすれば 音声認識のしくみ のような感じで基本的な流れは変わらないのかな。プロジェクトのホームページ Sphinx-4: A speech recognizer written entirely in the Java programming language を見てみる。完全に Java のみで書かれているようだ。ホワイトペーパーは、Sphinx-4: A Flexible Open Source Framework for Speech Recognition にある。フリーソフトでつくる音声認識システム では、この Sphinx は扱われておらず、大語彙連続音声認識エンジン Julius のみが扱われている。現状、日本語を扱うとなると、Julius だな。でも、日本語の言語モデルをちゃんと作れば Sphinx も日本語に対応させることは理屈上は可能なのだろう。でも、やっぱり Julius を先に試すかな。ちなみに Julius は C 言語で書かれている。音声認識とは関係ないのだけど、音声合成では、デモンストレーション - 感情音声合成 の「感情のこもった音声」ってのは方向としておもしろい。例えば、危ないときに冷静に「危ないです」って言われてもダメで、「危ない!」って言って欲しい。VoiceText サンプル音声 のように淡々と読み上げるところは、かなりのレベルに来たけれど、抑揚がもっとついてくると長時間聴いても疲れなくなる。抑揚をどうつけるかという基礎として、感情を反映させた音声合成にというのは方向としていいなぁと。逆に言えば、音声認識では、「止まれ!」っと慌てて大声で発声した場合に、ちゃんと認識してくれるかっていうところが、実世界に音声認識が入り込んでいくために必要になるところだろう。あるいは、「うるさい」というのを苛立ちや怒りの感情を込めると「うるせぇー」になりがちだが、そういう発声を認識できるか。ちなみmに、企業向け議事録作成支援システム 「AmiVoiceR Rewriter」 とか、NEC、新機能を追加した音声認識議事録作成支援ソフト「VoiceGraphy 1.2」を発売 とか、現状では支援程度だろうけど、【iEXPO2008 Vol.4】議事録作成を大幅短縮!音声を文字に変換する音声認識技術 を見ると役員会議、講演、記者会見などの議事録が従来の半分の作業時間で作成できるとあるので、使い方を限定すれば実用的なところに入ってきているようだな。もっとも、ここまで来ると、よほどのところでないとペイしないだろうけど、ペイするところがあればよいわけで。オモチャを含めて音声認識を使った製品はいろいろある。製品として出して収益に結びつけているところがあれば、この分野は資金が枯渇して死ぬことはないだろう。どれだけ実用的かというのは別にして。音声認識人形 おしゃべりたっくん 、チャーピーとしゃべって覚える はじめての英会話Play English2 音声認識 Plus(Windows Vista...、【音声認識エンジン搭載】スモッカのぐんぐん覚える!新・英会話文法 、声を文字化で業務スピードUP!しゃべり言葉から書き言葉まで、声の事前登録無しで高い認識率を...。音声認識を使った語学学習っていうのは、どの程度実用的に使えるのかな。今度、買って試してみるか。