2007/10/04(木)07:00
<405>「音声認識」
こんにちは、田中です。
昨日まで、吉永から欧米人と日本人の「声」の捕らえ方の違いにから、音をきくことと、それをどう受け取る、理解するかということについて、記してもらいました。
本日は機械による人間の声の認識、いわゆる「音声認識技術」について触れます。
機械による音声認識も、音がどういった発音を持つのか、「語彙」の辞書が必要です。
音声認識処理は、入力された音声信号を、その「語彙辞書」に書かれているどの語句に近いか分析。統計上最も近いと考えられる単語候補を出力するものです。
統計処理ですので、母数=認識させたい語彙が少なければ少ないほど、正解率は上がる傾向にあります。
例えば、銀行名(300店程度)を認識させたいのに、膨大な住所の語彙辞書を使ってもなかなか認識できません。300店の名前に絞り込む(カテゴライズする)ことで正解率を上げることが可能です。
先日、北川さんの項で、「モニタリングに際し、着耳点(?)を持って応対を聴くという話題がありました。
要は「聞く脳」を持つ、ということだと思いますが、機械による音声認識も同じことがいえるわけです。
この語彙辞書に無い言葉は、認識できない「ノイズ」として処理されてしまいます。
または無理やり近い言葉に当てはめようとして、「誤認識」が発生します。
これも人間同様「空耳」現象が発生しているということになります。
(明日に続く)