2007/10/04(木)07:00

＜405＞「音声認識」

　こんにちは、田中です。　昨日まで、吉永から欧米人と日本人の「声」の捕らえ方の違いにから、音をきくことと、それをどう受け取る、理解するかということについて、記してもらいました。　本日は機械による人間の声の認識、いわゆる「音声認識技術」について触れます。　機械による音声認識も、音がどういった発音を持つのか、「語彙」の辞書が必要です。　音声認識処理は、入力された音声信号を、その「語彙辞書」に書かれているどの語句に近いか分析。統計上最も近いと考えられる単語候補を出力するものです。　統計処理ですので、母数＝認識させたい語彙が少なければ少ないほど、正解率は上がる傾向にあります。　例えば、銀行名（300店程度）を認識させたいのに、膨大な住所の語彙辞書を使ってもなかなか認識できません。300店の名前に絞り込む（カテゴライズする）ことで正解率を上げることが可能です。　先日、北川さんの項で、「モニタリングに際し、着耳点（？）を持って応対を聴くという話題がありました。　要は「聞く脳」を持つ、ということだと思いますが、機械による音声認識も同じことがいえるわけです。　この語彙辞書に無い言葉は、認識できない「ノイズ」として処理されてしまいます。　または無理やり近い言葉に当てはめようとして、「誤認識」が発生します。　これも人間同様「空耳」現象が発生しているということになります。　（明日に続く）

総合記事ランキング