「きく」を究めよう!広場●きくスキル研究会

2007/10/04(木)07:00

<405>「音声認識」

田中日記(40)

 こんにちは、田中です。  昨日まで、吉永から欧米人と日本人の「声」の捕らえ方の違いにから、音をきくことと、それをどう受け取る、理解するかということについて、記してもらいました。  本日は機械による人間の声の認識、いわゆる「音声認識技術」について触れます。  機械による音声認識も、音がどういった発音を持つのか、「語彙」の辞書が必要です。  音声認識処理は、入力された音声信号を、その「語彙辞書」に書かれているどの語句に近いか分析。統計上最も近いと考えられる単語候補を出力するものです。  統計処理ですので、母数=認識させたい語彙が少なければ少ないほど、正解率は上がる傾向にあります。  例えば、銀行名(300店程度)を認識させたいのに、膨大な住所の語彙辞書を使ってもなかなか認識できません。300店の名前に絞り込む(カテゴライズする)ことで正解率を上げることが可能です。  先日、北川さんの項で、「モニタリングに際し、着耳点(?)を持って応対を聴くという話題がありました。  要は「聞く脳」を持つ、ということだと思いますが、機械による音声認識も同じことがいえるわけです。  この語彙辞書に無い言葉は、認識できない「ノイズ」として処理されてしまいます。  または無理やり近い言葉に当てはめようとして、「誤認識」が発生します。  これも人間同様「空耳」現象が発生しているということになります。  (明日に続く)

続きを読む

総合記事ランキング

もっと見る