« Googleケータイの音声認識を知りたいなら | トップページ | C#は新人エンジニアにも扱いやすい言語だ »

Google音声認識は、成功するユーザーインタフェースのお手本だ。

iPhoneでGoogleの音声認識を試してみて気づくのは、音声認識を自然なユーザ・インタフェースにするために、様々な工夫がされていることだ。

すぐわかるのは、音声認識処理の開始時期を、iPhoneの位置と姿勢の変化、とタッチパネルと顔との距離によって判断しているらしいところだ。

音声認識ソフトウェアは限られた文法と語彙しか扱えないため、この範囲に認識すべき音声波形があるということを、音声認識ソフトウェアに教えてやる必要がある。

例えばカーナビなどは運転者にスイッチを押させることによって、認識範囲の開始位置を教え、音声入力がなくなってから500ミリ秒たっても新たな音声入力がない場合に、認識範囲の終了位置を教える、という方法がよく採用されている。

iPhoneの場合には、上に書いた位置と姿勢の変化、タッチパネルと顔との距離、をキーにして、認識範囲の開始位置をソフトウェアに教えているようだ。

認識範囲の終了位置の検出は従来のカーナビなどの方式と同じだ。

音声認識のデバイスを特定のケータイ電話に限定することで、口とマイクの距離を一定に保つこともできるし、マイクの特性も同一にできるので、音声認識エンジン自体の精度も向上する。

音声認識エンジンの性能だけに頼らず、それをサポートする様々な工夫をすることで、自然なユーザインタフェースを実現している。

★WOZ★

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで Book フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

著者:荒木 雅弘
販売元:森北出版
Amazon.co.jpで詳細を確認する


人と対話するコンピュータを創っています  音声認識の最前線 Book 人と対話するコンピュータを創っています  音声認識の最前線

著者:古井 貞熙
販売元:角川学芸出版
Amazon.co.jpで詳細を確認する


IT Text 音声認識システム Book IT Text 音声認識システム

著者:鹿野 清宏,河原 達也,山本 幹雄,伊藤 克亘,武田 一哉
販売元:オーム社
Amazon.co.jpで詳細を確認する

ブログランキング・にほんブログ村へ
にほんブログ村

|

« Googleケータイの音声認識を知りたいなら | トップページ | C#は新人エンジニアにも扱いやすい言語だ »

音声認識」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1286769/32590746

この記事へのトラックバック一覧です: Google音声認識は、成功するユーザーインタフェースのお手本だ。:

« Googleケータイの音声認識を知りたいなら | トップページ | C#は新人エンジニアにも扱いやすい言語だ »