音声認識

デンシンボウと音声認識

先日、岐阜の裁判所勤務で、九州出身の裁判官が、「デンシンボウ」という言葉がわからなかったために、被告の発言を問いただした一件が、ニュースになっていた。

デンシンボウ?

(・ω・`)??

漢字では「電信棒」と書く。

電信柱あるいは電柱のことだ。

(・ω・`)???

そんなもん、わかりません。

岐阜出身の友達に裏をとったところ、

「いいますよ〜」

だそうだ。

昔から、方言とか訛りというのは、人々の興味をひくもののようで、

松本清張の「砂の器」では、方言が事件の謎をとく鍵になっている。

また近年では、 探偵ナイトスクープの伝説的調査「全国アホ・バカ分布図」はあまりにも有名だ。

音声認識が、本当に自然なユーザインタフェースになるには、こういう方言とか訛りを扱えるようにならないといけないのだろう。

★WOZ★

にほんブログ村 IT技術ブログ IT技術評論・デジタル評論へ
にほんブログ村

砂の器〈下〉 (新潮文庫) Book 砂の器〈下〉 (新潮文庫)

著者:松本 清張
販売元:新潮社
Amazon.co.jpで詳細を確認する

砂の器〈上〉 (新潮文庫) Book 砂の器〈上〉 (新潮文庫)

著者:松本 清張
販売元:新潮社
Amazon.co.jpで詳細を確認する

全国アホ・バカ分布考―はるかなる言葉の旅路 (新潮文庫) Book 全国アホ・バカ分布考―はるかなる言葉の旅路 (新潮文庫)

著者:松本 修
販売元:新潮社
Amazon.co.jpで詳細を確認する


砂の器(上巻)改版 砂の器(上巻)改版

販売元:楽天ブックス
楽天市場で詳細を確認する

砂の器(下巻)改版 砂の器(下巻)改版

販売元:楽天ブックス
楽天市場で詳細を確認する

全国アホ・バカ分布考 全国アホ・バカ分布考

販売元:楽天ブックス
楽天市場で詳細を確認する




 

| | コメント (0) | トラックバック (0)

音声認識は力技

音声認識は実は力技だ。

リアルタイムで、精度の高い認識結果を出すためには、

できるだけ大きな音素辞書、

できるだけ大きな語彙辞書、

できるだけ大きな文法、

を、できるだけ短時間で処理することが必要になる。

それに、それらの辞書の元になる音声データや言語データを、

できるだけ大量に集めて、辞書化する作業も必要だ。

Googleは検索技術で、大量のデータを高速に、

並行処理する技術を蓄積しており、

またコールセンターに集められる大量の音声データや言語データを、

コツコツと集めていたのだろう。

あるいはそれらのデータとノウハウを持つ会社を買ったのかもしれない。

いずれにせよ、音声認識を実用化する準備を着々と進めていた、と見ることもできる。次は、音声認識と同じやり方で、基礎研究を実用化できる可能性がある画像や動画認識だと思う。

実際、Googleはストリートビューを開発するために、画像や映像データを集めている。

★WOZ★

にほんブログ村 IT技術ブログ ソフトウェアへ
にほんブログ村

人と対話するコンピュータを創っています  音声認識の最前線 Book 人と対話するコンピュータを創っています  音声認識の最前線

著者:古井 貞熙
販売元:角川学芸出版
Amazon.co.jpで詳細を確認する

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで Book フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

著者:荒木 雅弘
販売元:森北出版
Amazon.co.jpで詳細を確認する

フリーソフトでつくる音声認識システム フリーソフトでつくる音声認識システム

販売元:楽天ブックス
楽天市場で詳細を確認する


 

| | コメント (0) | トラックバック (0)

Google音声認識は、成功するユーザーインタフェースのお手本だ。

iPhoneでGoogleの音声認識を試してみて気づくのは、音声認識を自然なユーザ・インタフェースにするために、様々な工夫がされていることだ。

すぐわかるのは、音声認識処理の開始時期を、iPhoneの位置と姿勢の変化、とタッチパネルと顔との距離によって判断しているらしいところだ。

音声認識ソフトウェアは限られた文法と語彙しか扱えないため、この範囲に認識すべき音声波形があるということを、音声認識ソフトウェアに教えてやる必要がある。

例えばカーナビなどは運転者にスイッチを押させることによって、認識範囲の開始位置を教え、音声入力がなくなってから500ミリ秒たっても新たな音声入力がない場合に、認識範囲の終了位置を教える、という方法がよく採用されている。

iPhoneの場合には、上に書いた位置と姿勢の変化、タッチパネルと顔との距離、をキーにして、認識範囲の開始位置をソフトウェアに教えているようだ。

認識範囲の終了位置の検出は従来のカーナビなどの方式と同じだ。

音声認識のデバイスを特定のケータイ電話に限定することで、口とマイクの距離を一定に保つこともできるし、マイクの特性も同一にできるので、音声認識エンジン自体の精度も向上する。

音声認識エンジンの性能だけに頼らず、それをサポートする様々な工夫をすることで、自然なユーザインタフェースを実現している。

★WOZ★

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで Book フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

著者:荒木 雅弘
販売元:森北出版
Amazon.co.jpで詳細を確認する


人と対話するコンピュータを創っています  音声認識の最前線 Book 人と対話するコンピュータを創っています  音声認識の最前線

著者:古井 貞熙
販売元:角川学芸出版
Amazon.co.jpで詳細を確認する


IT Text 音声認識システム Book IT Text 音声認識システム

著者:鹿野 清宏,河原 達也,山本 幹雄,伊藤 克亘,武田 一哉
販売元:オーム社
Amazon.co.jpで詳細を確認する

ブログランキング・にほんブログ村へ
にほんブログ村

| | コメント (0) | トラックバック (0)

Googleケータイの音声認識を知りたいなら

Googleケータイでは、ケータイに住所を喋ると、Googleマップがその近所の地図を表示する。目的地を喋ると、道案内までしてくれる。

本当のパーソナルコンピュータがいよいよ登場か!と予感させる。

ところで、何故、Googleケータイは、そんな「話せばわかる」ことができるのかと、疑問に思う人も多いだろう。

そんな好奇心いっぱいの方々には、音声認識研究の大御所である古井先生による入門書が良いと思う。

わかりやすいので、初めての人でも読み通せるはずだ。

★WOZ★

人と対話するコンピュータを創っています  音声認識の最前線 Book 人と対話するコンピュータを創っています  音声認識の最前線

著者:古井 貞熙
販売元:角川学芸出版
Amazon.co.jpで詳細を確認する

ブログランキング・にほんブログ村へ
にほんブログ村

| | コメント (0) | トラックバック (0)

Googleによる音声認識への挑戦

今年はAR(Augmented Reality, 拡張現実)がブレイクしました。

バーチャルリアリティと言われていたころは、なかなか普及しなかったのですが、何十年もかけて、ようやくここまで来たか!と、昔を知っているものにとっては感動ものです。

それから、先日Googleが音声認識を実用化したニュースが大々的に発表されましたが、音声認識もやはり何十年もかけて、ようやく、、、という技術です。

さすがにGoogleは、音声認識の強みと弱みを知っており、うまく応用するものだ、と感心しています。

音声認識では、音素辞書と語彙辞書を使います。

ごく簡単に説明すると、

音素辞書というのは、’あ’、’い’、’う’、’え’、’お’の母音と’k’、’s’、、、’w’といった子音の音を収録した辞書です。

語彙辞書というのは、”東京都”、”大阪府”、”愛知県”、、、という認識したい語彙を収録した語彙です。

これらの辞書を使って、マイクから入力する音声にどの語彙が含まれているのかを調べるのが音声認識です。

この技術では、マイクから入力される音声の特徴に、音声辞書の特徴が合っていることと、

マイクから入力される語彙が、語彙辞書に含まれることが、認識性能をあげるポイントです。

他にも、認識アルゴリズムの高速化や効率化など、いろいろと難しいことがあり、いろいろな会社が実用化を試みましたが、うまくいきませんでした。

この分野の大御所である古井先生の新刊は、この音声認識についてわかりやすく解説している入門書です。

★WOZ★

人と対話するコンピュータを創っています  音声認識の最前線 Book 人と対話するコンピュータを創っています  音声認識の最前線

著者:古井 貞熙
販売元:角川学芸出版
Amazon.co.jpで詳細を確認する

ブログランキング・にほんブログ村へ
にほんブログ村

| | コメント (0) | トラックバック (0)