背景
自動音声認識(Automatic Speech Recognition, ASR)において、認識が難しい文章というものがあるとのこと。
その一例をメモしておく。
・Amazon Alexa、Google Home のような一般コンシューマー向け
内容
『洗濯機動かして』
→【洗濯機動かして】 or 【洗濯 起動して】の区別がつかないらしい
→え、でも、声で「せんたっきうごかして」って言えば前者になるんじゃ??
→声を文字に変換した後で、処理決定&実行しているのかな
『2時にアラームセットして』
→【2時にアラームセットして】 or 【虹にアラームセットして】の区別がつかないらしい
→【文章全体】を見れば、アラームという単語から、時間に関係がある【2時】を選択できそうだが、文章の区切りがどこか分からないので【文章全体】の定義ができない
→一定時間(例えば10秒とか)を文の区切りにしてやってもダメなのかな
結論
実際に音声認識デバイスを開発してみないと分からないことが多いので、本当に認識が難しいのか、実験的に作成した音声→文字変換器で検証してみることにする。