音声認識技術の仕組みと歴史と未来

アマゾンの「エコー」やグーグルの「グーグルホーム」などはAIスピーカーと呼ばれたり、スマートスピーカーと呼ばれたりする。

いずれも、人が声を発してAIスピーカーに向かって質問すると、AIスピーカーが適切な答えをやはり声で返してくれる。

例えば「明日の渋谷の天気を知りたい」とAIスピーカーに語りかければ、AIスピーカーは「明日の渋谷は晴れで、最高気温は25度です」と答える。

渋谷の明日の天気情報なら、スマホの画面と文字入力を使っても可能だが、音声で質問し音声で答えを受け取るほうがスピーディーだ。

この利便性を支えているのが音声認識技術である。その歴史と仕組み、実社会への応用方法を紹介する。

音声認識技術の歴史

音声認識の研究を行ったのはアメリカの国防高等研究計画局という役所だった。それが1971年である。民間で初めて音声認の開発に着手したのは1975年のIBMである。

それから「マルコフモデル」「スピーク＆スペル」「混合ガウスモデル」「ドラゴン　ナチュラリー　スピーキング」や「IBMヴィアボイス」といった名称の音声認識技術が開発、発表されたが、一般の人が手に取ることはまずなかった。

音声認識の大きな出来事は1995年に起きる。マイクロソフトがウィンドウズ95にスピーチツールを搭載したのである。

そして2011年、アップルがスマートフォンiPhone4Sにシリ（Siri）を搭載した。シリによって初めて「機械が私の声を読み取った」と実感した人は多いだろう。

音声認識といえばシリと認識する人が増え、音声認識について説明するときも「要するにシリのような機能です」といえば通じる。

2014年にマイクロソフトが発表したコルタナも、技術的なブレークスルーをなし遂げた製品として知られている。

2017年にアップルがAIスピーカー「ホームパッド」を発表した。先述した「アマゾンの「エコー」やグーグルの「グーグルホーム」もこのころ販売が開始している。日本勢ではLINEが「ウェーブ」を販売している。

音声認識技術の仕組み

音声認識技術の仕組みをみるとき、なぜコンピュータは人の音声を認識しづらいのかを考えると理解しやすい。

コンピュータはなぜ音声の聞き取りが苦手なのか

音声は音であるが、同じ音でも、音声は車の騒音や海の波音とはまったく異なる。人はこれを簡単に聞き分けることができるが、コンピュータは苦手である。

さらに音声は、ピアノの音色とは異なるが、歌詞がついている音楽とは似てくる。人なら、アイドル歌手が歌う歌を音声と認識し、バック音楽のギターの音色は音声ではないとわかる。しかしコンピュータには、歌手の歌とギターの音色が混ざっている音を聞いて、両者を聞き分けることが難しい。

このように、あまた存在する音の中から人の声という音声だけを拾うことが、音声認識コンピュータの最初の関門である。

では技術が発達して、音声だけを拾うことができたとしよう。しかし次に「意味を拾う」という壁が現れる。

赤ちゃんはお母さんの声を聞けば安心できるが、お母さんが発する「大丈夫だよ」という言葉の意味を認識して「そうか、大丈夫なんだ」と思っているわけではない。

つまり音声認識技術は、言語を理解できなければならないのである。

意味を拾うことができたら、次は文脈を拾わなければならない。

「さいこうのさいこにさあいこう」という言葉は、人間ですら理解できないかもしれない。しかし、富士五湖の西湖（さいこ）からとても美しい富士山を見た体験がある人なら、これが「最高の西湖にさあ行こう」とすぐに理解できる。

音声認識のコンピュータは体験はできないので、人の力でコンピュータに「言葉の文脈を理解する知恵」を与える必要がある。それがAI（人工知能）である。

これらをまとめると、コンピュータが苦手な作業は以下の通りである。

・音声と他の音との区別

・意味の認識

・文脈の認識

それでは音声技術は、これらをどのように解決しているのだろうか。

音声と他の音との区別

コンピュータに音声と他の音とを区別させるには、数千人分の人の音声を数千時間にわたって「聞かせる」必要がある。

音は波である。音声も音だから、波を持つ。つまり音声は独特の波形を持っている。その波形をコンピュータに覚えさせることで、コンピュータはそれが「人の声である」と認識できるようになる。

例えば「おはよう」という音声をコンピュータに認識させるとする。その場合、コンピュータは「最初の1音は『お』に似ているな」「2番目の1音は『は』に似ているな」といった具合に判断するのである。

意味の認識と文脈の認識

音声認識をするコンピュータが「おはよう」の「お」と「は」と「よ」と「う」を認識できたら、次に「『おはよう』とは人が頻繁に使うあいさつである」と認識させる必要がある。そのためには、とにかく多くのテキストを集め、コンピュータに入力していく。

コンピュータに覚えさせるテキストが多くなると、仮に人がコンピュータに「おあよお」と話しかけても、コンピュータは「朝の6時の第一声が『おあよお』なわけがないから、それに似た言葉があるはずだ。『おはよう』が『おあよお』に似ているな。とういことはこの人は『おはよう』と言っているに違いない」と解釈して、「おはようございます、ご主人様」と回答することができるようになる。