音声認識技術の仕組みと歴史と未来

AIスピーカーやiPhoneのシリは、コンピュータと会話をしている錯覚を覚える。それはコンピュータが話者の声を正しく認識するからだ。そこには音声認識の現在、過去、未来を概観する。

シェアする

アマゾンの「エコー」やグーグルの「グーグルホーム」などはAIスピーカーと呼ばれたり、スマートスピーカーと呼ばれたりする。

いずれも、人が声を発してAIスピーカーに向かって質問すると、AIスピーカーが適切な答えをやはり声で返してくれる。

例えば「明日の渋谷の天気を知りたい」とAIスピーカーに語りかければ、AIスピーカーは「明日の渋谷は晴れで、最高気温は25度です」と答える。

渋谷の明日の天気情報なら、スマホの画面と文字入力を使っても可能だが、音声で質問し音声で答えを受け取るほうがスピーディーだ。

この利便性を支えているのが音声認識技術である。その歴史と仕組み、実社会への応用方法を紹介する。

音声認識_Siri

音声認識技術の歴史

音声認識の研究を行ったのはアメリカの国防高等研究計画局という役所だった。それが1971年である。民間で初めて音声認の開発に着手したのは1975年のIBMである。

それから「マルコフモデル」「スピーク&スペル」「混合ガウスモデル」「ドラゴン ナチュラリー スピーキング」や「IBMヴィアボイス」といった名称の音声認識技術が開発、発表されたが、一般の人が手に取ることはまずなかった。

音声認識の大きな出来事は1995年に起きる。マイクロソフトがウィンドウズ95にスピーチツールを搭載したのである。

そして2011年、アップルがスマートフォンiPhone4Sにシリ(Siri)を搭載した。シリによって初めて「機械が私の声を読み取った」と実感した人は多いだろう。

音声認識といえばシリと認識する人が増え、音声認識について説明するときも「要するにシリのような機能です」といえば通じる。

2014年にマイクロソフトが発表したコルタナも、技術的なブレークスルーをなし遂げた製品として知られている。

2017年にアップルがAIスピーカー「ホームパッド」を発表した。先述した「アマゾンの「エコー」やグーグルの「グーグルホーム」もこのころ販売が開始している。日本勢ではLINEが「ウェーブ」を販売している。

音声認識技術の仕組み

音声認識技術の仕組みをみるとき、なぜコンピュータは人の音声を認識しづらいのかを考えると理解しやすい。

コンピュータはなぜ音声の聞き取りが苦手なのか

音声は音であるが、同じ音でも、音声は車の騒音や海の波音とはまったく異なる。人はこれを簡単に聞き分けることができるが、コンピュータは苦手である。

さらに音声は、ピアノの音色とは異なるが、歌詞がついている音楽とは似てくる。人なら、アイドル歌手が歌う歌を音声と認識し、バック音楽のギターの音色は音声ではないとわかる。しかしコンピュータには、歌手の歌とギターの音色が混ざっている音を聞いて、両者を聞き分けることが難しい。

このように、あまた存在する音の中から人の声という音声だけを拾うことが、音声認識コンピュータの最初の関門である。

では技術が発達して、音声だけを拾うことができたとしよう。しかし次に「意味を拾う」という壁が現れる。

赤ちゃんはお母さんの声を聞けば安心できるが、お母さんが発する「大丈夫だよ」という言葉の意味を認識して「そうか、大丈夫なんだ」と思っているわけではない。

つまり音声認識技術は、言語を理解できなければならないのである。

意味を拾うことができたら、次は文脈を拾わなければならない。

「さいこうのさいこにさあいこう」という言葉は、人間ですら理解できないかもしれない。しかし、富士五湖の西湖(さいこ)からとても美しい富士山を見た体験がある人なら、これが「最高の西湖にさあ行こう」とすぐに理解できる。

音声認識のコンピュータは体験はできないので、人の力でコンピュータに「言葉の文脈を理解する知恵」を与える必要がある。それがAI(人工知能)である。

これらをまとめると、コンピュータが苦手な作業は以下の通りである。

・音声と他の音との区別

・意味の認識

・文脈の認識

それでは音声技術は、これらをどのように解決しているのだろうか。

音声と他の音との区別

コンピュータに音声と他の音とを区別させるには、数千人分の人の音声を数千時間にわたって「聞かせる」必要がある。

音は波である。音声も音だから、波を持つ。つまり音声は独特の波形を持っている。その波形をコンピュータに覚えさせることで、コンピュータはそれが「人の声である」と認識できるようになる。

例えば「おはよう」という音声をコンピュータに認識させるとする。その場合、コンピュータは「最初の1音は『お』に似ているな」「2番目の1音は『は』に似ているな」といった具合に判断するのである。

意味の認識と文脈の認識

音声認識をするコンピュータが「おはよう」の「お」と「は」と「よ」と「う」を認識できたら、次に「『おはよう』とは人が頻繁に使うあいさつである」と認識させる必要がある。そのためには、とにかく多くのテキストを集め、コンピュータに入力していく。

コンピュータに覚えさせるテキストが多くなると、仮に人がコンピュータに「おあよお」と話しかけても、コンピュータは「朝の6時の第一声が『おあよお』なわけがないから、それに似た言葉があるはずだ。『おはよう』が『おあよお』に似ているな。とういことはこの人は『おはよう』と言っているに違いない」と解釈して、「おはようございます、ご主人様」と回答することができるようになる。

音声認識には「聴覚」はない

音声認識技術は、音声を波形として認識している。そしてその波形を文字に変えている。つまり音声認識技術には聴覚はない。

音声認識技術を搭載したコンピュータは、音声を一度テキストに変換してから意味を理解しているのだ。そしてAIスピーカーのようにコンピュータが人に向かって回答するときも、テキストを作成してからそれを音声データに変換しているのである。

専門用語の整理

ここまでなるべく専門用語を用いずに解説したが、ここで語句の定義の確認も含め、専門用語を整理しておく。

まず「音声認識」であるが、英語ではAuto Speech Recognitionと表記する。人の音声を認識してテキストデータ化することをいう。

テキストデータを音声化することは「音声合成(Speech Synthesis)」という。

「自然言語処理(Natural Language Processing)」とは、人の話し言葉の意味を汲み取る技術である。自然言語処理の段階ではまだ、コンピュータは洞察することはない。

「情報要約」とは、自然言語処理で読み取った単語や文章から、情報を抽出する技術だ。コンピュータが人の話し言葉をそのまま解析するのは効率的ではない。そこでまずは、音声の中から情報だけを読み取り、その後で情報を統合することで意味を構成していく。

「感情認識」も自然言語処理で読み取った単語や文章を認識する技術だが、情報要約と異なり、話者の感情を推測する。人が「静かに怒っている」「軽く嫌味を言っている」という複雑な言動をしたときも、感情認識で感知できる。いわば「KY(空気を読む)」ことができる技術といえる。

まとめ~音声認識は私たちの社会にどう応用できるのか

明日の天候を教わったり、オムレツのレシピを探してもらったりすることは、音声認識技術の応用としては初歩のステージといえる。部屋の中で天井に向かって「電気をつけて」といって、電灯がつく技術も難しくはないだろう。

今後さらに音声認識技術が発達すれば、例えば自動運転車にドライバーが声で指示できるようになる。

さらに音声認識は医療の分野で活躍するだろう。患者から症状を聞き出す問診は、音声認識技術と医療知見のAI化によってかなり自動化できるに違いない。


<参考>

  1. 音声認識技術の歴史~約 50 年にわたる歩み(マイクロソフト)https://blogs.technet.microsoft.com/jpai/2015/12/04/speak-hear-talk-the-long-quest-for-technology-that-understands-speech-as-well-as-a-human/
  2. 2017年はスマートスピーカー元年と呼ばれるのか~AIアシスタントデバイスの可能性を考える~(NECネクサスソリューションズ)
    http://www.nec-nexs.com/supple/autonomy/column/nomura/column039.html
  3. 音声認識とは(株式会社アドバンスト・メディア)
    https://www.advanced-media.co.jp/amivoice
  4. 【AI活用最前線】音声認識で仕事の現場はこう変わる!(NTTテクノクロス)
    https://www.ntt-tx.co.jp/column/trend/biznews20170215/