AIで広がる音声認識技術の未来

スマートフォンに話しかけるだけで相手に電話がつながったり、原稿を音声入力で書けたり、簡単に議事録の文字化ができたり、と音声認識技術は急速に普及している。何を隠そう、この記事も一部は音声入力で書いたものだ。

マルチマイク搭載の広がりで進化する音声認識

人工知能（Artificial Intelligence：AI）による音声認識は、音声をコンピュータやスマートフォンに取り込むところから始まる。音声を取り込むマイクは高精度のものが必要となる。音声認識システムの多くは、発話者用マイクの入力なら多少の雑音があっても問題ないが、ロボットや家電など少し離れたところから発話された音声の取得には、周囲の雑音や残響が問題となる。このような問題に対応できるマイクが開発されたことが、音声認識精度の向上に貢献している。

音声認識のためのマイクシステムは、捉えた波形データを比べることで発話者の音声と雑音とを区別している。その方法には2つあり、波形のズレ（位相差）を区別するものと、波形の大きさの差（振幅差）で区別するものだ。雑音が大きい場所では、人間の音声と一緒に、マイクが雑音を拾ってしまうのが課題だったが、誤動作を防ぐために発話している時間を検出する技術（音声検出）や、雑音を除去する技術（雑音除去）にマルチマイクシステムが使われるようになった。このマルチマイクはスマートフォンなどにも搭載され、通話用と雑音除去用に配置されているケースもある。不要な雑音を除去することでクリアになるなどマイク技術の高精度化によって、音声取得の性能も向上したことがAIによる音声認識の実現を支えている。

画像情報や音声情報を併せることで、音声認識の頑健性を向上させるといったマルチモーダル技術も進化している。頑健性とは多少のノイズがあったとしても適切に機能することを指している。発話者の言葉を聞きとるには聴覚と視覚の両方を使った方がいいのは周知の事実だ。音声を文字に変換する音声認識は、入力信号を音声特徴ベクトル（音声のさまざまな特徴を数値化してまとめたデータ）に変換し、その系列から対応する単語列を推定することで可能になる。

マルチモーダルな開発の加速

音声を正しく文字に変換するには、従来は「音響モデル」と「言語モデル」という別々のモジュールで行われてきた。音響モデルは音声の単語辞書、言語モデルは単語のつながりが予測可能で、2つをマッチングすることにより変換していた。言語モデルは単語のつながりを確立的に表現したものである。1つの単語が認識されれば、次に予測されそうな単語の候補を確立して予測する。コンピュータやスマートフォンの「日本語かな漢字変換」を行うときの予測変換と考えるとわかりやすいかもしれない。

どの単語なのかを正しく予測するには従来型の音声認識では、音響モデルと言語モデルで別々に処理していたため限界があり、課題となっていた。それまで30%程度のエラーが出てしまうような難しい課題だった電話会話音声認識が、ディープラーニング（深層学習）を使った音響モデルにより、20パーセント以下のエラー率を達成したという発表が2011年にあった。奇しくも画像認識のディープラーニング発表と重なる時期だった。以降、コンピュータなどでのマルチモーダルな開発が加速している。はじめは、ディープラーニングも音響的側面だけに対応していたが、今では音声言語一体型技術が開発され、人間と機械との対話が実現している。

自然言語処理能力の向上で対話も可能

人間にとって言葉を操ることは、もっとも特徴的な行動である。自動対話システムの実現は、言葉に知能の本質があるとした場合、大変重要なものといえる。イギリスの数学者、アラン・チューリングが、AIの出来栄えを判定するテストに言語能力を選んだように、言語の理解はAI最大の難関と考えられている。

コンピュータの世界では、人間が使っている言語を「自然言語」と呼んでいる。自然言語をコンピュータに入力するにはキーボードなどで直接文章を入力するのが一般的だが、対話の多くは音声で行うことが多いので、音声認識技術がはじめに使われることになる。コンピュータに自然言語が入力されると、「文章」を「文」の単位へ、「文」を「単語」へと分解する技術が使われ、コンピュータが最終的に返事（出力）をする。

たとえば、コールセンターでオペレーター支援に使われる音声認識では、顧客の言葉を音声認識してテキストに変換する。それを形態素解析という最小の単語単位に分解し、文章の意図を理解する。続いて、回答に必要な情報をデータベースから検索し、スコアの高いものを最適回答候補としてピックアップし、顧客に提案する。質問に含まれるキーワードと関連しそうな答えを超高速に検索しているのだ。従来の質問応答技術と同じ方法に、ディープラーニングを取り入れ、地道にたくさん学習することで精度を上げているというわけだ。

音声認識技術で会話を作るには、大きく3つの型があるといわれている。「辞書型」「ログ型」「マルコフ型」である。

辞書型は、テンプレートと単語辞書をあらかじめ作成しておき、入力された単語に対して決められた回答を返す方法である。ログ型は、過去の会話履歴をサンプルデータとして学習し、過去にあったものを回答する方法である。マルコフ型は、会話を単語ごとに分解したときに、その単語の次にくる確立の高い単語を使って文章を作成する方法だ。ちなみに「マルコフ」とは確立に関係する用語で、ロシア人の数学者、特に確率過程論に関する業績で知られるアンドレイ・マルコフに由来している。

言語の取得で人類は目覚しい発展を遂げた。自然な会話をするには、会話の流れと話題に応じた返答が必要になる。現時点ではAIが会話の流れを把握するなど、文脈込みの意味を理解するのは難しい。逆にいえば、その分だけ自然言語処理の進化に伴う音声認識技術の可能性は果てしなく広がっている。

音声認識技術の事例1

NTTDocomoは、「見える電話」サービスをAndroidTMアプリ・Web アプリに提供している。相手の話す言葉を文字にして見ることができる。リアルタイムで文字変換されるので、聴覚障がいがある方も、電話でコミュニケーションをとることが可能となる。また、話したい内容を文字入力することによって相手に音声で伝えることもできる。

音声認識技術の事例2

日本テレビは、スポーツ中継番組など生放送番組の字幕作成システムにAmiVoiceを導入している。AmiVoiceは、株式会社アドバンスト・メディアが開発した音声認識技術で、修正の手間が少なく、字幕のより早い送出につながっている。

進化し続ける音声認識技術

AIスピーカーや音声入力、議事録の自動作成など、音声認識の便利さと精度向上を知るシーンは今後ますます増えていくだろう。マルチモーダルな音声認識技術にも注目が集まっている。さらなる進化が期待される音声認識が、今後どのように発展し実用化されていくのか、とても楽しみだ。

＜関連記事＞

日本のAI音声認識技術5選

＜参考＞

TensorFlowで会話AIを作ってみた。（シーエイトラボ）https://www.slideshare.net/tak9029/tensorflowai　
マルチマイク搭載の普及で音声認識の進化を改めて実感する日も近い？（東京反訳）　https://8089.co.jp/onsei-ninshiki/477
Pepperについての詳細（ソフトバンクロボティクス）　
https://goo.gl/YYN5ng
雑音下でも頑健に動作する音声UI技術とその応用（NEC技報）　　https://jpn.nec.com/techrep/journal/g12/n03/pdf/120326.pdf
音声認識のための深層学習（人工知能）↓東大のリポジトリ
https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/nlp+slp/DNN_ASR_JSAI.pdf
ロボットは井戸端会議に入れるか（国立情報学研究所ニュース） https://www.nii.ac.jp/about/upload/all_NIIToday62.pdf
人工知能(音声認識・ロボット)研究の目指すものと到達点（サイエンスポータル）https://scienceportal.jst.go.jp/columns/opinion/20150928_01.html
みえる電話（NTTドコモ）
https://www.nttdocomo.co.jp/service/mieru_denwa/index.html
AmiVoice導入事例　日本テレビ放送網株式会社（アドバンスト・メディア）　https://www.advanced-media.co.jp/products/casestudy/9251

役にたったらいいね！
してください

NISSEN DIGITAL HUB編集部

NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。