ディープラーニングの音声認識の国内事例

音声認識とディープラーニングの原理とは?そして音声認識を利用した企業の現状と未来は?

シェアする

最近、テレビのCMOSセンサーでマイクに向かって「アレクサ、電気を消して」、「アレクサ、xxxをオーダーして」という映像や、「ハイ、Google xxxのお店を教えて」、「SIRI、 xxxの曲をかけて」とスピーカーに向かってしゃべるコマーシャルを目にします。これらは、スマートスピーカー(日本ではAIスピーカーともいう)と呼ばれ、スピーカーと同時にマイクが中に搭載されマイクが拾われた声を音声認識機能持つAI(Artificial Intelligence:人工知能)プログラムが人の声を認識し、それに対して処理をしているものである。

調査結果によると、スマートスピーカーの米国での普及率は20%であり、米国成人の4730万人がスマートスピーカーにアクセスできる環境にあるという。スマートスピーカーのシェアは、Amazonが72%、Googleが18%であり以下その他である。また、日本のスマートスピーカー普及率は8%であった。2018年末には米国の普及率は37%と予測されており、日本は16%と予測されている。スマートスピーカーの普及はこれから数年かかる予想となっている。

音声認識_画像

音声認識の仕組み

スマートスピーカーの場合、処理を行う要素は大きく3つに分けられる。1つ目は人の声を認識する処理(音声認識)。2つ目は声の内容を解析し・解析に対して対応(回答)を行う処理、3つ目は結果(回答)を音声合成によって行う処理である。2つ目の質問(リクエスト)の内容を解析は、専門家の考え方などをルール化したエキスパート・システムや、情報検索、推論、人間工学や認知科学の原理を用いた感性処理、画像処理などを駆使してAI技術を探求し、開発している。

また、3つ目の音声合成技術は、コンピューターの世界では古くから開発されている技術であり、今では機会に人がしゃべっているように滑らかに言葉を発する技術が確立されている。時には、音声合成処理で言葉を発していること人にわかるよう意図的に機械的にしゃべるサービスもある。

音声認識の考え方

本題の音声認識技術についてであるが、音声の音源はアナログである。このアナログデータをアルゴリズムによりデジタルに変換する。アルゴリズムとは「問題を解く手順を明確にし最適化したもの」であり一定の法則に従って音声をデジタルのパターンとして記憶させる。

この方法を使って、膨大なデータの音声をデータベースに蓄える。これらの処理をコーバス(corpus)といい、コーバスとはテキストや発話を大規模に集めてデータベース化した言語資料のことで、新聞記事、連続音声、単語音声や騒音、大量の自由発話音声など様々なコーバスが収録されデータベース化されている。

データベース化された音声は、「統計的手法」とか、「隠れマルコフモデル」という手法によって音声が何を求めているかを解析する手法がある。「統計的手法」は、過去に蓄積されたデータベースから似たようなパターンを検索し最も近い言語を見つけ出す手法。「隠れマルコフモデル」(Hidden Markov Model、HMM)は、音声を10mm秒程度の時間分割をし、音声を確率過程の連鎖と考え言語を解釈する方法である。「隠れマルコフモデル」は、自動的にトレーニングにより解釈する精度を上げることができる。

ディープラーニングの考え方

機械学習は、機械学習はビッグデータベースなどから特例の規則や関連性を見つけ出す方法である。ディープラーニングは、機械学習を発展させアルゴリズムを付加して、ニューラルネットワークという手法を通じて人間の脳の動きと同様の動きをさせる手法である。例えば画像処理のディープラーニングになるが、犬と猫の切り絵を作り、作った切り絵を各々3または4つにはさみで切り分けその一片をみせても、犬または猫と判別できるようにコンピューターに繰り返し学習させる手法がディープラーニングである。

音声認識の事例:損害保険ジャパン日本興亜のケース

損害保険ジャパン日本興亜は、既に導入済みのコールセンターに加え、NTTコミュニケーションズと共同で音声認識AIを活用した「アドバイザー自動知識支援システム」を2018年3月より導入している。

現行の「アドバイザー自動知識支援システム」は、完全な音声認識と音声合成による質問を聞いて機械で回答するシステムではなく、顧客とコールセンターのアドバイザーとの通話内容を人工知能による音声認識技術でテキスト化し、そのテキストデータに基づいて、人工知能がアドバイザーのパソコン上にリアルタイムで最適な回答候補を表示するものである。音声認識の精度は95%程度であり、回答候補の選出精度は80%となっている。

今後は、人工知能による顧客からの問い合わせを人工知能で全て完結するシステムを追求している。

音声認識の事例:レオパレス21のケース

レオパレス21は、スマートフォンのアプリの「レオパレスAIカウンター」を開設した。アプル上にバーチャル店員が現れスマートフォンの顧客と音声(またはチャット)にて物件を紹介する。アプリの仕組みは音声認識技術を使って顧客と対話する。スマートフォンを使ってレオパレス21の店舗にいるような感覚で物件を探すことが可能になった。

「レオパレスAIカウンター」は、24時間365日サービスを提供しており、店舗の休業日や営業外の時間帯、または、レオパレス21の店舗まで出向くのに不便な場所から店舗まで出向くのを嫌がる顧客にもアプリで物件を紹介できる。「レオパレスAIカウンター」は、今後も多くの対応をすることで学習能力を高め、音声技術の対応能力を高めていく。

音声認識の事例:Amazon Echoを利用した飲食店のケース

ロイヤルダイニングは、都内を中心に和食からエスニック料理まで30店舗の飲食店を運営する。この度、居酒屋店舗にてスマートスピーカー「Amazon Echo 」を設置し、音声でのメニュー注文を行う実証実験を行っている。

少子高齢化による労働力不足が社会的問題となっている中、特に飲食業界は人手不足の問題は今後とも切迫した課題である。ロイヤルダイニングは、Amazon Echoを使って注文を受け付ける実証実験を行っている。Amazon Echoに、「アレクサ、飲み物メニューを開いて」と話しかけ、飲み物メニューから任意のドリンクと個数を音声で頼むことで、音声認識アシスタント「Alexa」が注文を受ける。注文内容は厨房スタッフにチャットにて通知される仕組みで人の介入はない。あとは、人が飲み物を客室まで持って行く。

また、オーダーのログ取得解析を行っており、ユーザーの反応や購入傾向を解析し音声認識の人工知能と店舗オペレーションの共存化・最適化のポイントを模索している。実験は途中であるが、実験当初において通常のオーダー方法と比較して店舗スタッフの労力は、およそ50%減した。このように、企業がサービスを行っている業務の人工知能音声認識システム活用事例は、紹介した事例の他に店舗での受け付け案内などで、画像処理技術と音声認識を使って人を分別したり、再来訪者の確認などを行ったりしているが、まだまだ音声認識システムを企業のサービスはスタート時点に立ったばかりである。


<参考>

  1. 人工知能学会
    https://www.ai-gakkai.or.jp/
  2. 音声認識(Wikipedia)
    https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98
  3. 47.3 million U.S. adults have access to a smart speaker, report says (Tech Crunch)
    https://techcrunch.com/2018/03/07/47-3-million-u-s-adults-have-access-to-a-smart-speaker-report-says/
  4. アクセンチュア2018年デジタル消費者調査 (アクセンチュア)
    https://www.accenture.com/jp-ja/_acnmedia/Accenture/jp-ja/Images/DotCom/event-digital-consumer-survey-2018/Accenture-2018-Digital-Consumer-Survey-Findings-jp.pdf#zoom=50
  5. コールセンターにおける人工知能(AI)の本格導入を実施 (@Press)
    https://www.atpress.ne.jp/news/152426
  6. レオパレス21の『レオパレスAIカウンター』に音声認識技術AmiVoiceとAI対話ソリューション「AmiAgent」が採用されました (PR TIMES)
    https://prtimes.jp/main/html/rd/p/000000072.000020223.html
  7. 国内初、居酒屋でスマートスピーカーに音声注文できるAlexa(アレクサ)オーダー席の予約開始。 (PR TIMES)
    https://prtimes.jp/main/html/rd/p/000000018.000018045.html