ディープラーニングによる音声認識事例

「OKグーグル、ワークアウトの曲を流して」、「OKグーグル、タイマーを5分に設定して」、読者の多くにとって昨年秋から始まったGoogle HomeのCMは衝撃的だったのではないだろうか。音声によって操作ができ、ネットワークを介して様々なことができるスマートスピーカーは私たちの世界がまた一歩ドラえもんのいる未来に近づいたと感じさせる商品だ。だが、意外なことに音声認識は比較的昔から存在する技術なのである。この記事ではGoogle HomeやAmazon Echoなどのスマートスピーカーを支える技術である音声認識と、音声認識にブレークスルーをもたらしたディープラーニングについて焦点を当てて解説していく。

音声認識とは何か

音声認識とは人間の発話をコンピューターに認識させる技術のことである。そもそも人間の声は空気の振動のパターンであり、音声認識のゴールはコンピューターがこの空気の振動という物理現象を読み取り、人間がその現象にどのような意味を持たせているのか解釈することである。

ところで読者の皆さんが普段利用されるのは日本語であろうか。それとも英語だろうか。いずれの言語にしても他者とコミュニケーションを取るためには特定のルールに従う必要があり、皆さんも文法や語法と呼ばれるルールに従って言語を利用しているはずである。そう言ったルールはコンピューターから見たとき、発話を介して生まれた空気の振動に特定のルールを与え、解釈のヒントとなる。

例えば、皆さんは朝の挨拶をするとき「おはようございます」と発話すると思うが、このとき音声認識の手順としては「お」を意味する空気の振動を読み取り、「は」を意味する空気の振動を読み取り、というように順番に音声を読み取っていく。今、最後の2文字が読み取れず「おはようござい」までしか認識できなかったとする。しかしながら、朝の挨拶として「おはようございます」と発話するルールが存在することを予め知っていれば最後の2文字を補い「おはようございます」と認識することができる。

このように特定のルールを基にして前後の情報から推論を重ねていく音声認識の手法を隠れマルコフモデルを用いた音声認識技術という。前述の例は単純だが、実際には「私は今、新宿で買い物をしています」のような長い文に対して、「私」は主語、「は」は助詞のように、形態素解析という構成要素への分解を行い、「新宿」、「買い物」といった単語の情報を用いて、自然言語処理に関する技術を駆使しながら推論が行われるのだ。このようにしてコンピューターは音声を認識するのである。

音声認識とディープラーニングのコラボレーション

勘のいい読者はもうお気づきかも知れないが、前述の隠れマルコフモデルによる推論をディープラーニングに置き換えることによって音声認識の精度は格段に向上した。ディープラーニングとは人間の脳をモデルとしたAIの一種であり、異なる入力に対して計算過程はよくわからないが異なる出力が得られるので、入力を分類できるというものである。

例えば、「あ」という発話を入力すると1、「い」という発話を入力すると0と出力される場合、出力が1だったら入力されたのは「あ」、というように分類できる。ポイントとなるのが、計算過程がよくわからないが、わからない状態であっても分類できるということである。

その代わり、多量の入力情報を与えてそれが何かを予めAIに教えなければならない。この多量の入力情報をどうやって準備するかがディープラーニングの精度向上の一つの課題となっていたが、webの発達により多量の情報が容易に手に入るようになったため、研究が一気に進んだのである。具体的な話をしよう。

これまでに取り上げてきた例では「おはようございます」、「私は今、新宿で買い物をしています」のように文法というルールに準拠した日本語になっているが、読者の皆さんの日常会話はこういった文ばかりだろうか。

「おはよー」、「今？新宿。買い物買い物」みたいにくだけた日本語表現のほうが多数なのではないだろうか。このような表現に対して隠れマルコフモデルを用いる場合、どのようなルールで構成された文なのか知る必要があるが、ディープラーニングでは、入力と出力がわかれば良い。「おはよー」が「おはようございます」であり、「今？新宿。買い物買い物」が「私は今、新宿で買い物をしています」であることが分かれば良いのだ。

そして、このような日本語の表現例はwebを通じて大量に収集することができ、言い換えるとディープラーニングを用いた音声認識の精度を向上させる環境が整っていることになるのだ。

音声認識を使ったコラボレーション事例

それではAIによる音声認識の事例をいくつか見ていこう。

AIと音声認識のコラボレーション事例1「DeepGram」

はじめにDeepGramを紹介する。DeepGramはアップロードされた動画に含まれる音声を認識し、検索や整理を可能にするサービスである。音声を正しく認識することができれば、形態素解析などの既存技術を用いて動画へのタギングはさほど難しくない。従って如何に音声認識の精度を上げるかがこのサービスを成立させる重要な条件であったが、ディープラーニングがこれを可能にしたのである。

AIと音声認識のコラボレーション事例2「GridSpace」

もう一例紹介しよう。GridSpaceである。GridSpaceは会議中の音声を認識し、誰が何を発言したか自動的に議事録に残してくれるサービスである。

また、会議の中で重要な発言をハイライトし自動的に整理してくれる。こういったサービスが可能となったのも、ディープラーニングを用いて膨大な数の会議での発言をコンピューターが学習し、重要な発言を自動的に判別できるようになったからである。

AIが切り開く音声認識の未来

AI、特にディープラーニングと音声認識技術が組み合わさることにより、これまでになかった新しいサービスが生まれ、私たちの日常をより便利にしてくれる。そしてこのコラボレーションはまだ黎明期であり、これからわくわくするようなユニークなアイディアがどんどん出てくるであろう。

音声という直観的でわかりやすいインターフェースを介してコンピューターとコミュニケーションできるようになった今日は、ドラえもんやアトムのような未来のロボットの友達につながる今日なのかも知れない。

<参考>

音声認識について考える -音声の内部構造によるパターン認識の研究-（イシ・シュン）
http://www.geocities.jp/onsei2007/
機械学習は楽しい Part 6: ディープラーニングでの音声認識 (翻訳)（Qiita @daisukelab）
https://qiita.com/daisukelab/items/4fdbf95c74e6206153c9
音声認識の仕組みと、隠れマルコフモデル（HMM）入門（株式会社SPJ）
https://spjai.com/speech-recognition/
Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう（Tech Crunch Japan）
https://jp.techcrunch.com/2017/10/11/20171010deepgram-opens-up-its-machine-transcription-platform-to-everyone/
誰が何を話したのか、会議内容を自動的に判別するアプリ　重要点まで賢く識別 (TECHABLE)
https://techable.jp/archives/14386

役にたったらいいね！
してください

NISSEN DIGITAL HUB編集部

NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。

音声認識とは何か

音声認識とディープラーニングのコラボレーション

音声認識を使ったコラボレーション事例

AIと音声認識のコラボレーション事例1「DeepGram」

AIと音声認識 のコラボレーション事例2「GridSpace」

AIが切り開く音声認識の未来

カテゴリー

注目記事

AIと音声認識のコラボレーション事例2「GridSpace」