AI(人工知能)戦争 〜グーグルにとって「音声認識」は死活問題〜

AI(人工機能)の利便性を格段にアップさせる音声認識技術の開発競争が激化している。そのなかでも「検索のグーグル」は「死活問題だ」とばかりに力を入れている。

シェアする

AI(人工知能)の開発競争は激しさを増すばかりだ。GAFA(ガーファ)と呼ばれるIT巨人が巨額を投じて研究開発を進める一方で、数人の天才たちが立ち上げたベンチャーがブレークスルーを成し遂げたりしている。

そしてGAFAの一角をなすグーグルは、「音声認識は死活問題」とばかりに次々と新サービスを出している。音声認識とは、AIコンピュータづくりに必要な技術のひとつで、これにより人の音声を文字にしたり、文字を人が聞き取れる音声にしたりできる。

なぜ音声認識がグーグルの明暗を握るのか。それはグーグルの生命線が「検索」だからだ。AI音声認識技術の進化は、検索に革命を起こすと考えられていて、ここで後れを取っては「検索のグーグル」の地位が脅かされる。

音声認識_GAFA_アップル

グーグルアシスタントが驚異の進化

まずはGさんとHさんの会話を聞いていただきたい。

Hさん「そういえば、僕が応援しているバスケットボールチームのウォリアーズは試合に勝ったのだろうか」

Gさん「はい、先週の試合ですね。ウォリアーズは118対92でペリカンズに勝ちました」

Hさん「それはよかった。次の試合はいつだっけ」

Gさん「ウォリアーズの次の試合は、今日の午後7時30分です。対戦相手はペリカンズです」

Hさん「今晩は、それは楽しみだ。帰宅したら、ウォリアーズのケビン選手のレプリカユニフォームを買いたいから、リマインドして」

Gさん「承知しました、帰宅しましたら『ケビン選手のレプリカユニフォームを買うように』とリマインドしますね」

社長と秘書のような会話だが、Hさんとはグーグルの幹部のスコット・ホフマン氏で、Gさんとはグーグルアシスタントだ。

グーグルアシスタントは、グーグルが開発したAIアシスタントだ。AIアシスタントとは、人々の生活を補助するアプリで例えばiPhoneのシリもAIアシストの一種だ。

ホフマン氏とグーグルアシスタントのこの自然な会話は、2018年5月にシリコンバレーで開かれた、グーグル主催の開発者会議「グーグルI/O2018」で披露された。聴衆は度肝を抜かれた。これはもう、コンピュータと人間の自然会話としかいいようがないからだ。

グーグルアシスタントは2016年に初めて公開されたが、今回の2018年版には以下のような改良が加えられた。

・8秒以内であれば次の声かけで「ヘイ、グーグル」と呼びかけなくてもよくなった

・1つの文章で複数の依頼ができるようになった

・レストランの予約ができるようになった

レストランを予約する機能を持つのは、厳密にはグーグルアシスタントではなく、グーグルデュプレックスというアプリだ。グーグルはデュプレックスを、アシスタントの進化形に位置付けている。

ユーザーがグーグルデュプレックスに「〇〇レストランを明日午後6時に予約して」と依頼すれば、グーグルデュプレックスがそのレストランに電話をして、レストランの店員と会話をして「ご主人様」の予約を入れるのである。

グーグルが「あせる」わけ

グーグルが音声認識開発に力を入れるのは、この分野で負けるわけにはいかないからだ。

GAFAは「IT王者」とひとくくりにされるが、収益源はまったく異なる。アップルはスマホやパソコンといったハードや、音楽配信などのソフトで稼ぐ。フェイスブックはSNS広告が収益の柱だ。アマゾンはネット通販とクラウド事業が中心になっている。

ではグーグルはというと、自動運転車というハードもつくっているしクラウド事業もしているし、スマホOSのアンドロイドも収益の柱になっている。

それでもグーグルの最大の強みはネット検索だ。人々にとって検索する動作はいまや、仕事でもプライベートでも欠かせないものとなっている。生活インフラになっている、という人もいるだろう。人々は先輩や専門家に尋ねる前に、まずは検索して調べる。すると大抵の課題は、先輩や専門家に聞く前に解決できる。

検索は人々を情報通にしたり賢くしたりする。

検索は従来、サイトの画面に文字を入力して行っていたが、いまはスマホやパソコンに向かって「歴代の総理の名前!」と声をかけるだけでよくなった。

その延長線上に、AIスピーカーがある。音声認識が進化したことで、検索の「土俵」が画面(パソコンやスマホ)から机の上に置く物体(AIスピーカー)に変わったのである。

そして机の上に置けるということは、台所に置くこともできる。しかもAIスピーカーは「非接触型」だから、AIスピーカーを操作するときに濡れた手で触る必要がない。台所で料理する人は、AIスピーカーに質問をするだけでレシピを入手できる。

検索のニューウェーブであるAIスピーカーの開発では、グーグルはアマゾンに後れを取った。アマゾンは2014年11月にアマゾンエコーを発売している。それに対してグーグルのAIスピーカー、グーグルホームの発売は2016年5月だ。1年半も遅れたのである。

2017年のAIスピーカーシェアは、アマゾンエコーの52%に対し、グーグルホームは36%だ。

グーグルが音声認識技術の開発に「あせる」理由も理解できる。

ちなみにアマゾンとグーグル以外のAIスピーカーは、アップルがホームパッドを2018年に発売し、マイクロソフトは2017年にインヴォークを販売している。

GAFA_音声認識

グーグルの音声認識への投資

グーグルのCEO、スンダル・ピチャイ氏は2017年末の決算発表の席で、これからのグーグルの事業の柱は、検索とグーグルアシスタントの2つであると説明した。これはその2分野に巨額投資をする宣言にほかならない。

日本経済新聞によると、グーグルのグーグルアシスタント関連(音声認識とAI関連)の企業買収は以下のとおり。

・2014年2月:スマート温度コントロールのNest labs社

・2014年10月:スマートホーム技術のRvolv社

・2016年9月:自然言語会話開発のAPI.ai社

・2018年2月:IoTプラットフォームのXively社

ピチャイ氏はさらに、グーグルアシスタントは、ユーザーの期待に添えていない部分があるとも述べている。グーグルが企業買収を急ぐのは、技術開発の時間を買っているのだ。

音声認識の未来

音声認識の未来はどのようになるのだろうか。

音声認識を使った検索は人々の生活に浸透しつつあり、アメリカでは次のようなデータが報道されている。

・検索の20%が音声検索になっている

・成人の40%は最低1日1回は音声検索をしている

・マイクロソフトの音声認識ソフト・コルタナは月間1億3,300万人のユーザーがいる

・16~24歳の25%がスマホなどのモバイル端末で音声検索を経験している

・アップルのSiriのユーザーの19%は1日1回以上使っている

この音声認識依存ともいえる現象は、なにをもたらすのだろうか。

音声検索ネイティブが誕生する

固定電話やガラケーを知らない世代のことを、スマホ・ネイティブと呼ぶが、これからは文字入力検索をしたことがない音声検索ネイティブが生まれるだろう。

というのも、文字が書けないどころか識別することすらできない幼い子供でも「アンパンマン!」や「ポケモン!」と言うだけでユーチューブでそれらのアニメを見ることができるからだ。

「クラウドじゃない」から便利になる

グーグルはいま激安チップで音声認識を実現しようとしている。現行の音声認識はクラウドを介して行う必要があるが、「端末→クラウド→端末」という無駄な過程が発生している。

またクラウドは「端末→クライド」の間の通信(「→」の部分)が切断されると機能しなくなるという欠点もある。

音声認識でクラウドを使うのは、音声認識技術があまりに高度かつ高価すぎてその「脳」をユーザー1人ひとりの端末(スマホやパソコンやタブレット)に搭載することができないからだ。

そこでグーグルは、激安チップをつくれば、スマホなどの端末に音声認識の「脳」を入れることができると考えたのである。

チップとは半導体の集合体で、複雑な機能を実行できる部品。半導体集積回路(IC)と呼ばれることもある。

グーグルは、コストを抑えるだけでなく、小型電池で1年間仕様できる省力型チップの開発を目指している。

激安チップの開発が成功すれば、スマホ検索が楽になったりAIスピーカーが便利になったりするだけではない。おもちゃも家電も自動車も工場も農場も画期的に進化するだろう。

インターフェースの改良は、ユーザーの裾野を爆発的に広げるからだ。

まとめ~「難しくない」の重要性

いまやビジネスシーンでは、新人や後輩社員が、上司やベテラン社員や専門家に質問するとき、まずはグーグル検索を済ませておくことがエチケットになっている。

ネットで簡単に調べられることを、パワハラ上司に尋ねたりしたら「そんなのネットで調べろ」と怒られるかもしれない。

しかしこうした風潮は、新人や後輩社員にとって不幸なことばかりではない。ネット情報は上司やベテラン社員や専門家を上回ることがあるからだ。つまり、パワハラ上司を頼らなくてもよくなる。

グーグル検索は、知識の獲得を格段に容易にした。グーグル検索を多用しているスタッフの職場は、確実に知的レベルが一段上に持ち上がったはずだ。音声認識は検索をさらに容易にするので、人々の知識はさらに増えるに違いない。


<参考>

  1. 最大の課題は音声アシスタント、グーグルCEOの焦り(日経×TECH)
    https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00141/051400015/
  2. 音声AIでどう稼ぐ 後発グーグル、必死の模索(日本経済新聞)
    https://www.nikkei.com/article/DGXMZO30893590U8A520C1000000/?df=2
  3. グーグルが超格安チップでも動く音声認識アルゴリズムを開発中(MIT Technology Review)
    https://www.technologyreview.jp/s/56781/for-disposable-voice-recognition-take-cheap-chips-and-add-simple-ai/
  4. アマゾン ウェブ サービス(AWS)とは?(アマゾン)
    https://aws.amazon.com/jp/about-aws/