【この記事は約 6 分で読み終わります。】

AIを支えるビッグデータの歴史と今と今後

AIの精度や利便性を向上させるには、とにかく大量の情報をAIに学ばせる必要がある。大量の情報はいま、ビッグデータと呼ばれビジネスの要になっている。その歴史と今を概観する。

シェアする

  • RSSで記事を購読する
  • はてなブックマークに追加
  • Pokcetに保存する

数々の逸話を生み続けているAI(人工知能)だが、人間には勝てないといわれていた囲碁の勝負で、AIが世界最高峰のプロ棋士を破ったこともその1つである。このAIの開発者は、AIに何万枚もの棋譜を読ませたり、2台のAIで何万回も囲碁対戦させたりした。

AIの仕組みやAIの賢さを支えているのは、人間では到底不可能な学習量を難なくこなす能力である。「人間が処理できないほどの大量の学習」は、いまでは「ビッグデータ」と呼ばれている。AIにどれだけ多くのビッグデータを与えることができるかが、開発競争のカギを握っているといってよく、その意味ではビッグデータはAIの力の源泉である。ビッグデータの活用の歴史と、今後のビッグデータの有益性についてみていきたい。

BIG Dataの画像

ごみが金脈になった~ビッグデータが巨大ビジネスをつくる

ビッグデータは資源ごみと似ている。両者とも、かつては普通に捨てられていた。
まず資源ごみだが、環境に対する意識が低かった時代、資源ごみと本当のごみの違いはなかった。ところが「ごみから資源を回収する技術」「住民の分別の習慣」「環境をよくしようという意識」「リサイクル事業のビジネス化」の4要素が合わさったことで、資源ごみはお金を生み出す資産になった。

ビッグデータも誰かが「これでビジネスが成立する」と気がつくまでは、買い物履歴も貨物船の運航情報も、少しだけ使って、その後は捨てられていた。もしくはデータベースの奥にしまわれて、二度と閲覧されることはなかった。

ところがアマゾンもフェイスブックも、「ごみのような大量の情報」を「回収」し「分別」することで「金脈」に変えた。そこには「大量のデータはビジネスになる」という明確な戦略があった。

アマゾンは買い物履歴で「次にほしいもの」を予測

アマゾンは買い物履歴というビッグデータを解析することで人々が何を求めているか予測し、「次はこの商品がほしいはずですよね」と提案する売り方で莫大な収益をあげている。アマゾンの顧客は自分に何が必要かを考える必要がないのである。

フェイスブックは適切な広告表示で広告料を稼ぐ

フェイスブックはユーザーが好みそうな広告をユーザーのスマホに表示できるので、広告主から莫大なお金を徴収することができている。例えばフェイスブックのユーザーは普段、何気なく「いいね!」を押しているが、これを分析するとユーザーの趣味、性格、好き嫌いがわかる。これはイギリスのケンブリッジ大学などの研究チームが証明した。どれくらい「わかる」かというと、ユーザーの親友や親密な家族より、そのユーザーについて知ることができるのだ。1回の「いいね!」のタップの積み重ねだけで、個人情報を丸裸にできる。これが巨大ビジネスにならないわけがない。

日本はオールジャパンで情報集め

ビッグデータを握る企業がその業界を牛耳ることが確実になったいま、日本政府もようやく動き出した。

認定データバング制度で企業がビッグデータを共同活用

経済産業省と総務省は2017年9月、企業がビッグデータを持ち寄り共同で利用する「認定データバンク制度」の創設を公表した。データバンクは、それぞれの企業が保有する小さなデータをまとめ、ビッグデータにすることを目指す。省庁が取り仕切ることが「ミソ」で、企業から集めたデータで足りないときは、公的データを補足する。データバンクが集めるデータは、地図情報、船の運航情報、人工衛星情報、カメラ画像など。データバンクの狙いは、新規事業を立ち上げることと生産性の向上である。産業の「種と肥料」をオールジャパンでつくろうという試みだ。


恐竜が生み出したデータは使えない

極論すれば、ビッグデータは太古の昔から存在した。恐竜も体重データや歩行速度データ、捕食データを生み続けていた。しかし恐竜がつくりだした生のデータは現存しないから、使いようがない。データをデータとして活用するには、記録する必要がある。つまりビッグデータの歴史は、データの記録と保管の歴史でもある。

また、データはすぐに大量に膨れ上がるという性質がある。電話から電子メールへと変わり、交信の便利さが向上すると、すぐに交信記録は膨れ上がる。スマホの視聴率が高まると、スマホアプリから発信される情報量はすぐに膨れ上がる。そこで大量のデータを一気に解析する技術が必要になる。つまりビッグデータの歴史は、データ解析の歴史でもある。

その昔、データ解析は統計学者しか扱えなかった

データを解析するには統計学の知識が欠かせない。しかし統計学は、あらゆる学問の中でも特に難しい分野の1つだ。そのためかつては、統計は一部の専門家しか扱えなかった。だから一般の人たちは、専門家が出した統計の結果を信じるしかなかった。統計結果を導き出すまでの計算過程はブラックボックス化され、専門家以外は検証できなかった。

そのため昔は、統計に基づいた予測はよく外れた。その典型例が天気予報である。30年前の天気予報を知っている人は、現代の天気予報の的中率に日々驚いているはずだ。

パソコンが統計の力を持ったことでデータ解析が身近になった

統計やデータ解析が人々の身近になったのは、統計学の知見がパソコンの中に入ったからだ。人々はデータを集めてパソコンに入力さえすればよく、あとはパソコンが計算してくれる。多くのビジネスパーソンは、データ解析はデータ集めとデータ入力で終了すると考えているのではないだろうか。なぜならその後は、例えばウィンドウズユーザーであれば、エクセルやアクセスなどのソフトウェアがデータ解析してくれるからだ。
これで売上予測も製造見通しも立つ。

統計結果が間違っていれば、誤ったデータを入力したか、パソコンにインストールしたソフトウェアが故障していたかのどちらかであり、いずれも検証が可能である。ここまでが大体1980年代までの出来事である。

1990年代にデータマイニングが本格化

1990年代に入ってデータマイニングが本格化する。
テーマイニングとは、大量のデータを使ってビジネスをしたり、研究に使ったりする手法だ。

ビジネスではマーケティングにデータが使われるようになった。ベテラン店員の経験や勘に頼るより、データから導き出された方法で売ったほうが売り上げあがるという事例が多数報告されるようになった。また研究分野では、ゲノム解析においてデータマイニングの手法が取り入れられた。
この段階に入ってようやく「データは知識である」という認識が生まれた。

ビッグデータ時代の幕開け

現代のビックデータ時代は、2010年ごろから始まったとされる。NoSQLやHadoopという技術が開発され、ビッグデータの解析が飛躍的に進んだのである。NoSQLはデータベースの一種で、膨大なデータを高速で整理、分析する。グーグルやアマゾン、オラクルなどがNoSQLやNoSQLの理論を使って業績を伸ばしている。

Hadoopは日本語で分散処理技術という。Hadoopもビッグデータを蓄積、分析する技術である点はNoSQLと同じだが、ただHadoopはオープンソースという特徴がある。オープンソースとは誰でも無料で使える状態のソフトウェアのことである。そのためHadoopの開発には現在でも米ヤフー、インテル、マイクロソフトが参加し、グーグルも関与している。日本でもNTTデータもHadoopを使ったビッグデータ分析ビジネスを展開している。

世界的に成功している企業がビッグデータに関する基礎技術に投資をしているのは偶然ではない。

ビッグデータはみんなのもの

ビッグデータの歴史を振り返ると、ビッグデータは集めるにも使いこなすにも、「みんなの力」が必要であることがわかる。日本中の企業からデータを集めようと考えている経産省と総務省も「みんなの力」の結集を呼び掛けている。ビッグデータの利便性を飛躍的に向上させたHadoopはオープンソース化して「みんなで」開発することで進展した。

だからビッグデータを使って「ひとり」で儲けようとするとバッシングを受けることになる。フェイスブックのザッカーバーグCEOが米連邦議会に呼ばれて上院・下院議員から非難されたり、ヨーロッパ連合(EU)がグーグル、アマゾン、フェイスブックの監視を強めたりするのは、「人々が提供しているビッグデータを独り占めすることは許されない」という感情が発端になっているのだろう。



<参考>

  1. 強すぎて(?)理解不能なレベル ~「AlphaGo」同士のセルフ対局の棋譜が50局だけ公開(窓の杜)
    https://forest.watch.impress.co.jp/docs/serial/yajiuma/1062703.html
  2. 産業ビッグデータ、「認定バンク制」を創設へ(日本経済新聞)
    https://www.nikkei.com/article/DGXLASFS17H05_Q7A920C1EE8000/
  3. フェイスブックの「いいね」で性格が分かる?英米研究(AFP)
    http://www.afpbb.com/articles/-/3036333
  4. データ分析の歴史とビッグデータ(大和総研)
    https://www.dir.co.jp/report/column/111018.html
  5. データマイニングとは(Albert)
    https://www.albert2005.co.jp/knowledge/data_mining/data_mining_basics/about_data_mining
  6. 5分で分かるオープンデータ (1/5)(@IT)
    http://www.atmarkit.co.jp/ait/articles/1407/14/news006.html
  7. NoSQLデータベース ― 定義と解説(DATASTAX ACADEMY)
    https://academy.datastax.com/planet-cassandra/what-is-nosql-jp
  8. 分散処理技術「Hadoop」とは(NTT DaTa)
    https://oss.nttdata.com/hadoop/hadoop.html
  9. コラム:フェイスブックCEO、公聴会で犯した「痛恨のミス」(ロイター)
    https://jp.reuters.com/article/column-facebook-idJPKBN1HJ0BC
シェア

役にたったらいいね!
してください

シェアする

  • RSSで記事を購読する
  • はてなブックマークに追加
  • Pokcetに保存する