人工知能、統計、ビッグデータ

AIの賢さを支えているものはなんなのか

AIはなぜこれほど賢いのだろうか。どのような技術や考え方や仕組みがAIを支えているのだろうか。この点を掘り下げていくとAIの現在の限界と将来の可能性がみえてくる。

シェアする

最近のAI(人工知能)の進化をニュースで見聞きしている人は、「AIはとてつもなく賢い」という印象を持っているのではないだろうか。しかしAIの専門家のなかには「現代のAIはまだ人間に追いついていない」と言う人もいる。どちらが正しいのだろうか。

どうも、どちらも正しいようである。

日本の代表的なロボット像といえば、鉄腕アトムとドラえもんである。とりあえず、ジェットで空を飛んだり、四次元ポケットから便利道具を出したりする能力を除外すると、この2体のロボットは「差」が大きい。

アトムは天才科学者お茶の水博士と難しい議論を難なくこなすが、ドラえもんは小学生ののび太君との会話がやっとである。

アトムは「ロボットなのに」冷静な判断をして地球の平和を守る使命を持っているが、ドラえもんは「ロボットなのに」ドジなところもある。

現代のAIも同じ現象が起きていて、「ものすごく賢いAI」と「普通の賢さのAI」が存在する。この「差」はAIに「搭載されているもの」の違いから生じる。

そこで今回はAIに搭載されているものやAIの仕組みについて見てみることにする。

人工知能、統計、ビッグデータ

ビッグデータとAI

AIを賢くするうえでビッグデータは欠かせない。賢さはさまざまな要素から成り立っているが、知識量は間違いなく賢さの要素の1つであろう。例えば、いろいろな物事について知っている人は賢い、と評価される。

AIが2010年代に爆発的に成長したのは、知識量が増えたことも大きい。つまり従来のAI開発では、AIに与える知識が少なかったがゆえにAIが賢くなれなかった、ともいえるのである。

では2010年近辺に何が起きたかというと、ビッグデータの誕生である。ビッグデータとはいわば「けた外れに大量の知識」である。AIはビッグデータによって飛躍的に賢くなったのである。

ビッグデータには、使えるビッグデータと使えないビッグデータの2種類がある。使えないビッグデータとはただ存在するだけで、コンピュータが利用できる形になっていないものだ。

例えば「空き地の雑草の成長」は、データとしては存在している。例えば2月にその空き地を一度見た人が、7月に再び訪れて空き地を見れば「雑草が伸びた」と分かるので、空き地の雑草のデータは存在していることになる。しかしこの雑草データは、コンピュータは使えない。コンピュータに雑草の成長スピードを求めさせるには、草1本1本がどのように成長しているかを明らかにしなければならない。

では空き地に3,000台の定点カメラを設置して、すべての雑草の成長をデジタル画像で撮影し、それをインターネットでコンピュータに自動送信したらどうだろうか。コンピュータはデジタル画像なら解析できるので、成長の様子を記録することができる。よって、雑草の成長スピードを求めることもできる。なんなら雑草の種類を言い当てることができる。

これが使えるビッグデータである。

この場合、使えないビッグデータを使えるビッグデータに変換したのは、「3,000台の定点カメラ」「デジタル画像」「ネット送信」「コンピュータ解析」「雑草の種類判別」であり、これらはIT技術やIoT(モノとネット)技術と呼ばれる。

つまりAIが賢くなるには、使えるビッグデータを大量につくる必要があり、使えるビッグデータをつくるにはIT技術とIoT技術が不可欠なのである。

Linked Open DataとAI

次に注目する「AIを賢くするもの」は、LOD(Linked Open Data)である。

LODを簡単に説明するとこうなる。

・ウェブ上に公開されたデータを共有する手段
・公開されている無数のデータを結びつける技術

LODのこの2つの定義を理解するには、データと情報の違いを知っておく必要がある。

データと情報は、同じであり異なる。データと情報が持つ価値は同等だが、プログラマーやエンジニアや専門家ではない一般の人は、データを示されてもそれが意味することは理解できない。しかし例えば「タンポポは黄色い」という情報は、コンピュータは理解できない。そこで「タンポポは黄色い」という情報をデータに変換してコンピュータに入力しなければならない。

情報は人が理解しやすい形態、データはコンピュータが理解できる形態、というわけである。

さて、LODが持つ「ウェブ上に公開されたデータを共有する手段」がなぜ重要なのかというと、ウェブ上ではいま、データ(情報)があふれかえっている状況だからだ。データ量の多さはAIを賢くするうえで不可欠だが、データの保管状況があまりに混沌としていては使いようがない。そこでLODの技術を使って、誰もが使えるようにデータを整理しておく必要がある。

LODはさらに「公開されている無数のデータを結びつける」こともしてくれる。

例えば、アメリカのアウトドアメーカーがとても魅力的なテントを1,000ドルでネット販売していたとする。それとまったく同じ商品を、日本のアウトドアショップが15万円でネット販売していたとする。

この場合、アメリカで買って個人輸入するか日本のサイトで購入するか迷っている消費者には、「アメリカで1,000ドル」というデータと「日本で15万円」というデータを結びつけるだけでは足りない。

そこでLODの技術を使えば、「アメリカの消費税」のデータや「アメリカから輸出するときの手数料」のデータ、「空輸費」のデータ、「日本に輸入するときの手数料」のデータ、「国内宅配の輸送料」のデータを「結びつける」ことができる。

こうして初めて、アメリカで買うか日本で買うか迷っている人にとって有益なデータ(情報)が生まれるのである。

オントロジーとAI

オントロジー(存在論)とは、元々は哲学の用語である。「存在しているそのもの」について考えるのではなく、存在しているそのものを「存在させるもの」を考える。または存在しているそのものが「存在している意味」も検討の対象にしている。

AI分野では、オントロジーは「概念化の仕様」と理解されているが、これでは難解である。そこで「オントロジーなAI」を理解するには、まずは「オントロジーではないAI」を知っておいたほうがよい。

オントロジーではないAIでは、論理やフレーム、ルールが使われてきた。しかし論理やフレームやルールでは、次のような限界が見えるようになってきたのである。

・全体に対して配慮がなされていない
・網羅することに配慮がなされていない
・体系的にとらえることに配慮がなされていない

このような限界がどのような支障を生むのかみていく。

例えば、収穫したバナナを自動で選別するAIをつくるとき、バナナの色や形、重量についてAIが判別できれば、そのAIは「バナナ選別機として使える」と評価できる。

しかしこのバナナ選別機は、生産者や生産地などの情報は無視してしまう。それではこのバナナ選別機は「バナナ消費全体について配慮されていない」ことになってしまう。

またこのバナナ選別機が台湾産バナナを選別できたとしても、フィリピン産バナナを選別できなければ「世界のバナナを網羅できていない」ことになる。

最後に「体系的にとらえること」についてだが、人がバナナを見ると「果物の一種であるバナナがある」と認識する。この認識が可能になるのは、人が、バナナを果物という体系のなかにおいて観察する訓練を受けているからである。

つまり人は「最近、果物を摂っていないからビタミン不足が心配だ。ちょうどここにバナナがある。これを食べてビタミン不足を補おう」と考えるが、バナナ選別機は特段「バナナは果物である」とは考えずに、次々とバナナを選別していく。

このように、非オントロジー型AIはデータ(情報)の価値を最大化できていない。この限界を超えるために、オントロジーの考え方を導入したわけである。

AIがオンコロジーを獲得すれば、次のようになる。

・全体に対して配慮がなされる
・網羅することに配慮がなされる
・体系的にとらえることに配慮がなされる

もしAIがこのようにデータをとらえることができれば、知識の共有と再利用が進み、データ(情報)の価値は格段に高まることになる。

統計モデルとAI

AIが今日飛躍的に発展したのは「機械学習」を搭載したからだと考えられている。

そのため「統計モデル」を使った従来型のデータ処理は、時代遅れであるとの認識を持つ人も少なくない。

しかし機械学習によるAIの「賢さ」と、統計モデルを使ったデータ処理の「便利さ」は、実は甲乙つけがたい。

統計モデルは確かに「賢さ」に限界がある。しかし機械学習のほうも、新しいがゆえに貴ばれているが、まだ「便利さ」が足りない。

例えば囲碁で世界チャンピオンを倒したAIは、「ここに1時間後に雨がふるかどうか」すらわからない。それどころか、将棋すらできない。

一方、従来型の統計モデルは、現在社会の基盤となっている。

では統計モデルと機械学習はまったく別々に発展しているものかというと、そうではない。

それは、統計モデルはすでに存在するデータのなかから傾向を見出すのが得意で、機械学習はデータのなかから異常値を見分けるのが得意だからだ。お互いに得意分野を持ち寄ることで「賢くて便利なもの」ができあがる。

ビジネスシーンで考えてみよう。

例えば国勢調査では大量のデータを集める。統計モデル型のデータ処理を使えば、「いまの日本は前回調査より〇〇になった」という傾向を割り出すことができる。

この傾向は、例えばビジネスシーンにおいて非常に重要な情報であるが、しかし最近の「ワン・トゥ・ワン(One to One、1人ひとりに合わせたマーケティング)」型のビジネスには対応できない。

そこで機械学習を使って、国勢調査の膨大なデータから特異な情報を取り出して「この人はAという志向があるのでaという商品をほしがるだろう」ということを分析するのである。そうすればその人に商品aの広告を提供でき売り上げが伸びる。

もちろん現行の法律では、国勢調査の結果をそのようなビジネスに使うことは許されていないが、公共機関が抱えるそのほかのビッグデータを商用利用する動きはすでに始まっている。

このようにAIや機械学習がどれだけ発達しても、統計モデルによるデータ処理技術が廃れることはない。

またAIが個別な事象に関心を深めるほど、全体の傾向を大づかみできる統計モデルはいままで以上に重要性を増すだろう。

まとめ~細かい技術と新しい発想を集約したもの

AIの発展はこれまでもこれからも、1つひとつの細かい技術の積み重ねとこれまでにない新しい発想の導入にかかっている。そういった意味では、自動車や家電やスマホなどのモノづくりと同じだ。

AIが自分勝手に進化して、ネットの世界からどんどん情報を吸い取り、人間をコントロールする世界になるのは、まだ時間がかかりそうだ。


<参考>

  1. ビッグデータ×AIがもたらす価値とは(日立製作所)
    http://www.hitachi.co.jp/products/it/bigdata/bigdata_ai/index.html
  2. LODって?(富士通研究所)
    http://www.fujitsu.com/jp/group/labs/resources/tech/techguide/list/lod/p04.html
  3. 人工知能におけるオントロジーとその応用(武田英明、国立情報学研究所)
    http://www-kasm.nii.ac.jp/papers/takeda/01/JSIKtakeda.pdf
  4. 最近流行の機械学習、高度な統計処理との違いはどこにあるのか(ZDNet Japan)
    https://japan.zdnet.com/article/35070566/
シェア

役にたったらいいね!
してください