近年、注目されている人工知能を実現する主要な技術として機械学習が挙げられる。画像解析や自然言語などの様々な分野において人間が詳細な規則や判別条件を定義することなく、機械学習によってコンピュータが大量のデータからそれらを学習し人間同様の判断や応答、予測が可能となっている。機械学習の技術は全世界で日々進展しており、判別・認識・予測だけでなく画像や文章の生成も可能になりつつある。また、機械学習を利用した自動運転自動車やロボットなどの製品開発競争も激しさを増しており、機械学習が人間の生活を急速に変える可能性も高まってる。以下では、機械学習の概要とその働きについて説明する。
1章 機械学習の概要
機械学習とは文字通り、機械(ここではコンピュータ)が自ら学習する理論・技術を指す。一般的には、機械学習は計算手順を示すアルゴリズムで表現される。以下では画像認識を例に説明する。物体を外観で捉えた場合、形や色や大きさなどの物体の特徴量が表現される(特徴量には言葉では表現できないものもある)。特徴量は物体の種別ごとに固有のものと考えられており、種別ごとの特徴量をパターンと呼ぶ。様々なパターンを含む大量のデータに対する処理を繰り返すことでパターンの違いや、モデルと呼ばれるパターンと物体の組み合わせを判別する枠組みを獲得していく過程を学習と呼ぶ。学習が済んだモデルに画像を入力することで画像内の物体を分類、区別する画像認識を実行する。
2章 機械学習と人工知能の関係
人工知能は大きな概念であり、方法は問わず人工的に構築された知能または知能を有する対象を指すが、その概念を実現する理論・技術の一つが機械学習という学問分野である。近年、人工知能が注目されている背景には、機械学習の発展、技術革新があり、最近語られる「人工知能」という文脈の大部分は「機械学習」と置き換えても問題ない。現在は、バズワードとして人工知能という言葉が流行しているが人工知能という言葉は非常に大きく、曖昧な概念であるため、機械学習研究者は「人工知能」という言葉ではなく明確に「機械学習」という言葉で議論、発信する場合が多い。
3章 機械学習の進化
機械学習理論は確率統計学のベイズ定理に基づいている。ベイズ定理は18世紀にトマス・ベイズによって研究され、19世紀にラプラスによって発展、定理として示された。機械による学習という概念は、1950年にアラン・チューリングによって「learning machine」という考えで示された。最初に学習するアルゴリズムが考えられたのは1951年であり、マービン・ミンスキーが最初のニューラルネットワークを開発し学習させることに成功した。以降2度のブームがあり、その過程で現在の機械学習進化の基礎となる、ネオコグニトロン(1980年 福島邦彦)や、リカレント・ニューラルネットワーク(1982年 ジョン・ホップフィールド)、バックプロパゲーション(1986年 デビッド・ラメルハート、ジェフリー・ヒントンetc.)、強化学習(1989年 クリストファー・ワトキンス)などが示された。当時は計算機能力が低く、データ量も少なかったため実施例として示されたものも単純なものが多く、実用化可能なものはなかった。しかし、1990年〜2000年代にかけてインターネットが普及するに伴い全世界の研究者が共同で機械学習向けデータ・セットをインターネット上で整備ことが可能になり、かつ、GPUなどのコンピュータ・ハードウェアの高性能化・低価格化が進むことで、機械学習理論の検証が進んだ。2012年には深層学習理論が発表され、従来の機械学習の精度を大きく上回ることが世界中で話題になった。
4章 機械学習の種類
機械学習は、以下の3種類に大別される。
・教師なし学習
・教師あり学習
・強化学習
「教師なし学習」は主に分類に利用される。例えばこの中の物体を指定された数(ハイパーパラメータと呼ぶ)に分類する、または、アンケートの自由欄の内容を指定された数に分類するなどの課題に利用される。「教師なし学習」には主にk-meanアルゴリズムなどが利用されるが、ハイパーパラメータもデータから適切に決定するLDA(Latent Dirichlet Allocation)のような高度なアルゴリズムもある。その対象となる物体の外観、情報などのデータから特徴量を抽出しその特徴に応じて分類するということである。多くのデータに対して繰り返し分類処理を実行することで、全体として適切に分類できるようになる。「この特徴量はこう分類するべき」という個々の正解(教師データやラベルと呼ばれる)が与えられなくとも、分類処理が実行できるというのが特徴である。図1は、トマト、メロン、スイカ、トウガラシの集まりがあり、これらを名称は関係なく形と色の特徴で3つのグループに分類したイメージを示している。種類は4種類あるが、形と色で3つに分けようとするとメロンとスイカの特徴は近くなり、図の右下に位置づけられる。
「教師あり学習」は個々の物体や情報などを区別し認識するために利用される。教師あり学習には正解データが必要であり、コンピュータが様々なパターンに対して正解を出力できるよう出力と正解の誤差が最小となるように繰り返し学習が実施される。近年注目されている深層学習は教師あり学習を実現するアルゴリズムの一つである。教師あり学習の過程でも部分的に教師なし学習が行われている場合もあるが、教師なし学習、教師あり学習の区別は学習アルゴリズムが目的とする正解データを必要とするか否かで区別される。
強化学習は行動(アクション)を決定する方策(ポリシー)を獲得する課題に利用される。強化学習は、一連の行動(エピソード)の結果得られる報酬を最大にすることを目的とする。図2に示すように、強化学習はゲームのルールや時々刻々変化する相手の挙動など表現困難、想定不能な環境条件をコンピュータが必要としない。強化学習は時刻tの状態に基づく方策で決定された行動を環境に及ぼすことで時刻t+1またはエピソード終了後に得られる報酬の最大化を指標とし、繰り返し試行することで最適なポリシーを学習により獲得する。囲碁において人間の名人に勝利し一躍有名になったAlphaGoのコアアルゴリズムも強化学習である。強化学習は、現在の状態、報酬と方策に基づいて、将来の報酬を最大化するように次の行動を決定するという再帰的なアルゴリズムであるため、教師なし学習、教師あり学習とは異なり逐次のオンライン学習が可能である。最新の強化学習アルゴリズムは、内部で行動価値関数(Q関数)を近似するために深層学習を利用している。
著名な機械学習研究者でありFacebook人工知能研究所のディレクタを務めるヤン・レカンは講演の中で「知能をケーキに例えるなら、教師なし学習は本体であり、教師あり学習はケーキの飾り、強化学習はケーキ上のサクランボぐらいである。私達はケーキの飾りやサクランボの作り方はわかってきたがケーキ本体の作り方はわかっていない」と述べており、機械学習で人間のような人工知能を実現するために今後、重要となるのは教師なし学習の進展であると考えられている。
5章 まとめ
人工知能を実現する技術の中で最も有力な技術は、近年進展が著しい機械学習である。機械学習は、人間の感覚の一つである視覚をコンピュータにより実現することを目指す中で理論的に発展してきた。1980年代までは、理論が中心であったが、インターネットの普及とコンピュータ性能が向上かつ低価格化したことにより、大量のデータと計算能力を得ることができるようになり急速に進展している。
機械学習は、学習方法により大きく3つに分けられるが、アルゴリズム的に全く異なるものではなくその過程では別な学習方法を内包することもある。それぞれの学習方法を組み合わせることで、将来的には多くの分野に対して人間の様に自律的な学習ができるように発展していくことが期待されている。
<関連記事>
世界中で利用される機械学習向けのオープンソース「TensorFlow」とは何か
機械学習モジュール群を組み合わせて、最適なソリューションを提供するPKSHA Technology
<参考>
- 機械学習の歴史(AI.doll)
http://doll.hatenadiary.com/entry/2018/05/16/164558 - Reinforcement Learning: An introduction Richard S. Sutton and Andrew G. Barton The MIT Press
- Predictive Learning Yann Lecun 20161205 Nips Keynote(SCRIBD)
https://ja.scribd.com/document/363942751/Lecun-20161205-Nips-Keynote
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。