画像認識

人工知能を支える「画像認識」とは?歴史や基本技術を解説

人工知能を搭載した製品が身近な存在となり、頻繁に耳にする「画像認識」という言葉。その画像認識がどのような技術であるのか?発展の歴史を振り返りながら解説をする。

シェアする

画像認識とは、静止画や動画などの「画像データ」から特徴を抽出し、対象となるものが何かを判別し、認識する技術のことである。人間の場合、目の前にあるものが何かを自らの経験知に照らし合わせて、その特徴などから判別し、認識することができる。例えば「シマウマ」であれば「シマシマ」がある「ウマ」として、体表面の縞模様やウマとしての特徴などから判別することができるが、コンピューターの場合にはこれができない。

画像認識

画像認識技術の歴史的な発展の経緯

コンピューターに人間と同じような判別と認識を行わせるための技術が「画像認識」ということになる。この「画像認識」の技術がどのような経緯で発展してきたのか、その歴史を振り返る。

画像認識のはじまりと停滞期

画像認識のはじまりには諸説ある。最も古いものをとれば1940年代にまでさかのぼることができる。「バーコード」の研究がそれである。バーコードは1949年にアメリカの大学院生が発明し、1952年に特許を取得されており、バーコードを画像データの一種としてとらえる場合には、最も古い画像認識技術の応用と言える。 より現代の画像認識に近い「画像データ」を取り扱った画像認識の研究は「顔認証システム」であり、その研究は1964年にはスタートしていた。だが、当時のコンピューターのスペックはまだまだ十分なものではないうえに、非常に高価なものであったために、一般的に普及するようなことはなく停滞期を迎えるのであった。

画像認識技術の一般への普及:2000年以降

その後、1990年代の後半から2000年代にかけてデジタル機器の技術革新が進むと同時に、インターネットの世界的な発展を背景に画像認識技術も一般的な存在として応用範囲が広がった。その実例が「デジタルカメラ」や「ネットでの画像検索」などである。

画像認識技術のブレイクスルー「Deep Learning」の登場

そして画像認識の歴史において決定的となった出来事が2012年に起こる。世界的な画像認識のコンペティションである「ILSVRC(Imagenet Large Scale VisualRecognition)2012」で、トロント大学の研究チームが開発をした「Super Vision」というシステムが圧倒的な勝利を収めたのである。このコンペでは、対象物が何かをコンピューターが自動で判別、認識をする正答率を競うもので、1000万枚の画像データから、15万枚の画像を使用して実施された。実際のコンペでは「エラー率の低さ」が評価されるのだが、トロント大学以外のエラー率が26%台であったのに対して、トロント大学は15%台と10%以上もエラー率を改善したのである。 このときにトロント大学が使用していた技術が「Deep Learning」である。翌年以降は、各チームがDeep Learningを用いることとなり、エラー率は年々低下を続け、現在では5%以下と既に人間のレベルを超える領域に達している。

画像認識技術の仕組み詳細

画像認識が行われる仕組みについて解説をする。画像認識の流れは、人間のそれと同じとなる。目の前にある「対象物」を捉え、何であるか「特徴」をもとに判別・認識をする、この流れをコンピューターが自動で行う。この流れで重要な役割を果たすのが「機械学習」と呼ばれる技術である。「機械学習」とは、コンピューターが自ら学習をしていくシステムのことである。

コンピューターが画像データを捉えたとき、コンピューターにとってはピクセルデータの集合体としてしか認識をすることができない。これを人間と同じように画像ごとの特徴から自動的に何が写っているのかを認識できるようにするために必要となるのが「機械学習」である。
コンピューターに膨大な量の画像データと画像データが何かを示すデータを与えることで、そこから機械学習を用いてデータごとの特徴を抽出し、最終的には「画像データ」を「特徴」から「何であるか」認識できるようになる。

従来の機械学習では、この特徴抽出に関して全てをコンピューターのみで行うことが難しかった。そのため、人間の学習での「教師」にあたる役割を人間が勤め、中間段階で「特徴データ」を人間が与えることが必要であった。しかし、前述の「Deep Learning」を用いることで、「特徴データ」もコンピューター自らが抽出をし、自ら学習を進めることが可能となった。現在の画像認識においては、ある画像データをコンピューターに入力をすれば、自ら学習をした特徴表現などをもとに識別を行うことができ、その正答率は95%以上となっている。さらにそこから得た特徴データをもとに新たな学習作業をコンピューターが行う仕組みにまで発展をしているのである。

画像認識の実社会への応用方法

このような画像認識技術を用いた実用例をいくつか紹介する。

自動運転技術

画像認識技術を応用し、実用化に向けた実証実験が進んでいる分野のひとつが「自動運転(走行)」である。文字通り自動車などを人間が操作することなく自動で運転させる技術である。ここで使用される「画像認識」は、風景として捉えられる画像データを認識することで、目的地まで安全に走行することができるための基本技術となっている。実際に日本国内においても、DeNAなどいくつかの企業が公道での実証実験を行っており、部分的な実用化も進んでいる。

ドローンによる自動配達技術

ドローンを用いた自動配達に関しても画像認識技術が用いられている。
Amazonなどがアメリカにおいて実際にドローンによる自動配達を実験している。ドローンに搭載された画像認識技術により、配達先に関する情報を正確かつ自動認識をすることで、人間を介さずに商品配達を実施できるロジスティクス改革を目指している。日本国内においても、ソフトバンクや楽天などが同様の計画を発表している。

Pepper:パーソナルロボット

既に街中などで触れることができるものとしては、パーソナルロボットが存在している。ソフトバンクが取り扱いをしている「Pepper」が最も認知度が高いが、人間とコミュニケーションを取ることができるロボットであるPepperは、目の前の人間に関する表情などの情報を認識し、その場に応じたコミュニケーションを自ら判断し行うことができる。

まとめ

デジタルカメラやスマートフォンなどの身近な家電製品から自動車やドローンなどの自動運転のような先端技術まで幅広く活用されている「画像認識」の技術。そのブレイクスルーとして登場した「Deep Learning」により飛躍的な発展を遂げ、今後さらなる技術革新と新たな日常応用が期待されている。人工知能技術の根幹をなすシステムのひとつである「画像認識」の今後の発展が、人工知能の発展や日常製品への応用を促進するものと考える。


<参考>

    1. 【事例付き】様々なサービスに活用!画像認識技術とは (TechAcademyマガジン)
      https://techacademy.jp/magazine/17068
    2. 実は長い歴史が?画像認識システムの開発と機能 (株式会社METHODホームページ)
      http://www.greengate-japan.com/rekishi.php
    3. 『人工知能は人間を超えられるか ディープラーニングの先にあるもの』(松尾 豊 著)
シェア

役にたったらいいね!
してください