ディープラーニングの画像認識の国内事例

現在、人工知能に基づく技術を導入する企業が増えている。2018 年現在まだ完全なる人工知能の開発はされていないが、研究の中で生まれた「検査エンジン」や「音声認識」は私たちの手のひらに収まるデバイスの中にも組み込まれている。

なかでも、「画像認識」技術の発展は特に著しい。この技術によって、例えば、今までに貰った名刺は手入力でコンピュータ上に収めるのが主流であったが、今では自動で“文字を認識”しテキストとしてディスプレイの向こう側に現れる。この技術は既に企業で導入され、完全実装されている。また、わざわざ人間の手を加えなくても機械が自動的に“学習”を行い、提示された画像に写る被写体の様々な分析を行ってくれるのだ。

21世紀を生きる私たちは今、新しい“産業革命”を迎えようとしている。これからの時代は人間が覇権を握るのではなく、人間と機械が互いにタッグを組み、極上の効率を求めてタスクを行う時代になるであろう。どのような革新が起こっており、また、これから起こるのか。「画像認識」の括りの中で見ていこうと思う。

画像認識とはなにか。ディープラーニングがどのようにして使われているのか。

AI の世界で云われる「画像認識」というのは、その画像に移っている対象物が何を示しているのか、人間が教えることなしに機械が特定するものである。例えば、Googleは2012年にディープラーニング技術を使って 16,000個ものコンピュータ・プロセッサを繋いだニューラルネットワーク(Google Brain)を構築した。これによって YouTube上に投稿されている動画からキャプションされた静止画を抽出し、それを参考に「猫」や「人」の顔などの視覚的概念(顔のパーツなど)を学習することに成功。人間が直接手を加えることなく、コンピュータが自力でいくらかの概念を学び取った事実は全世界に大きな影響を与えた。ディープラーニングの技術を用いて生まれた画像認識という分野は、今後様々な画像診断や防犯画像の認識、自動運転などへの応用に直結するため研究が盛んな技術といえる。

実例1 Facebook社の画像認識技術

2016 年の8月25日にアメリカの Facebook 社が、同社の人工知能研究機関である「Facebook AI Research(FAIR)」で研究している画像認識における技術「DeepMask」「SharpMask」「MultiPathNet」をオープンソース化した。まだ、開発が完了いていない段階での公開で、外部研究者からの援助を受けながら品質を向上させるのが主な目的であった。FAIR に所属しているピョートル・ダラー氏によると、人間の目に見えている画像とコンピュータの“目”で見えている画像というのは、例えそれが同様に確からしいものだとしても見え方が全く異なるという。というのも、コンピューターの場合、画像というのは“ピクセルの集合体”でしかなく、人間のようにそれが集まってなにを表しているのか(その画像がなにを表しているのか)を認識することはなかった。

しかし、FAIR が公開した3つの技術が完成し、それらで構成される1つのシステムが形成されれば、画像の中からオブジェクトを抽出し、それぞれにラベリング(タグ・名前付け)することが可能になるというのだ。「DeepMask」が画像の中に移っている被写体を抽出し、「SharpMask」がその輪郭を描き、「MultiPathNet」がそれを解析する。これによって、実際にキリンやシマウマ、人間やベンチを特定させることができた。

ダラー氏によると、今後はこれらの技術を拡張現実(AR)と統合させて商業や医療の分野で活用させることを視野に入れている。例えばスマートフォンが料理を映したときに、カロリーを画面上に(自動的に)表示させたり、洋服や家具を映しだした時に商品名や価格が表示され、「今すぐ購入する」ボタンを表示するといったサービスが考えられるという。

また、技術がより発展されれば生放送(配信)されている映像にナレーションを自動的に付け加えられるようになるようだ。人間が捉えることができる選手の表情や現時点での記録のみならず、その技術を用いることで、例えば膝にどれだけの負荷が掛かっていてどれだけの体力が残っているのか、また、回避策としてどのような方法があるのかといった人間ではなかなか解らないことも分析してくれるため、実況にもこの技術は有効なのである。

実例2　Microsoft社の画像認識技術

MicrosoftはAzureというIT 関係のプロフェッショナルや開発者に向けたサービスを展開しており、現在は高品質なアプリケーションを迅速に市場へ投入することを手助けしている。また、アプリケーションの開発や管理等に使用できる包括的なクラウドサービスを提供している。

サービスの一環に Computer Vision API があり、利用者から預かった画像を分析して情報を抽出し、その情報をファイリング及び処置することが可能だ。この技術を利用することによってタグ付けや説明がより詳しい且つ正確になり、また、アダルトコンテンツに対する設定を適用すれば、そのようなコンテンツに対して自動的に制限を掛けることができるのである。

また、画像内に組み込まれているテキストや、メモ・ホワイトボード・レポートなどに書かれている手書きのテキストを、光学式文字認識やテクノロシー゙(手書き文字認識)技術を使うことによって自動的に文字を認識しコンピュータ上に反映させることができる。テキストのコピーをする代わりに画像を反映させることで、時間の節約を図ることが可能なのだ。

また、Microsoft Researchが開発した新しい技術に「ドローイングボット」がある。この技術は、文章から画像を生成することを可能とし、例えば「胴体は黄色、羽は黒くちばしは短い鳥を書いてください」と指示を出せば、自動的に輪郭が描かれ、色が塗られ、光の反射の表現を加え、その鳥が止まっている木の枝を描く。

この技術によって、将来的にはインテリアデザイナーや画家の補助や音声による写真編集ツールなどへ応用を利かすことができる。さらに、台本を参考にアニメーションが自動生成されるなど、今では専門的な知識を持ち合わせた人でないとなかなか出来ない作業をより身近なものにしてくれる。

Microsoft Research 深層学習技術センターの主任研究員兼リサーチマネージャーのチアドン・ホーは「AIと人間が共に存在し続けるためには、お互いのやり取りが重要です。そして、そのやりとりをする際に最も重要な要素が言語と画像なのです。」と言う。

まとめ

一般に「画像認識」というのは文字の認識であったり、画像の中に写っている人物を機械が特定したりすることを指すときに使われるのだが、今よりもう少し後の未来では、この技術の発展がより大衆向けのものになっていることであろう。科学技術の社会実装というのは大抵、1つひとつの技術が組み合わさって実際にそれが使われることが多い。

Facebookの事例で見た通り、今後は画像認識の技術に加えて拡張現実(AR)とリンクすることによってスマホ上で簡単にそれを購入することができるという記述があったのだが、一方ではスマホ上ではなく AR 技術を搭載した特殊な眼鏡を通じて購入を可能にさせるというプランも実装されようとしている。

少し前まで夢のように語られていた技術は現実のものとなり、新しい産業革命が起ころうとしている。その一端を担っている「画像認識」の利点の活用を検討してみてはいかがだろうか。

<参考>

1.『AI の衝撃人工知能は人類の敵か』(小林雅一著独立行政法人情報処理推進機構 AI 白書編集委員会編）
2.『AI 白書 2017 人工知能がもたらす技術の革新と社会の変貌』(アスキー総合研究所)
3. 文章から画像を生成するボットを開発 (Microsoft)
https://news.microsoft.com/ja-jp/2018/01/25/180125-drawing-ai/
4.Facebook、AI画像認識技術「DeepMask」などをオープンソース化 (IT media NEWS)
http://www.itmedia.co.jp/news/articles/1608/29/news051.html

役にたったらいいね！
してください

NISSEN DIGITAL HUB編集部

NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。

画像認識とはなにか。ディープラーニングがどのようにして使われているのか。

実例1 Facebook社の画像認識技術

実例2 Microsoft社の画像認識技術

まとめ

カテゴリー

注目記事

実例2　Microsoft社の画像認識技術