現在、人工知能に基づく技術を導入する企業が増えている。2018 年現在まだ完全なる人工知能の開発はされていないが、研究の中で生まれた「検査エンジン」や「音声認識」は私たちの手のひらに収まるデバイスの中にも組み込まれている。
なかでも、「画像認識」技術の発展は特に著しい。この技術によって、例えば、今までに貰った名刺は手入力でコンピュータ上に収めるのが主流であったが、今では自動で“文字を認識”しテキストとしてディスプレイの向こう側に現れる。この技術は既に企業で導入され、完全実装されている。また、わざわざ人間の手を加えなくても機械が自動的に“学習”を行い、提示された画像に写る被写体の様々な分析を行ってくれるのだ。
21世紀を生きる私たちは今、新しい“産業革命”を迎えようとしている。これからの時代 は人間が覇権を握るのではなく、人間と機械が互いにタッグを組み、極上の効率を求めてタスクを行う時代になるであろう。どのような革新が起こっており、また、これから起こるのか。「画像認識」の括りの中で見ていこうと思う。
画像認識とはなにか。ディープラーニングがどのようにして使われているのか。
AI の世界で云われる「画像認識」というのは、その画像に移っている対象物が何を示しているのか、人間が教えることなしに機械が特定するものである。例えば、Googleは2012年にディープラーニング技術を使って 16,000個ものコンピュータ・プロセッサを繋いだニューラルネットワーク(Google Brain)を構築した。これによって YouTube上に投稿されている動画からキャプションされた静止画を抽出し、それを参考に「猫」や「人」の顔などの視覚的概念(顔のパーツなど)を学習することに成功。人間が直接手を加えることなく、コンピュータが自力でいくらかの概念を学び取った事実は全世界に大きな影響を与えた。ディープラーニングの技術を用いて生まれた画像認識という分野は、今後様々な画像診断や防犯画像の認識、自動運転などへの応用に直結するため研究が盛んな技術といえる。
実例1 Facebook社の画像認識技術
2016 年の8月25日にアメリカの Facebook 社が、同社の人工知能研究機関である 「Facebook AI Research(FAIR)」で研究している画像認識における技術「DeepMask」 「SharpMask」「MultiPathNet」をオープンソース化した。まだ、開発が完了いていない段階での公開で、外部研究者からの援助を受けながら品質を向上させるのが主な目的であった。FAIR に所属しているピョートル・ダラー氏によると、人間の目に見えている画像とコンピュータの“目”で見えている画像というのは、例えそれが同様に確からしいものだとしても見え方が全く異なるという。というのも、コンピューターの場合、画像というのは“ピクセルの集合体”でしかなく、人間のようにそれが集まってなにを表しているのか(その画像がなにを表しているのか)を認識することはなかった。
しかし、FAIR が公開した3つの技術が完成し、それらで構成される1つのシステムが形成されれば、画像の中からオブジェクトを抽出し、それぞれにラベリング(タグ・名前付け)することが可能になるというのだ。「DeepMask」が画像の中に移っている被写体を抽出し、「SharpMask」がその輪郭を描き、「MultiPathNet」がそれを解析する。これによって、実際にキリンやシマウマ、人間やベンチを特定させることができた。
ダラー氏によると、今後はこれらの技術を拡張現実(AR)と統合させて商業や医療の分野で活用させることを視野に入れている。例えばスマートフォンが料理を映したときに、カロリーを画面上に(自動的に)表示させたり、洋服や家具を映しだした時に商品名や価格が表示され、「今すぐ購入する」ボタンを表示するといったサービスが考えられるという。
また、技術がより発展されれば生放送(配信)されている映像にナレーションを自動的に付け加えられるようになるようだ。人間が捉えることができる選手の表情や現時点での記録のみならず、その技術を用いることで、例えば膝にどれだけの負荷が掛かっていてどれだけの体力が残っているのか、また、回避策としてどのような方法があるのかといった人間ではなかなか解らないことも分析してくれるため、実況にもこの技術は有効なのである。
実例2 Microsoft社の画像認識技術
MicrosoftはAzureというIT 関係のプロフェッショナルや開発者に向けたサービスを展開しており、現在は高品質なアプリケーションを迅速に市場へ投入することを手助けしている。また、アプリケーションの開発や管理等に使用できる包括的なクラウドサービスを提供している。
サービスの一環に Computer Vision API があり、利用者から預かった画像を分析して情報を抽出し、その情報をファイリング及び処置することが可能だ。この技術を利用することによってタグ付けや説明がより詳しい且つ正確になり、また、アダルトコンテンツに対する設定を適用すれば、そのようなコンテンツに対して自動的に制限を掛けることができるのである。
また、画像内に組み込まれているテキストや、メモ・ホワイトボード・レポートなどに書かれている手書きのテキストを、光学式文字認識やテクノロシー゙(手書き文字認識)技術を使うことによって自動的に文字を認識しコンピュータ上に反映させることができる。テキストのコピーをする代わりに画像を反映させることで、時間の節約を図ることが可能なのだ。
また、Microsoft Researchが開発した新しい技術に「ドローイングボット」がある。この技術は、文章から画像を生成することを可能とし、例えば「胴体は黄色、羽は黒くちばしは短い鳥を書いてください」と指示を出せば、自動的に輪郭が描かれ、色が塗られ、光の反射の表現を加え、その鳥が止まっている木の枝を描く。
この技術によって、将来的にはインテリアデザイナーや画家の補助や音声による写真編集ツールなどへ応用を利かすことができる。さらに、台本を参考にアニメーションが自動生成されるなど、今では専門的な知識を 持ち合わせた人でないとなかなか出来ない作業をより身近なものにしてくれる。
Microsoft Research 深層学習技術センターの主任研究員兼リサーチマネージャーのチアドン・ホーは「AIと人間が共に存在し続けるためには、お互いのやり取りが重要です。そして、そのやりとりをする際に最も重要な要素が言語と画像なのです。」と言う。
まとめ
一般に「画像認識」というのは文字の認識であったり、画像の中に写っている人物を機械が特定したりすることを指すときに使われるのだが、今よりもう少し後の未来では、この技術の発展がより大衆向けのものになっていることであろう。科学技術の社会実装というのは大抵、1つひとつの技術が組み合わさって実際にそれが使われることが多い。
Facebookの事例で見た通り、今後は画像認識の技術に加えて拡張現実(AR)とリンクすることによってスマホ上で簡単にそれを購入することができるという記述があったのだが、一方ではスマホ上ではなく AR 技術を搭載した特殊な眼鏡を通じて購入を可能にさせるというプランも実装されようとしている。
少し前まで夢のように語られていた技術は現実のものとなり、新しい産業革命が起ころうとしている。その一端を担っている「画像認識」の利点の活用を検討してみてはいかがだろうか。
<参考>
1.『AI の衝撃 人工知能は人類の敵か』(小林雅一 著 独立行政法人情報処理推進機構 AI 白書編集委員会 編)
2.『AI 白書 2017 人工知能がもたらす 技術の革新と社会の変貌』(アスキー総合研究所)
3. 文章から画像を生成するボットを開発 (Microsoft)
https://news.microsoft.com/ja-jp/2018/01/25/180125-drawing-ai/
4.Facebook、AI画像認識技術「DeepMask」などをオープンソース化 (IT media NEWS)
http://www.itmedia.co.jp/news/articles/1608/29/news051.html
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。