進むニューラルネットワークの研究

近年、急速に発展しているニューラルネットワーク技術であるが、さらに人間に能力に近づける技術の実現によりビジネスでのAI活用は急速に普及すると予想される。

シェアする

ニューラルネットワークは2012年にディープラーニングがILSVRC(ImageNet Large Scale Visual Recognition Challenge)」と呼ばれる画像分類コンテストで、従来の機械学習の精度をはるかに上回る精度で優勝して以来、第3次ブームとなり全世界で注目されている。ディープラーニングは画像認識・分類だけでなく音声認識や自然言語解析にも応用され、各分野でも目覚ましい研究成果が発表されている。

その結果、ビジネスにおいても顔認証や音声認識、多言語翻訳などディープラーニング技術を応用したサービスがリリースされつつある。近年、急速に発展しているニューラルネットワーク技術であるが、今後どのような面で人間に近づいていくのだろうか。

ニューラルネットワーク

生成モデルによる創作・創造可能なAI  

画像認識や音声認識を実現する深層ニューラルネットワーク(以降、DNN(Deep Neural Network)と呼ぶ。)は理論的には識別モデルと呼ばれる。それに対して生成モデルという概念も存在し、近年ではDNNによる生成モデルの研究開発が活発になりつつある。その代表例は、敵対的生成ネットワーク(GAN(Generative Adversarial Network)もしくはDCGAN(Deep Connect GAN))と呼ばれるアルゴリズムである。GANはGeneratorとDiscriminatorと呼ばれる2つの部位から構成される。

GeneratorはEncoderとDecoderと呼ばれるDNNで構成されており、例えば衛星画像のようなコンテンツAに対して、地形図にような人間が加工し生成したコンテンツBの2種類のデータを学習データとして、コンテンツAからコンテンツBを生成するためのモデルをDNNに実現する。一方、Discriminatorは、コンテンツBが人間が生成したものか、Generatorが生成したものかを識別するDNNである。

Generatorが人間が生成したコンテンツに近づけようと学習する一方でDiscriminatorが“敵対的に”人間が生成したものとの違いを識別しようと学習をすすめるため、結果的にGAN全体で人間が生成する手法を限りなく学習するアルゴリズムになっている。

この分野の研究は2015年後半から盛んになっており、2017年にはGANの成果を画像の着色に応用したpix2pixやWeb画面イメージから画面コードを生成するpix2codeをベースにした様々なサービスがリリースされている。

この生成モデルの研究がすすむと識別だけでなく、人間がコンピュータに比べ優位性があると考えられていた創造性が必要な、作曲、作詞や作画、デザインなどの創作分野にAIの導入が広がる可能性がある。

品質の異常検知への適用

AI技術の進歩にともない、ビジネスでのニーズが高まっているのが品質管理での異常検知へのDNNの適用である。特に人間の視覚に依存している検査業務において負荷軽減、作業効率化の目的により適用ニーズが高い。

しかし、この分野の学習アルゴリズムは画像分類に用いられる教師学習とは異なる。分類というのは対象がどこかの区分に属していることが前提であり、それらの区分に属しているデータを学習することによって実現可能となる。

それに対し、異常検知は、正常の特徴は明確であるが、異常の判定は特徴が「正常ではない」全てと多様かつデータが少量と、多種少量データによる学習となり、分類向けDNNでは検出精度を向上させるのが難しい。

異常検知に用いられる学習アルゴリズムは、教師なし学習で用いられるAutoEncoderアルゴリズムが適していると言われている。AutoEncoderアルゴリズムは分類向けDNNの低階層でも利用されているアルゴリズムであり、同じ種類の多くの画像データから汎化された特徴量を抽出する。異常検知の場合、例えば正常の製品の画像データのみを学習させ正常製品の特徴のみをDNNに認識させ、異常製品の画像が入力された場合、異なる出力値を出力させることで判断可能となる。

特に、本技術は、人間の視覚で実施してきた細かな検品作業を4Kや8Kといった高精細カメラで撮像した画像と組み合わせることで、効率化だけでなく高品質が実現可能になると期待される。

転移学習による効率的な学習の実現

多くのDNNは、大量の教師データを準備し、一括して学習し精度を向上させている。しかし、どの問題でも大量の教師データが入手可能とは限らない、また、大量の教師データを学習するには長時間の大規模なコンピュータリソースの利用が必要となる。

そのような問題を解決する技術が転移学習(Transfer Learning)である。転移学習は、世界的な機械学習のトップカンファレンスであるNIPS 2016 Tutorialにて米国スタンフォード大のAndrew Ngによって、今後発展する技術として言及されて以来注目されている技術である。転移学習は、AIで解決したい問題とは別の分野の大量のデータで学習が済んでいるDNNモデルを流用することで実現される。転移学習は学習済DNNの深い階層に、新たなネットワークを接続することで少量の教師データでの学習を実現可能とする。

例えば、大量の画像データセットであるImageNetを学習させたAlexNetやVGG16などの多様な特徴量を学習しているDNNの浅い階層を利用する。最後の分類を実現している層のみを改変し、新たなクラスの分類ができるようにネットワークを追加し、そのネットワークによって問題を解決するモデルを構築するという手法である。

この転移学習の重要点は、様々な物体の画像を構成する特徴量を学習しているネットワーク重みを変更することがなく、そのまま活用するということである。それにより、学習データが少量で、学習時間が短縮可能となる。これは、人間が生まれてから睡眠時以外休まず目にしたものを学習しつづけることで汎用化が進み少ない学習回数で新たな内容を習得できるようになっていくことに類似している。

転移学習は、教師データが少ない学習を可能とするため、様々な分野へのAI適用の普及・促進が見込まれる。また、音声をはじめとする画像以外分野についても大量データを学習させたDNNモデルの価値が向上するため、DNNモデルの流通ビジネスが成立する可能性もある。

まとめ

 ニューラルネットであるDNNを利用した研究開発は、人間の優位な能力と言われてきた創作・創造の分野に対するAI適用を実現するだけでなく、品質管理の効率化も実現していく。また、これまでの研究成果をビジネスに適用する際に高いハードルとなっていた準備すべき大量の教師データと学習時間の問題は転移学習によって回避可能となりつつある。

これらの技術の実現によりビジネスでのAI活用は急速に普及すると予想される。


<参考>

  1. Generative Adversarial Network とは――トップ研究者が解説(NVIDIA Blog)
    https://blogs.nvidia.co.jp/2017/06/21/generative-adversarial-network/
  2. pix2pix(Github)
    https://github.com/phillipi/pix2pix
  3. pix2code: Generating Code from a Graphical User Interface Screenshot(Tony Beltramelli著)
    https://arxiv.org/abs/1705.07962
  4. Turning Design Mockups Into Code With Deep Learning(Floydhub blog)
    https://blog.floydhub.com/turning-design-mockups-into-code-with-deep-learning/
  5. IoT化が進む製造現場で求められるセンシング技術(東芝レビュー Vol. 73 No. 1)
    https://www.toshiba.co.jp/tech/review/2018/01/73_01pdf/a05.pdf
  6. Transfer learning for text classification(Chuong B. Do著)
  7. http://ai.stanford.edu/~chuongdo/papers/transfer.pdf