グーグル・レンズをご存知だろうか。スマホのアプリを立ち上げて、レンズを建物に向けるとそのビルに入居している店の情報や営業時間などが画面に表示される。犬にレンズを向けると「マルチーズ」などと犬種が表示される。
この機能の生み出しているのは画像認識という技術だ。デジカメが自動で人の顔にピントを合わせのもこの技術のお陰である。
画像認識技術の基礎的な仕組みを解説したうえで、この技術を簡単に体験できる面白いスマホアプリを紹介する。
続きを読むなぜ画像認識ができないのか、そしてできるのか
画像認識技術を体験すると「すごい」と感じるだろう。なぜ人がそこまで画像認識技術を高く評価するのかというと、画像認識はこれまでとても難しかったからだ。機械でそれを体験できる機会がなかったので、コンピュータが人と同じように「見た」とき、新鮮な感覚を持つ。
なぜこれまで、コンピュータは画像を認識できなかったのか。そしてなぜ最近になって急に画像認識が可能になったのだろうか。
なぜ画像認識ができないのか
ながらくコンピュータ業界では、機械には画像認識は不可能と考えられてきた。なぜならコンピュータにとって画像は、意味がない情報だからだ。コンピュータにとっては人間の言語すら意味がなく、わざわざコンピュータ言語で命令しなければならないほどだ。したがって、視覚情報でコンピュータを動かすことなど不可能だと考えられてきた。
例えば人が、目の前を歩く猫を見て「かわいいな」と思ったとする。これを可能にするのは、1)猫がかわいい動物であるという知識と、2)目の前の動く物体が猫であると認識しる能力が人に備わっているからだ。
しかしその猫をカメラで撮ってコンピュータに読み込ませても、コンピュータはかわいいと思わないどころか、猫であるとも認識しない。コンピュータはただ、さまざまな色の点の集合としかみなさない。コンピュータはせいぜい、その点が「青」と認識するだけである。画像をデータ化したときの点のことをピクセルという。
点の集合としかみなさないとなぜ画像に写っている猫を認識しないかというと、輪郭がないからである。
人間は物体を「輪郭付きで」視認する。例えばこの猫のイラストは、外周を黒い線で描いている。この外周の黒い線が輪郭だが、リアルの世界ではこれは存在しない。
しかし人間がリアルの猫を見るときは、現実には存在しないはずの輪郭が「見えている」。視覚情報を獲得した脳が輪郭を認識してしまうからだ。
輪郭とは、リアルの世界では、物体と物体の境目であるが、脳はそれを「細い黒い線があるかのように」認識するのである。
ところがコンピュータは、画像を現実のまま認識するから、輪郭が「見えない」。つまり物体と物体の境目と認識することができない。したがって画像のなかの物体を認識できないのである。
画像認識はどのように「輪郭の壁」を超えたのか
画像認識技術を搭載したコンピュータは、次の工程を経て輪郭を捕らえ、そして画像のなかの対象物を特定・認識している。
<1 画像の「ノイズ」を取り除く>
画像認識ではまず、画像を整えることから始める。こうした前処理をすることでコンピュータが対象物を判定しやすくする。
前処理の最初の工程が「ノイズ」の除去である。画像とはピクセルの集まりであるが、そのピクセルの並びや配置には、秩序がある部分とノイズ部分がある。この工程ではノイズを取り除いていく。
秩序とノイズの区別は、個々のピクセルが持つデータから判断する。
例えばピクセルが次のように並んでいたとする。
「赤1」「赤2」「赤1」「赤1」「青1」「赤1」「赤4」「赤1」
この場合、「青1」はノイズとみなして取り除く。しかし取り除いたままでは「青1」の部分が欠如してしまうので、周囲のピクセルの平均値を取ったピクセルを代わりに挿入する。
1、2、1、1、4、1の平均値は1.7なので「赤1.7」のピクセルを挿入することになる。つまりピクセルを下記のようにすると、ノイズが除去されたことになる。
「赤1」「赤2」「赤1」「赤1」「赤1.7」「赤1」「赤4」「赤1」
一方、「赤2」と「赤4」は、「赤1」ではないが「赤1」に近いことから、これは秩序があるとみなされ、取り除く対象から外れる。
<2 画像の「明るさと色」を調整する>
次の工程は「明るさと色」の調整である。コントラストが強すぎる場合はコントラストを弱め、弱すぎるときはコントラストを強調する。
以上が前処理となる。
<3 対象物の「輪郭」が強調される>
前処理が済むと、画像認識コンピュータは輪郭を特定する。ただ本物の画像には輪郭はないわけなので、実際には「輪郭と思われる部分を強調する」ことになる。
<4 対象物の「領域」を切り出す>
輪郭が特定できたら、対象物と背景を切り離す。つまり対象物の領域を確定するわけである。
これで画像のなかから対象物が特定できたので、あとはその対象物が「なんなのか」を類推すれば、その犬がマルチーズであると評価できる。
対象物からデータを抽出して学習結果と照合する
例えば画像のなかに、顔と石と壁が写っていたとする。画像認識では、顔と石の輪郭を捕らえ、顔と石を壁から切り離すことができる。
では、コンピュータにその切り離された対象物を「顔である」「石である」と認識させるにはどのようにしたらよいだろうか。
それを可能にするには事前に、画像認識コンピュータに学習させる必要がある。画像認識コンピュータに大量の顔の写真を学習させると、「2つの穴の間のやや下部に小さな盛り上がりがあり、その下にさらに大きな穴が1つあるものを顔という」と学ぶことができる。
それで、学習のときに使っていない顔の写真を見せても、画像認識コンピュータは「顔である」と認識できるようになる。
画像認識はここで活躍している
画像認識技術を高めていくと、「誰の顔」と認識できるようになる。例えば監視カメラに画像認識技術を搭載すると、監視カメラが取られた人の顔を「かたっぱし」から犯罪者データベースに照合して、群衆のなかの容疑者を見つけ出すことができる。
また部品工場が生産ラインに画像認識カメラを導入すれば、ベルトコンベアを流れてくる部品のなかから不良品を見つけることができる。
さらに病院で画像認識技術を使えば、胃や大腸などを撮影したCTを読み込ませて、人が見落としてしまうような小さながん細胞を見つけることができる。
こうした技術はすでに実用化されていたり、実用化レベルになっている。
オモシロ・アプリ1「グーグル・レンズ」
冒頭で紹介したグーグル・レンズは、グーグルが開発したスマホアプリで、画像だけで情報が得られる特徴がある。
例えば犬にスマホカメラを向けると、その犬の犬種を言い当てて、さらにその犬種の特徴を表示する。言い当てるだけでもすごいことだが、それだけでは「びっくり」機能にすぎない。グーグルはそこにさらに情報ツールとしての価値を加えている。
また、例えばスマホでレストランのサイトを閲覧していたとする。そのサイトに「ブイヤベース」と書いてあったら、その文字を指定するとブイヤベースの情報が表示される。
さらに、街中を歩いているときに歴史的建造物を見つけたら、それにスマホカメラを向けるとその歴史が表示される。
オモシロ・アプリ2「パシャリィ」
サイジニア株式会社(本社・東京都港区)が開発した「パシャリィ(PASHALY)」は、気に入った洋服の情報を簡単に入手できるスマホアプリである。
使い方は簡単で、気に入った服を見つけたら、スマホカメラで撮影する。その画像をパシャリィに送信するとその服を売っているサイトや値段、サイズなどが表示される。その情報は通販サイトにリンクしているので、その場で購入手続きに入ることができる。
また、写真で撮影した服の情報がなくても、その服と似た服を紹介してくれる。例えば、メーカーがわからない紺色のジャケットをパシャリィすれば、色や形状などが似ている紺色のジャケットを複数着表示してくれる。
パシャリィはさらに、服を単体で撮影する必要がない。例えば、コーデがしっかりした人の全身を撮影すれば、その人が着用しているコート、トップス、スカートを同時に調べることができる。
オモシロ・アプリ3「カロミル」
「カロミル」を開発したライフログテクノロジー株式会社(本社・東京都港区)はこのスマホアプリをダイエット・アプリと呼んでいる。つまり、画像認識技術はアプリの目的を達成する一手段にすぎないわけである。
ユーザーがこれから食べる食事をスマホカメラで撮影すると、カロミルが食材の種類や食事量などを自動計算して、カロリーやたんぱく質量、塩分量、糖質量などを算出する。
カロミルには1,000種類以上の料理が登録されていて、ユーザーが撮影した料理の写真と同じ料理か類似の料理を探し、栄養素や食事量を推測する。
ただこれがカロミルの最終目標ではない。
カロミルは、ユーザーが食べた食事内容を記録して、食事アドバイスや運動アドバイスをしてくれる。
そのアドバイスに従えば、バランスの取れた食事と、肥満を予防できる運動を行えるわけだ。
まとめ~人よりよく見ている
画像認識技術はすでに「人の見え」よりよく見えている。例えば人物の特定では、帽子をかぶってサングラスとマスクをしている人物が誰であるかも特定できる。人の警備員でもそこまで見抜けないだろう。
さらに監視カメラやドライブレコーダーなどの画質が4Kや8Kと高度化すれば、画像認識の精度はさらに高まるだろう。
「見られる」社会から、「見られないことがない」社会になるかもしれない。
<参考>
- 画像認識 (Image Recognition)とは(Analytics)
https://analytics-news.jp/info/image_recognition - ノイズ除去(有限会社イグノス)
- http://www.igunoss.co.jp/imageproc/imageproc1-4.html
- Google レンズ(グーグル)
https://play.google.com/store/apps/details?id=com.google.ar.lens&hl=ja - PASHALY(パシャリィ)(サイジニア株式会社)
https://pashaly.com/ - AIによる画像認識を 内視鏡診断に生かす – NII Interview (79-2)(国立情報学研究所)
https://www.nii.ac.jp/about/publication/today/79-2.html - カロミル(ライフログテクノロジー株式会社)
https://calomeal.com/index.html?id=calomeal
役にたったらいいね!
してください
NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。
No related posts.