画像認識って何だろう?

■画像認識とは?

 

画像認識とは、画像から特徴をつかみ、対象物を識別するパターン認識技術の一つです。具体的には例えば、画像に映っている物体は何であるか、という判断をコンピュータに行わせ画像を認識させます。人間は写真などの画像を見れば、どのような場所に何が映っているか、自身の経験から推測するとこができます。しかしながら、コンピュータには人間のような記憶の蓄積や経験はありませんから、もしコンピュータに「猫」の画像をただ与えても、コンピュータはそれを「猫」だと認識はしてくれません。そこで、画像認識ではコンピュータにデータベースから大量の画像を与え、対象物の特徴をコンピュータに自動的に「学習」してもらいます。すると、コンピュータは画像データから猫の特徴を「理解」し、同じ特徴を持った画像が与えられれば、それを「猫」だと推測することができます。近年この画像認識の分野はAIにおけるディープラーニング技術の向上により、急速に発展しました。この記事では今ホットな技術領域である画像認識について、その仕組みや歴史、その活用例について、丁寧に解説していきます。


画像認識の仕組み

 

画像認識ではコンピュータに画像から特徴量を抽出させ、その特徴量をもとにその画像が映っているものをコンピュータに判断してもらいます。
ただし、コンピュータの判断の仕方は人間のものとは異なります。画像を表すピクセルデータに対し何かしらの演算を行い、特徴量を算出するという数学的な方法をとります。そのため、コンピュータにとっての画像認識能力の向上とは、その演算方法や、演算に使用するパラメータの変更を意味します。つまり、できるだけ精度よくコンピュータに画像認識してもらいたいなら、その計算モデルやパラメータをできるだけ質の高いものにする必要があります。そのためには何をしたらよいでしょうか?
すぐ思いつく一つの方法は、良い正答率が出るまで人間が演算方法やパラメータを調整することです。しかしこれでは途方もなく労力を要し、効率的ではありません。
そのため、画像認識では「機械学習」を行わせます。
機械学習とは、コンピュータが自ら学習していくシステムのことです。この方法では、コンピュータがどのように演算を行っていくかと、どのようなルールに従ってパラメータを修正するかだけを人間が設定し、あとは機械が大量のデータをもとに自動的にパラメータを修正していき、最適化してくれます。
学習が進むにつれコンピュータの認識率は向上していき、最終的には画像データから特徴を抽出し、正確な判断ができるようになります。ただし、コンピュータも与えたモデルが適さなかったり、データの量、質が悪いとなかなか画像の認識精度を上げることができません。そのため目的に合わせて適切なモデルとデータセットを選択する必要があります。
画像認識では畳み込みニューラルネットワークと呼ばれるネットワークモデルがよく使用されます。このモデルは、人間の脳内の神経回路網を表現したニューラルネットワークと呼ばれるネットワークモデルの発展版です。このモデルの特徴は、画像のピクセルデータを人間が抽象ベクトルに変換せず、画像データのままコンピュータに特徴抽出を行なわせることです。
畳み込みニューラルネットではまず、画像データの一部分にフィルタをかけ演算し、その領域をスライドさせて繰り返していく「畳み込み」を行い、特徴マップを生成します。この処理によって、画像が持つ局所的な特徴を抽出することができます。このようにしてコンピュータは画像の特徴を繰り返し抽出し対象物を推測し、また正解データで答え合わせをして学習しながら、画像認識の精度を高めていくのです。

 

 

画像認識の歴史とAI搭載までの進化

 

ディープラーニングの登場によって近年話題となっている画像認識ですが、実は昔から存在し、意外にも歴史の古い技術になります。
現代では、画像認識には機械学習と呼ばれるパターン認識技術が当然のように使用され、さらにはディープラーニングの登場により、人間に近い画像認識率を示すまでに至っています。しかし、コンピュータが画像を認識することは、照明の明るさやピントのずれなどの画像のノイズ、対象物の向きなどの影響を受けやすいといった問題も多く、そもそもは容易なことではありません。ここではその画像認識発展の歴史の一部を振り返っていきます。
もっとも古い画像認識では1940年代の「バーコード」があります。バーコードとはバーとスペースの組み合わせにより、数字や文字を機械が読み取れる形で表現したものです。これをバーコードスキャナと呼ばれる光学認識装置を使って読み取ります。見かけは画像と呼ぶにはシンプルすぎると感じるかもしれませんが、画像のパターンから情報を読み取っている点ではこれも立派な画像認識といえます。
従来の画像認識ではテンプレートマッチング等が使用されてきました。これは画像に映る物体の位置を検出する画像検出と呼ばれる技術の一つです。
この方法では検出したいものの画像そのものをテンプレートとし、対象の画像の一部分との類似性を、その領域をスライドしながら単純に比較していきます。この方法によって、対象の物体が画像内のどこに映っているか、いくつ映っているかといった情報を画像から抽出することができます。しかしこの方法は照明変化が大きい場合など、テンプレート画像からの変化が激しい場合に、認識率が大きく下がってしまう弱点があります。また認識したい対象ごとにテンプレートが必要という点に関しても、有用性に問題があります。
2000
年代になると計算機の発展により、データを高速に処理可能になりました。この変化により大量の画像データを用いた機械学習による画像認識を行うことが可能となり、画像認識技術はそれまでの人手によるルールやモデル構築からパターン認識へと移行していきます。
そして2012年、ディープラーニングが登場し世界に衝撃を与えました。画像認識コンテストILSVRCで、カナダ・トロント大学のヒントン教授らのグループが画像認識に対して初めてディープラーニングを適用し、一年前の優勝記録の誤り率から4割も削減し、圧勝しました。またその一方でGoogleは同年、人が教えることなく、ディープラーニングにより、AIが自動的に猫を認識することに成功しました。このようにディープラーニングは画像認識の領域で大きな成果を上げ、その能力の高さを世の中に見せつけます。さらに2016年のアルファ碁の登場で第三次AIブームが到来し、今日では画像認識AIはすでに産業界で実用化される段階にまで到達しました。

 

 

画像認識の種類と機能

 

ひと口に画像認識技術といっても、画像の種類によって対象の形状や色、複雑さ、データの数などで差が生じます。そのため扱う画像データによって技術領域を分類することができます。ここではその代表的なものを簡単に紹介していきます。

・物体認識
物体認識とは、例えばある物体と同一の物体が画像中に存在するか検証する、画像に映っている物体のカテゴリを言い当てるなど、画像に含まれている物体の情報を抽出する技術です。この物体認識において重要となる技術として、物体検出と呼ばれる技術があり、しばしば両者は区別して使われます。物体検出は画像中の対象物体の位置を検出する技術であり、物体認識とは実行方法が異なりますが、対象となる物体の特徴を抽出する際その物体の位置はしばしば重要となるので、併用されることがあります。

・顔認識
顔認識は顔画像から目立つ特徴を抽出する技術です。顔認識を利用すれば、顔の識別、照合や似た顔の検索、顔のグループ化などが行えます。人間の表情から感情を読み取る感情認識についても研究が進められています。また物体認識の場合と同様に顔検出と呼ばれる技術もあり、やはり併用されます。

・文字認識
文字認識とは、紙に書かれた手書きの文字や、印刷文字などを判別する技術です。これにより、例えば画像内のテキストを抽出することができます。古くから研究されている分野ですが、最近では翻訳技術と合わせたシステムが実現されるなど、利用用途の多い技術でもあります。

 

 

AIを生かした画像認識と一般的な画像認識の違い

 

ここまで画像認識やAI、ディープラーニングなどに関して書いていきましたが、改めてAIを導入した画像認識と一般的な画像認識では何が異なるのでしょうか。
そもそも人工知能(AI)とは、人間の知的なふるまいをコンピュータで模倣したシステムを指します。つまり、限定された領域であっても、人間のような知能を持っているシステムのことを意味します。ただの機械であれば、人間が与えた指示の通り情報処理を行うだけです。
ディープラーニングの登場によって、人間によるデータの特徴抽出を行わず、与えられた画像データから最初から最後まで自動的に特徴抽出してくれるようになりました。ここでは人は対象のデータセットの特徴量を定義する必要すらないのです。そしてそれにより、大量のラベル付けさせたデータと高度なコンピュータの処理能力があれば、高いレベルの認識精度に自動的に到達していきます。ゼロからアルゴリズムを考え出す必要がない分、人間への負担も軽減されます。
これは学習能力のない、または人間が特徴量を定義する一般的な画像認識にはできないことになります。またこの進歩は人の介入を遠ざけることができるという、重要な意味も持ちます。AIの導入によって、機械の物体認識はより人間に近づき、より自律的に考えるように進歩したのです。

 

 

画像認識の発展の理由

 

画像認識はディープラーニングなどのAI技術と関わりながら発展してきました。ここではなぜ画像認識がAIにより発展していったのかについて背景をみていきます。

AI技術の発展

1950年代後半からコンピュータによる推論や探索が可能となり第一次AIブームが訪れて以来、AIはブームと冬の時代を交互に経験しました。そして現在、ディープラーニングの登場をきっかけに、AIIoT、ビッグデータをキーワードに第三次AIブームが訪れています。AIが人間の知性を超えるシンギュラリティの議論も活発に行われ、AI関連のニュースは毎日のように掲載されています。

・画像認識とディープラーニング

昨今話題となっているディープラーニングですが、実は提案されたのは2006年であり、 2012年のILSVRCで話題になるまで随分と時間を要しています。これは、ディープラーニングでは過学習が起こりやすいことが原因にあります。そのためディープラーニングの適用には工夫が必要となりますが、画像認識で用いられている畳み込みニューラルネットワークでは多層にしてそのまま学習が行えるため、明らかに性質が異なります。この相性の良さにより、ディープラーニングは画像認識領域で頻繁に使用されてきました。このことが近年の画像認識技術の大幅な進歩につながったのです。

 

 

画像認識の未来

 

画像認識技術はAIの導入とともに大きく発展しました。物体認識AIは人間と互角の正答率を示し、すでに各業界で実用化が進められています。またIoT技術の発展やビッグデータの活用によって、さらに画像認識技術の活用の幅は広がっていくことが予想されます。そして顔認識の精度向上や感情認識技術の確立などの技術的な進歩や、動画データなどに対し音声データや言語翻訳におけるAI技術と合わせた技術の開発により、さらなる盛り上がりが期待されます。