TOP > ノウハウ > 画像認識とは?AIと画像認識の関わり・活用方法・今後の未来

画像認識とは?AIと画像認識の関わり・活用方法・今後の未来

  • LINEで送る
  • このエントリーをはてなブックマークに追加
画像認識とは?AIと画像認識の関わり・活用方法・今後の未来

1. 画像認識とは?

画像認識とは、画像から特徴をつかみ、対象物を識別するパターン認識技術の一つです。
具体的には例えば、画像に移っている物体は何であるか、という判断をコンピュータに行わせ画像を認識させます。
人間は写真などの画像を見れば、どのような場所に何が移っているか、自身の経験から推測するとこができます。しかしながら、コンピュータには人間のような記憶の蓄積や経験はありませんから、もしコンピュータに「猫」の画像をただ与えても、コンピュータはそれを「猫」だと認識はしてくれません。
そこで、画像認識ではコンピュータにデータベースから大量の画像を与え、対象物の特徴をコンピュータに自動的に「学習」してもらいます。すると、コンピュータは画像データから猫の特徴を「理解」し、同じ特徴を持った画像が与えられれば、それを「猫」だと推測することができます。
近年この画像認識の分野はAIにおけるディープラーニング技術の向上により、急速に発展しました。この記事では今ホットな技術領域である画像認識について、その仕組みや歴史、その活用例について、丁寧に解説していきます。

1.1. 画像認識の仕組み

画像認識ではコンピュータに画像から特徴量を抽出させ、その特徴量をもとにその画像が移っているものをコンピュータに判断してもらいます。
ただし、コンピュータの判断の仕方は人間のものとは異なります。画像を表すピクセルデータに対し何かしらの演算を行い、特徴量を算出するという数学的な方法をとります。そのため、コンピュータにとっての画像認識能力の向上とは、その演算方法や、演算に使用するパラメータの変更を意味します。つまり、できるだけ精度よくコンピュータに画像認識してもらいたいなら、その計算モデルやパラメータをできるだけ質の高いものにする必要があります。そのためには何をしたらよいでしょうか?
すぐ思いつく一つの方法は、良い正答率が出るまで人間が演算方法やパラメータを調整することです。しかしこれでは途方もなく労力を要し、効率的ではありません。
そのため、画像認識では「機械学習」を行わせます。
機械学習とは、コンピュータが自ら学習していくシステムのことです。この方法では、コンピュータがどのように演算を行っていくかと、どのようなルールに従ってパラメータを修正するかだけを人間が設定し、あとは機械が大量のデータをもとに自動的にパラメータを修正していき、最適化してくれます。
学習が進むにつれコンピュータの認識率は向上していき、最終的には画像データから特徴を抽出し、正確な判断ができるようになります。ただし、コンピュータも与えたモデルが適さなかったり、データの量、質が悪いとなかなかコンピュータは画像の認識精度を上げることができません。そのため目的に合わせて適切なモデルとデータセットを選択する必要があります。
画像認識では畳み込みニューラルネットワークと呼ばれるネットワークモデルがよく使用されます。このモデルは、人間の脳内の神経回路網を表現したニューラルネットワークと呼ばれるネットワークモデルの発展版です。このモデルの特徴は、画像のピクセルデータを人間が抽象ベクトルに変換せず、画像データのままコンピュータに特徴抽出を行なわせることです。
畳み込みニューラルネットではまず、画像データの一部分にフィルタをかけ演算し、その領域をスライドさせて繰り返していく「畳み込み」を行い、特徴マップを生成します。この処理によって、画像が持つ局所的な特徴を抽出することができます。このようにしてコンピュータは画像の特徴を繰り返し抽出し対象物を推測し、また正解データで答え合わせをして学習しながら、画像認識の精度を高めていくのです。

1.2. 画像認識の歴史とAI搭載までの進化

ディープラーニングの登場によって近年話題となっている画像認識ですが、実は昔から存在し、意外にも歴史の古い技術になります。
現代では、画像認識には機械学習と呼ばれるパターン認識技術が当然のように使用され、さらにはディープラーニングの登場により、人間に近い画像認識率を示すまでに至っています。しかし、コンピュータが画像を認識することは、照明の明るさやピントのずれなどの画像のノイズ、対象物の向きなどの影響を受けやすいといった問題も多く、そもそもは容易なことではありません。ここではその画像認識発展の歴史の一部を振り返っていきます。
もっとも古い画像認識では1940年代の「バーコード」があります。バーコードとはバーとスペースの組み合わせにより、数字や文字を機械が読み取れる形で表現したものです。これをバーコードスキャナと呼ばれる光学認識装置を使って読み取ります。見かけは画像と呼ぶにはシンプルすぎると感じるかもしれませんが、画像のパターンから情報を読み取っている点ではこれも立派な画像認識といえます。
従来の画像認識ではテンプレートマッチング等が使用されてきました。これは画像に移る物体の位置を検出する画像検出と呼ばれる技術の一つです。
この方法では検出したいものの画像そのものをテンプレートとし、対象の画像の一部分との類似性を、その領域をスライドしながら単純に比較していきます。この方法によって、対象の物体が画像内のどこに移っているか、いくつ移っているかといった情報を画像から抽出することができます。しかしこの方法は照明変化が大きい場合など、テンプレート画像からの変化が激しい場合に、認識率が大きく下がってしまう弱点があります。また認識したい対象ごとにテンプレートが必要という点に関しても、有用性に問題があります。
2000年代になると計算機の発展により、データを高速に処理可能になりました。この変化により大量の画像データを用いた機械学習による画像認識を行うことが可能となり、画像認識技術はそれまでの人手によるルールやモデル構築からパターン認識へと移行していきます。
そして2012年、ディープラーニングが登場し世界に衝撃を与えました。画像認識コンテストILSVRCで、カナダ・トロント大学のヒントン教授らのグループが画像認識に対して初めてディープラーニングを適応し、一年前の優勝記録の誤り率から4割も削減し、圧勝しました。またその一方でGoogleは同年、人が教えることなく、ディープラーニングにより、AIが自動的に猫を認識することに成功しました。このようにディープラーニングは画像認識の領域で大きな成果を上げ、その能力の高さを世の中に見せつけます。さらに2016年のアルファ碁の登場で第三次AIブームが到来し、今日では画像認識AIはすでに産業界で実用化される段階にまで到達しました。

1.3. 画像認識の種類と機能

一言に画像認識技術といっても、画像の種類によって対象の形状や色、複雑さ、データの数などで差が生じます。そのため扱う画像データによって技術領域を分類することができます。ここではその代表的なものを簡単に紹介していきます。
・物体認識
物体認識とは、例えばある物体と同一の物体が画像中に存在するか検証する、画像に移っている物体のカテゴリを言い当てるなど、画像に含まれている物体の情報を抽出する技術です。この物体認識において重要となる技術として、物体検出と呼ばれる技術があり、しばしば両者は区別して使われます。物体検出は画像中の対象物体の位置を検出する技術であり、物体認識とは実行方法が異なりますが、対象となる物体の特徴を抽出する際その物体の位置はしばしば重要となるので、併用されることがあります。
・顔認識
顔認識は顔画像から目立つ特徴を抽出する技術です。顔認識を利用すれば、顔の識別、照合や似た顔の検索、顔のグループ化などが行えます。人間の表情から感情を読み取る感情認識についても研究が進められています。また物体認識の場合と同様に顔検出と呼ばれる技術もあり、やはり併用されます。
・文字認識
文字認識とは、紙に書かれた手書きの文字や、印刷文字などを判別する技術です。これにより、例えば画像内のテキストを抽出することができます。古くから研究されている分野ですが、最近では翻訳技術と合わせたシステムが実現されるなど、利用用途の多い技術でもあります。

2. 画像認識のビジネス活用方法

このように長い期間を経て実用化されてきている画像認識技術ですが、具体的に社会のなかのどのような場面で活用されるのでしょうか。ここでは画像認識技術がすでに活用されている例をいくつか紹介していきます。

2.1. 工場における品質検査への利用

2019年5月20日にCNET JAPANからリリースされた記事にこのようなものがあります。

<人口1,700人、人手不足に悩む町工場が品質検査にAIを導入>

ここでは自動車のゴム部品を製造する町工場で必要な、目視による品質検査に品質検査AIを導入し、人材不足問題によるクレームが解消されたという報告がされています。
ここでは品質検査AIは「やけ」や「傷」などを検知に利用されています。本来であれば、人材不足の中従業員が目視で判断しなければいけない検査を、疲れ知らずのAIが代わりに担当します。品質検査AIは専用ポットに製品を置くだけでOKかNGかを即座に判断してくれます。これには特別なAIの知識は必要ありません。さらにこの工場では今後の生産効率の大幅への期待も持たれています。AIの画像認識技術の向上とともに、業務の効率化も期待できます。
このように画像認識技術は工場などの製品の外観検査や作業員の安全管理業務で利用が進められています。少子高齢化による国内の労働人口不足などの背景や、工場の危険のある現場における事故リスクの軽減への期待から、製造業でのAIの利用が今注目を集めています。

2.2. SNSや個人売買アプリにおける不適切な画像の検出

近年世界的にSNSが普及し、だれでもどこでもインターネットを通じて不特定多数の人に情報を発信したり、連絡をとったりできる世の中になりつつあります。
一方で、この便利なコミュニケーションツールはしばしば世間を驚かせるような問題を引き起こすこともあります。そこには例えば、個人情報の流出、アカウントの乗っ取り、なりすましなどが含まれますが、同様に無視できないのが、利用者による不適切な画像や動画の投稿です。
2007年に起こった吉野家での深夜アルバイト店員によるメニューにはないテラ盛りを作って見せる悪ふざけ動画や2015年のすき屋のアルバイト店員による店内でのわいせつ画像の撮影、投稿など、SNSによる不適切画像、動画の事件は後を絶ちません。
そんな中、インターネット監視サービスを提供するイー・ガーディアンが2015年にAIを導入した新しい不適切画像検出システム「ROKA SOLUTION」を発表しています。
これは東京大学大学院原田研究室と産学連携で開発したシステムです。ディープラーニングを用いて、高い画像検出率でアダルト画像を検知します。この機能により不適切画像のフィルタリングで健全なサイト運用に利用できるのはもちろん、広告配信先のチェックにも利用ができます。
また同社は2019年4月に著作権を侵害する動画や不適切な内容の動画などに対するAI動画フィルターの開発に着手しています。
<画像認識と音声認識で不適切動画を判定―イー・ガーディアンがHmcommと共同開発>
このようにAIの画像認識能力の高さを利用して、SNSにおける不適切画像を検出する機能が高まれば、AIが自動的にSNSをパトロールし、いたずら画像の投稿を取り締まり、SNS投稿によるお騒がせ事件がなくなる時が来るかもしれません。

2.3. 農作物の生育状況把握

AIの画像認識は農業においても利用が期待されています。
2018年12月にLedge.aiでリリースされた記事では、AIを使用した農作物の“おいしさ審査“システムを紹介しています。
<野菜や果物の色から味を可視化。“AIのおいしさ審査を通過した野菜”という新たな基準も?>
2018年11月にスマートアグリ技術展2018が開催され、マクタアメニティが色の構成を表すRGBヒストグラムや形をAIが分析し、おいしさがわかるスマートフォンアプリを紹介しました。
トマトやサクランボなどは熟練の目利きなら色から味を推測することができます。例えばトマトなら、赤色なら酸味が強く、主にジュース缶やトマト缶などの加工品に適し、ピンク色なら甘みがあり、サラダなど生で食べるのに向いているなどのことがわかります。これは農作物の色が色素によって発現することによります。
画像認識AIは対象物の色、形を学習することができ、また学習データを多くするほどに、その判断能力は強化できます。そこでAIに野菜や果物の画像から良い味のものを学習してもらい、AIに人間の代わりに目利きをしてもらえば、熟練の目利きがいなくとも農作物の品質チェックを行うことができます。
またAI味診断のほかにも、AIの画像認識技術は農作物の育成状況のチェックにも活用できると考えられており、着実に実用化が進められています。

3. AIを生かした画像認識と一般的な画像認識の違い

ここまで画像認識やAI、ディープラーニングなどに関して書いていきましたが、改めてAIを導入した画像認識と一般的な画像認識では何が異なるのでしょうか。
そもそも人工知能(AI)とは、人間の知的なふるまいをコンピュータで模倣したシステムを指します。つまり、限定された領域であっても、人間のような知能を持っているシステムのことを意味します。ただの機械であれば、人間が与えた指示の通り情報処理を行うだけです。
ディープラーニングの登場によって、人間によるデータの特徴抽出を行わず、与えられた画像データから最初から最後まで自動的に特徴抽出してくれるようになりました。ここでは人は対象のデータセットの特徴量を定義する必要すらないのです。そしてそれにより、大量のラベル付けさせたデータと高度なコンピュータの処理能力があれば、高いレベルの認識精度に自動的に到達していきます。ゼロからアルゴリズムを考え出す必要がない分、人間への負担も軽減されます。
これは学習能力のない、または人間が特徴量を定義する一般的な画像認識にはできないことになります。またこの進歩は人の介入を遠ざけることができるという、重要な意味も持ちます。AIの導入によって、機械の物体認識はより人間に近づき、より自律的に考えるように進歩したのです。

4. 画像認識の発展の理由

画像認識はディープラーニングなどのAI技術と関わりながら発展してきました。ここではなぜ画像認識がAIにより発展していったのかについて背景をみていきます。

4.1. AI技術の発展

1950年代後半からコンピュータによる推論や探索が可能となり第一次AIブームが訪れて以来、AIはブームと冬の時代を交互に経験しました。そして現在、ディープラーニングの登場をきっかけに、AI、IoT、ビッグデータをキーワードに第三次AIブームが訪れています。AIが人間の知性を超えるシンギュラリティの議論も活発に行われ、AI関連のニュースは毎日のように掲載されています。

4.2. 画像認識とディープラーニング

昨今話題となっているディープラーニングですが、実は提案されたのは2006年であり、 2012年のILSVRCで話題になるまで随分と時間を要しています。これは、ディープラーニングでは過学習が起こやすいことが原因にあります。そのためディープラーニングの適応には工夫が必要となりますが、画像認識で用いられている畳み込みニューラルネットワークでは多層にしてそのまま学習が行えるため、明らかに性質が異なります。この相性の良さにより、ディープラーニングは画像認識領域で頻繁に使用されてきました。このことが近年の画像認識技術の大幅な進歩につながったのです。

5. 画像認識の未来

画像認識技術はAIの導入とともに大きく発展しました。物体認識AIは人間と互角の正答率を示し、すでに各業界で実用化が進められています。またIoT技術の発展やビックデータの活用によって、さらに画像認識技術の活用の幅は広がっていくことが予想されます。そして顔認識の精度向上や感情認識技術の確立などのさらなる技術的な進歩や、動画データなどに対し音声データや言語翻訳におけるAI技術と合わせた技術の開発により、さらなる盛り上がりが期待されます。
  • LINEで送る
  • このエントリーをはてなブックマークに追加

お気軽に店舗マーケティングのお悩みをご相談ください