画像認識技術の違いがわからない

現在各企業が発表している顔認識APIにはどのような違いがあるのでしょうか。ここでは主要な顔認識APIサービスを紹介します。

ー顔認識API各社の比較

顔認識AIでできること

顔認識システムとは何でしょうか？
顔認識システムとは「画像データや映像データ上にある人の顔から自動的に情報を読み取ることができるシステム」を指します。
つまり、カメラなどから得られる画像データ上の人の顔から情報を抽出し、年齢や性別やその時の感情など、その人を特徴づける情報を得ることができるシステムです。

人は画像上の顔を見たとき、その人が今まで出会った大勢の人の記憶をもとに、その人の性別、おおよその年齢や国籍など、その人を特徴づける情報をパターン認識で推測することができます。

この特徴抽出をコンピュータに大量の顔画像データを与え、学習させることで行わせることができます。コンピュータは学習が進むにしたがって、人の顔の特徴を次第に理解していき、目や口の数などおおざっぱな特徴から、認識した顔の特徴抽出、顔のグループ化、2つの顔が同一人物のものであるかの判断など、次第に高いレベルの認識能力を獲得していきます。

2012年にAIにおけるディープラーニング技術により、画像識別率が大きく上昇しました。2014年にFacebookが発表したDeepfaceはこの技術を顔認識に導入し、2枚の写真に映る人物が同一人物であるかどうかの判断で人間とほぼ互角の顔識別精度（97.25%）を実現ました。

このように人間と同等の識別能力を持つAIを用いれば、例えばカメラから得た顔画像と顔データベースを利用し個人を特定することができます。これは顔認証システム、つまり「顔パスシステム」を可能にし、指紋認証のように接触を行う必要のない、非接触なセキュリティシステムの実現ができます。これは例えば入出管理を要する部屋が多い病院で非接触のセキュリティ管理が可能となり、感染症対策に貢献できます。

また、カメラの顔画像から年齢・性別の情報を読み取れば、顔認識AIをマーケティングに活用することができます。例えば街頭のデジタル広告にカメラを設置すれば、どのような顧客層がどれくらいの時間どのような広告に興味を持っているかをAIに推測させることができます。

このように顔認識AIは高い識別能力を持ち、カメラから個人を特定したり、情報抽出を行えるため幅広く利用されています。

細かい技術の違い

顔認識では機械学習という技術を使い、大量のサンプルデータを用いてパターン認識を行います。
機械学習とは、学習データから特徴量を抽出し、データの正解の特徴量との差を比較しフィードバックすることで、自動的にパラメータを更新するアルゴリズムです。特徴量を定義してコンピュータに顔画像データを学習させれば、コンピュータは顔の特徴を認識してくれます。具体的にはあらかじめ大量の顔画像から学習を行わせておき、対象の画像から、輪郭、目、眉、口などの顔の部品の場所を探し、それらの配置パターンから年齢、性別、表情などを判断します。

しかしながら物体認識に対し顔認識は、顔の向き、表情、性別、人種等によって影響を受け、個人差も生じることから一般的には難しいと考えられます。仮に制限された環境下で高い認識率を示せても、汎用的な識別機を作ることは難しく、またデータの少ないマイノリティーを苦手とする傾向もあります。
しかし顔認証システムへの応用等を考える場合、顔認識の精度は十分な信頼感が得られなければなりません。顔認識を実現するために提案されたパターン認識手法は多くありましたが、AIブームが到来する以前は、実環境下での利用はまだ難しい状況でした。

2012年に登場したディープラーニングは画像認識技術を急速に発展させ、2014年には顔認識AIは人間と同等レベルの認識精度を示します。この技術的進歩により、顔認識はカメラからの画像データを用いての実環境下での利用が可能になりました。
ディープラーニングを用いた顔認識の従来のものとの大きな違いは、特徴量の定義も自動的に行うことができる点にあります。それにより人間の介入を遠ざけ、さらに多層構造を構築することでより抽象的にデータの特徴を抽出することができるのです。

顔認識APIの企業ごとでの違い

現在各企業が発表している顔認識APIにはどのような違いがあるのでしょうか。ここでは主要な顔認識APIサービスを紹介します。

IBM－Watson Visual Recognition API