MLベースのコンピュータビジョンは、最先端の技術を押し進めるための集中的な研究と、エンタープライズ対応のプラットフォームを構築または活用するための企業投資により、著しく成熟してきた。機能面では、物体検出と画像分類のための正確で信頼性の高い空間解析は、徐々に、物体の形状、向き(例:人間のオペレータのポーズ)、環境との相互作用(例:多様な風景における人間のエージェントの行動)の観点から、物体の状態追跡(例:人間のオペレータ)のための空間-時間解析へと進化しています。包括的な産業ユースケースを開発するための企業プラットフォームは、様々なアーキテクチャや技術オプションを採用して開発中です。
その背景とは?
2010年代初頭、MLベースのコンピュータビジョンアプローチは、性能、計算コスト、生産準備の面で、画像の空間解析、すなわち画像の分類や画像内の物体の詳細の検出において最先端の進歩を遂げた。
アルゴリズムは、複雑なトレーニングデータセットで最先端の結果を達成しており、汎用的なものから特定分野に特化したものまで、業界を横断するオープンループとクローズドループのユースケースでアプリケーションを強力にサポートしています。企業だけでなく一般消費者向けの技術プロバイダーも、物体(顔を含む)を検出し、分類し、位置を特定し、画像入力内の様々な種類の物体のインスタンス数を測定する最先端の製品を構築しています。
関連ブログ
大体において、これらのアプリケーションはポイントインタイムの画像解析のためのもので、画像フレーム間の相関はほとんどありません。このため、これらのアプリケーションの出力を活用した洞察やワークフローのアクションの有用性が制限されます。分析に時間次元がないため、画像内の因果関係の評価やオブジェクトの状態の予測ができません。この分析が特に興味深い例の1つは、様々な産業、商業、個人のタスクに従事する人間のオペレーターのアクションを時間経過とともに観察・分析することです。
技術的な考慮点は?
ここで核となる問題は、オブジェクトの状態追跡である。オブジェクトの状態は2つの方法で記述される。オブジェクトの形(形、大きさ、特徴)、向き、画像内の位置は空間情報と呼ばれます。前述したアルゴリズムは、オクルージョン(別の物体やコンテキストが興味のある物体を部分的に遮ること)、低照度、時折のブレがあっても、画像内のこれらの属性を捉えることに優れています。
しかし、オブジェクトの状態が時間とともにどのように変化しているかも理解したい。物体の状態の時間的変化を示す情報を時間情報と呼ぶ。そこで、視野内の物体の時空間情報を解析し、状態遷移モデルを構築することを解決目的とする。
これには通常、以下の2つの主要なタスクを実行するために、モデルが連動した複雑なアルゴリズムが必要である。
- CNN(畳み込みニューラルネットワーク)ベースのオブジェクト検出およびローカライゼーションバックボーンモデルパイプラインを使用して行われます。
- 物体の状態(最も一般的なのは、形と向き)がどのように変化するかを追跡する - これは、時間の経過に伴う変化を追跡するのに優れたRNN(強化ニューラルネットワーク)ベースのモデルを使用して行われる。
ここ数年、さまざまなアプローチが検討され、採用されてきた。それぞれが最先端の技術として脚光を浴び、その結果、パフォーマンス・レベルをさらに向上させる次のモデルへの道を切り開いてきた。
これらのソリューション・アプローチを構成するアルゴリズムについては、シリーズの後半で詳しく見ていくことにしよう。
典型的な用途は?
ビデオ認識は、さまざまな業界やビジネスプロセスで使用されている。
- 人間の活動認識 - スケルトン・ベースのアクティビティ認識は、定義されたタスクが人間のオペレーターによって一定の順序で実行される必要がある場合に、プロセスの順守を保証するアプリケーションで有用である。プロセスは、商業、工業、およびヘルスケアシナリオであり得る。想定される使用例には以下のようなものがある:
- 工業生産 - 組立ライン生産と完成品QC
- 小売 - 商品化、棚への品出し、生鮮品の取り扱い
- 物流および倉庫管理 - 貨物パレットの取り扱い(倉庫内)、壊れやすい/貴重な貨物の積み下ろし SOPの遵守(輸送中)
- 医療 - 患者のケア提供者のモニタリング、特に重篤な外傷症例のモニタリング
- 手術器具のモニタリングと制御 - 内視鏡手術のようなヘルスケア・アプリケーションでは、体内の臓器や血管などが密接に入り組んだ低照度環境でのビデオ認識が必要です。手術装置の正確な制御動作のための正確な認識は、高い医療的賭け(患者の健康、寿命)と甚大な偶発債務(医療上の緊急事態による保険や訴訟費用)を考慮すると不可欠です。これは緊密なループプロセスであり、堅牢な認識ソリューションの出力を必要とするいくつかの側面があります:
- 手術器具の使用期間のモニタリング-残りの耐用年数を推定し、手術中に器具が寿命に達しないようにする。
- 複数の手術器具や診断器具を使用する場合、推奨される安全な使用順序を守る。
- 次善のアクションの推奨 - ビデオフィードと利用可能なその他のセンサーフィードを使用して、手術活動の進化する状態遷移を評価し、成功確率のスコアでアクションを提案する。
- 自律システムの知覚と制御- ADAS(特にL3以上)のような自動車アプリケーションや、厳しい環境条件下での自律的な産業機器ハンドリングやナビゲーションアプリケーションは、リアルタイムでの継続的で正確な環境の知覚を必要とします。エッジMLエージェントが、ビデオフィードを処理して正確な状態遷移モデルを構築し、将来の状態がどのようなものであるかを合理的な精度と信頼性をもって予測することができたときにのみ、エッジMLエージェントは、望ましい結果状態に導くための情報に基づいた制御決定を行うことができるようになります。
関連ブログ
誰が最先端を進んでいるのか?
カーネギーメロン大学(CMU)のような学術機関やフェイスブックのような企業は、OpenPoseやSlowFast Networksでの取り組みを通じて貢献している。しかし、これらのソリューションが主流の企業ユースケースで採用されるようになるにつれ、この分野はまだ進化を続けている。
eInfochipsは小売業、運輸業、工業製造業など様々な業界のお客様と、物体検出・追跡、アクティビティ認識、ポーズ推定などのコンピュータビジョンパイプラインや、エンティティ認識、感情分析などの自然言語処理アプリケーションを使用したMLベースのソリューション開発に携わっています。詳細については、今すぐお問い合わせください。