La vision par ordinateur basée sur les ML a considérablement évolué grâce à une recherche ciblée visant à faire progresser l'état de l'art et aux investissements des entreprises pour construire ou exploiter des plateformes prêtes à l'emploi. En termes de fonctionnalité, l'analyse spatiale précise et fiable pour la détection d'objets et la classification d'images a progressivement évolué vers l'analyse spatio-temporelle pour le suivi de l'état des objets (par exemple, les opérateurs humains) en termes de forme, d'orientation (par exemple, la pose d'un opérateur humain) et d'interaction avec l'environnement (par exemple, les actions d'agents humains dans divers paysages). Des plates-formes d'entreprises destinées à développer des cas d'utilisation industriels complets sont en cours d'élaboration et adoptent diverses options architecturales et technologiques.
Quel est le contexte ?
Au début des années 2010, les approches de vision par ordinateur basées sur la ML ont fait progresser l'analyse spatiale des images, c'est-à-dire la classification des images et la détection des détails des objets dans les images, en termes de performance, de coût de calcul et de préparation à la production.
Les algorithmes ont obtenu des résultats de pointe sur des ensembles de données d'entraînement complexes, à usage général ou spécifique à un domaine, alimentant des applications dans des cas d'utilisation en boucle ouverte et fermée dans tous les secteurs verticaux de l'industrie. Les entreprises et les fournisseurs de technologies grand public mettent au point des produits de pointe pour détecter les objets (y compris les visages), les classer, les localiser et mesurer le nombre d'instances de différents types d'objets dans l'image d'entrée.
Dans l'ensemble, ces applications sont destinées à l'analyse ponctuelle d'images, avec peu de corrélation entre les images. Cela limite l'utilité des informations et des actions sur le flux de travail tirant parti des résultats de ces applications - en raison de l'absence de dimension temporelle dans l'analyse, l'évaluation de la causalité et la prédiction de l'état de l'objet dans l'image font défaut. L'observation et l'analyse des actions des opérateurs humains engagés dans diverses tâches industrielles, commerciales et individuelles au fil du temps constituent un exemple où cette analyse présente un intérêt particulier.
Quelles sont les considérations technologiques ?
Le problème central ici est le suivi de l'état de l'objet. L'état de l'objet est décrit de deux manières. La forme de l'objet (forme, taille, caractéristiques), son orientation et son emplacement dans l'image sont appelés informations spatiales. Les algorithmes mentionnés ci-dessus excellent dans la capture de ces attributs dans les images, même en cas d'occlusion importante (un autre objet, un contexte bloquant partiellement l'objet d'intérêt), de faible luminosité et de flou occasionnel.
Cependant, nous voulons également comprendre comment l'état de l'objet évolue dans le temps. Les informations montrant l'évolution de l'état de l'objet dans le temps sont appelées informations temporelles. L'objectif de la solution est donc d'analyser et de construire un modèle de transition d'état à l'aide des informations spatio-temporelles pour les objets dans le champ de vision.
Cela nécessite généralement un algorithme complexe avec des modèles travaillant en tandem pour effectuer deux tâches principales
- Identification et localisation de l'objet dans le champ de vision de la vidéo - cette opération est réalisée à l'aide d'un réseau neuronal à convolution (CNN) basé sur la détection d'objets et le pipeline de modèles de localisation.
- Suivi des changements d'état de l'objet (le plus souvent, la forme et l'orientation) - ce suivi est effectué à l'aide d'un modèle basé sur un réseau neuronal renforcé (RNN), qui permet de suivre les changements dans le temps.
Diverses approches ont été envisagées et adoptées au cours des dernières années. Chacune d'entre elles a eu son heure de gloire en tant qu'état de l'art dominant et a ensuite ouvert la voie au modèle suivant pour atteindre des niveaux de performance encore plus élevés.
Nous examinerons de plus près les algorithmes qui composent ces approches de solution plus tard dans la série.
Quelles sont les applications typiques ?
La reconnaissance vidéo a trouvé des applications dans de nombreux secteurs d'activité et processus d'entreprise.
- Reconnaissance de l'activité humaine - La reconnaissance de l'activité basée sur le squelette est utile pour garantir le respect des processus dans les applications où des tâches définies doivent être exécutées dans une séquence fixe par des opérateurs humains. Il peut s'agir de processus commerciaux, industriels ou de soins de santé. Voici quelques cas d'utilisation possibles :
- Fabrication industrielle - production sur chaîne d'assemblage et contrôle de qualité des produits finis
- Commerce de détail - marchandisage et mise en rayon, manipulation de denrées périssables
- Logistique et entreposage - manutention de palettes de marchandises (dans l'entrepôt), manutention de marchandises fragiles/précieuses, chargement et déchargement, respect des procédures opératoires normalisées (pendant le transport).
- Soins de santé - suivi des patients et des prestataires de soins, en particulier pour les cas critiques et traumatiques
- Surveillance et contrôle des dispositifs chirurgicaux - Les applications de santé telles que la chirurgie endoscopique nécessitent une reconnaissance vidéo dans des environnements à faible luminosité avec une forte occlusion d'objets entre des organes corporels étroitement serrés, des vaisseaux sanguins, etc. Une perception exacte pour des actions de contrôle précises sur le dispositif chirurgical est impérative compte tenu des enjeux médicaux élevés (santé du patient, longévité) et des responsabilités éventuelles importantes (coûts d'assurance et de contentieux dus à des exigences médicales). Il s'agit d'un processus en boucle fermée et les aspects qui nécessitent une solution de reconnaissance robuste sont les suivants :
- Contrôle de la durée d'utilisation des outils chirurgicaux - pour estimer la durée de vie utile restante et s'assurer que les outils n'arrivent pas en fin de vie au milieu de l'opération.
- Garantir les meilleures pratiques d'utilisation des outils - respecter la séquence d'utilisation recommandée et sûre en cas d'utilisation de plusieurs outils chirurgicaux et diagnostiques.
- Recommandation des meilleures actions suivantes - pour évaluer l'évolution de l'état de transition de l'activité chirurgicale à l'aide des flux vidéo et de tout autre flux de capteurs disponible pour suggérer des actions avec des scores de probabilité de réussite.
- Perception et contrôle des systèmes autonomes - Les applications automobiles telles que les ADAS (en particulier L3 et au-delà) ainsi que les applications autonomes de manutention d'équipements industriels et de navigation dans des conditions ambiantes difficiles nécessitent une perception continue et précise de l'environnement en question en temps réel. Ce n'est que lorsque l'agent ML périphérique aura construit ce modèle précis de transition d'état en traitant les flux vidéo et pourra prédire avec une précision et une confiance raisonnables les états futurs immédiats qu'il sera en mesure de prendre des décisions de contrôle éclairées qui conduiront à l'état de résultat souhaité.
Qui fait progresser l'état de l'art ?
La reconnaissance vidéo a été au centre des préoccupations de nombreux groupes de recherche de la communauté de l'apprentissage automatique, tant au niveau universitaire qu'industriel. Des institutions universitaires comme l'université Carnegie Mellon (CMU) et des entreprises comme Facebook y ont contribué par leurs efforts sur les réseaux OpenPose et SlowFast. Toutefois, le domaine continue d'évoluer à mesure que ces solutions sont adoptées dans les cas d'utilisation courants par les entreprises.
eInfochips est engagé avec des clients dans des secteurs tels que la vente au détail, le transport et la fabrication industrielle dans le développement de solutions basées sur la ML utilisant des pipelines de vision artificielle pour la détection et le suivi d'objets, la reconnaissance d'activité et l'estimation de la pose ainsi que des applications de traitement des langues naturelles telles que la reconnaissance d'entités et l'analyse de sentiments. Pour plus d'informations, veuillez nous contacter dès aujourd'hui.