Détection d'objets industriels à l'aide de modèles 3D dans des images égocentriques.

Julia Cohen

Résumé

Industrial manufacturing can be facilitated using innovative digital solutions such as Augmented Reality (AR). The development of new devices such as AR headsets and headmounted devices enable operators to visualize assembly instructions while having their hands free to manipulate the physical pieces. The detection of these industrial objects through a head-mounted camera enables the virtual elements to automatically adapt to the real scene. However, images captured with an AR headset present visual artefacts inherent to the egocentric point of view. Although object detection in images is a popular application of deep learning for its effectiveness, artificial neural networks are rarely applied to egocentric images and industrial objects. The task is even more complex when no real image of the objects of interest is available, and the algorithm will be embedded in a mobile computer with a real-time inference requirement. In this PhD prepared at LIRIS lab and in collaboration with engineering and design company DEMS, we addressed the topic of industrial objects recognition in images from an AR headset. We leveraged the available 3D models of the objects of interest in order to create a synthetic and egocentric dataset for the training of mobile and real-time neural networks. We analyzed the key elements of this synthetic dataset in order to remove the need for real images during training. Then, we proposed to use the depth information contained in RGB-D images to improve the performance of the object detector. We tackled the issue of domain generalization from synthetic to real RGB-D images, and we proposed different approaches in order to reduce the reality gap, that are compatible with a mobile and real-time inference.

L'assemblage de produits industriels peut aujourd'hui être facilité et accéléré par l'usage de solutions numériques innovantes telles que la réalité augmentée (RA). En effet, le développement de nouveaux supports tels que des casques de RA permet aux opérateurs de visualiser des instructions tout en ayant les mains libres pour la manipulation des pièces. La détection de ces objets industriels par une caméra positionnée sur le casque permet une adaptation des éléments virtuels à la scène réelle. Cependant, les images issues d'un casque de RA présentent des difficultés inhérentes à leur point de vue égocentrique. Bien que la détection d'objets dans des images soit l'une des applications dans lesquelles l'apprentissage profond excelle, les réseaux de neurones artificiels sont rarement appliqués aux images égocentriques et contenant des objets industriels. En particulier, la tâche se complique lorsqu'aucune image réelle des objets à identifier n'est disponible, et lorsque l'algorithme de détection doit être déployé sur un système embarqué pour une application en temps réel. Dans cette thèse menée au laboratoire LIRIS et en partenariat avec le bureau d'études en ingénierie et design DEMS, nous nous sommes attaqués à la problématique de la reconnaissance d'objets industriels à partir des images d'un casque de RA. Nous avons tiré parti de la disponibilité des modèles 3D des objets d'intérêt afin de générer un jeu de données synthétique égocentrique pour l'entraînement de réseaux de neurones compacts, dédiés à la détection mobile et en temps réel. Nous avons analysé les éléments de ce jeu de données permettant de se passer totalement d'images réelles pour entraîner ce réseau de neurones. Par la suite, nous avons étudié la possibilité d'utiliser l'information de profondeur contenue dans les images RGB-D afin d'améliorer la performance du détecteur d'objets. Nous avons ainsi abordé la problématique de la généralisation de domaine entre des images RGB-D synthétiques et réelles, et nous avons proposé différentes approches afin de réduire l'écart à la réalité, compatibles avec une inférence mobile et en temps réel.

Industrial objects detection using 3D models in egocentric images

Détection d'objets industriels à l'aide de modèles 3D dans des images égocentriques.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager