La possibilité qu’un ordinateur soit capable d’identifier un objet ou bien une personne sur une photo ou une vidéo (machine vision, ou vision par ordinateur) est une quête qui a animé la communauté scientifique depuis plus de 60 ans.
Très tôt, les industriels ont compris le potentiel de l’intelligence artificielle pour automatiser le contrôle des produits dans le cadre des processus qualité. De la même manière, les médecins ont très bien saisi l’intérêt d’être accompagnés par un « super assistant » dans la détection précoce de tumeurs, par exemple. Les cas d’usages de la machine vision sont très nombreux car, avec elle, l’ordinateur accède à la capacité de percevoir et de « comprendre » son environnement. En effet, elle permet aussi bien d’identifier des plantes que de compter des foules, des nuées d’oiseaux (et même de reconnaître les oiseaux individuellement !) ou de surveiller des événements. Elle permet aux machines de modéliser l’environnement, ce qui est indispensable pour la navigation autonome des véhicules, ou de générer des formes 3D de manière efficace.
Dès les années 1960, les premières expériences de la vision par ordinateur voient le jour dans les universités américaines. La plus emblématique est probablement le projet « Summer Vision » mené en 1966 au MIT (Massachusetts Institute of Technology, USA). A l'époque, l’objectif était à de développer un système permettant aux ordinateurs d'identifier et de catégoriser les objets dans les images.
Après cette date, de nombreux chercheurs ont contribué au développement de la vision par ordinateur. Dans les années 70 et 80, on peut citer David Marr et ses travaux sur la représentation et le traitement des informations visuelles, mais aussi Yann LeCun (actuel patron de l’IA chez Meta), Geoffrey Hinton (ex-membre de Google Brain) et Yoshua Bengio (Professeur à l’université de Montréal). Ces derniers ont été les pères de l’utilisation de l'apprentissage profond (réseaux neuronaux) pour développer la vision par ordinateur. Le deep learning, qu’ils ont appliqué lors du concours de reconnaissance ImageNet en 2012, a fait une démonstration époustouflante de son efficacité en réduisant le taux d’erreur d’identification de 25 % à 16 %. Quelques années plus tard, il sera réduit à quelques pourcents. Pour leurs travaux, ils recevront le prix Turing en 2018.
Avant d’aller plus loin, il faut s’arrêter un instant sur les notions de deep learning et de « réseaux de neurones ». Ces derniers ont joué un rôle majeur dans la mise au point de la vision machine.
En effet, les réseaux de neurones, dits convolutifs, (Convolutional Neural Networks - CNN) sont largement utilisés dans la vision par ordinateur pour traiter les images. Chaque couche d'un CNN applique différents filtres pour reconnaître de petits motifs, puis assemble ces motifs dans les couches supérieures pour reconnaître des formes plus grandes et plus complexes. Grâce à l'apprentissage profond, les ordinateurs ont pu apprendre à identifier et à localiser des objets dans les images et les vidéos. C’est ensuite l'apprentissage par transfert qui a permis d'utiliser des modèles préentraînés, sur de grandes bases de données, pour effectuer des tâches spécifiques avec une petite quantité de données, générant ainsi une économie significative en temps et en ressources de calcul. Soulignons que l’apprentissage profond a permis de déceler des expressions faciales chez l’humain ou les animaux. C’est très important car ceci caractérise le lien vers les émotions humaines.
Pour que le tour d’horizon soit complet, mentionnons d’autres techniques d’apprentissage comme les modèles génératifs et, en particulier, les réseaux antagonistes génératifs (GANs). Ces modèles sont utilisés pour créer de nouvelles images qui ressemblent à des exemples réels et qui vont servir à l’apprentissage !
La capacité de vision de l’intelligence artificielle a donc transformé la façon dont les machines perçoivent le monde qui les entoure et interagissent avec lui. Ces technologies sont déjà utilisées par le groupe Egis. En effet, à l’instar des technologies de traitement du langage naturel, le groupe Egis déploie et exploite déjà largement les solutions basées sur la machine vision.
A titre d’exemple, nos équipes spécialisées en Conseil et en Exploitation ont d’ores et déjà réalisé plusieurs preuves de concepts IA et déployés différentes solutions dans leurs activités. Pour illustrer cette démarche, voici deux exemples de réalisations menées par le groupe Egis au cours des derniers mois.
Le premier projet, AI For Infra Monitoring, qui a commencé à la fin du premier semestre 2022, concerne la maintenance prédictive des infrastructures, en particulier des routes. Conduit avec le partenaire IRIS GO, ce projet, piloté entre la France et l’Australie (le sponsor Egis du projet est Mark Woolstencroft), a permis de répondre à l’objectif suivant : peut-on identifier de manière automatique les défauts de la route et des actifs ROW (marquages routiers, garde-corps, signalétique) ? Eh bien, la réponse est oui !
Il aura suffi d’entraîner une intelligence artificielle à reconnaître des défauts (par un apprentissage machine supervisé) pour réaliser cette innovation. La machine identifie et localise le problème pour que l’équipe puisse le prendre en charge et le résoudre.
La solution existe aujourd’hui sous forme d’un Proof of Concept (POC) pour mener une évaluation approfondie. Elle permet la surveillance continue de l'infrastructure et l’amélioration de la qualité de l'inspection. La sécurité, l’efficacité et la réactivité du personnel est accrue, tout comme la qualité des rapports, car cette technologie s’interface facilement avec les outils existants (SIG, ERP et gestions d’actifs).
Le second projet, Satellite Monitoring, déployé en 2020 au Portugal puis, courant 2023, en Turquie, concerne la surveillance par satellite des routes et de leur environnement, l’objectif étant d’améliorer l’efficacité de la surveillance et l’optimisation des travaux lorsqu’ils s’avèrent nécessaires. Grâce à l’IA, il est possible d’anticiper les évolutions de la chaussée et de son environnement immédiat (terrain et végétation).
Lors de la première phase du projet, l’objectif était limité à la prévention des glissements de terrain et à la surveillance de la végétation (pour détecter les maladies des arbres, par exemple). Lors de la deuxième phase, la surveillance s’est étendue à la chaussée, aux structures, aux marquages routiers et aux garde-corps. La solution intègre également une évaluation du stockage carbone du site.
Cette innovation, basée sur le traitement des images satellites par l’IA, permet à la fois de regarder le passé, de gérer le présent et d’anticiper l’avenir.
En définitive, la vision par ordinateur, basée sur l’identification du contenu de photos et de vidéos, donne à la machine une certaine « perception » de son environnement extérieur. Les cas d’usage appliqués sont de plus en plus nombreux : de la reconnaissance faciale pour déverrouiller le smartphone aux véhicules autonomes qui « perçoivent » leur environnement, en passant par la détection précoce des tumeurs cancéreuses. La machine vision est partout !