La création et la mise au point d’une intelligence artificielle nécessitent essentiellement trois ingrédients : des données, un algorithme et de la puissance de calcul. Aujourd’hui, les algorithmes comptent de plus en plus de paramètres (175 milliards pour ChatGPT 3.5) et ils doivent se nourrir d’un volume de données très important pour être entraînés correctement et proposer des réponses pertinentes.
L’humanité dans son ensemble produit, depuis plusieurs décennies déjà et de manière exponentielle, un volume de données considérable. Ces données sont principalement issues d’Internet, des objets connectés ou de la production des entreprises.
Afin de prendre conscience de la quantité de données générée par nos activités, il est utile de regarder ces sources de données de plus près. Le monde des objets connectés (connu sous le terme d’internet des objets ou IoT) est apparu dans les années 1980. L’IoT s’est développé de manière régulière et rapide au cours des quarante années suivantes. On parle ici de capteurs ou d’outils de mesure qui sont utilisés et présents dans les processus industriels, les « bâtiments intelligents », la mobilité et le transport.
En réalité, les objets connectés sont partout ! Le capteur de température et d’humidité de mon logement est un objet connecté qui produit de la donnée, laquelle pourrait être utilisée pour alimenter une IA.
Initialement, les dispositifs IoT se limitaient à la collecte et à la transmission de données. De nos jours, avec l'évolution du machine learning et des cadres d'intégration très légers, ces dispositifs peuvent être configurés pour initier leurs propres actions ou pour répondre aux événements qui ont lieu dans leur environnement.
Selon le cabinet d'étude de marché américain IoT Analytics, 14,4 milliards d'objets connectés sont enregistrés en 2022. D’ici à 2025, ce nombre devrait passer à 27 milliards.
Il n’y a pas que l’IoT ! Un autre membre éminent de la famille des producteurs de données est Internet. Nous savons tous que la Toile est un très grand collecteur et générateur de données. En octobre 2022, le nombre d'utilisateurs d’Internet sur la planète a atteint 5,07 milliards (en croissance de 3,5 % par rapport à l’année précédente).
Pour se rendre compte de ce dont on parle, voici quelques exemples révélateurs du volume de données produites sur Internet en 1 minute (septembre 2022) :
- 9,6 millions de recherches sur Google
- 231,4 millions d’e-mails
- 104 600 jours de visio Zoom
- 1 million d’heures de streaming vidéo
- 443 000 $ de chiffre d’affaires pour Amazon
- 1,1 million de swipes utilisateurs de Tinder
- 66 000 photos sur Instagram
C'est vertigineux !
Enfin, il y a les données des entreprises.
Elles produisent un volume de données, lui aussi, tout à fait considérable. Ces données sont souvent « peu, pas ou mal » exploitées, alors que le volume de données produit dans les industries ne cesse de croître. Il atteindrait aujourd’hui 2,02 pétaoctets (un pétaoctet équivaut à 1 million de gigaoctets).
Afin de comprendre les enjeux qui se dessinent autour de la donnée, il faut être conscient que 80 % des données mondiales produites en 2025 ne seront pas structurées, c’est-à-dire, non organisées… Pour le dire encore plus simplement, « en vrac ». Les techniques d’entraînement des intelligences artificielles s’orientent donc de plus en plus vers l’apprentissage profond et les réseaux neuronaux.
En conclusion, nous vivons dans un monde numérique qui produit une quantité de données (non structurées) de plus en plus considérable.
Et ça tombe bien car le carburant de l’intelligence artificielle, c’est la donnée ! En effet, alors que le nombre de paramètres des algorithmes d’apprentissage profond ne cesse d’augmenter (bientôt des milliers de milliards de paramètres), il est également indispensable de disposer de toujours plus de données pour améliorer les performances de la machine. On a coutume de dire que, dans le domaine de l’intelligence artificielle, 80 % du travail réside dans les données. C’est vrai !
Plusieurs problèmes liés aux données sont tout à fait courants dans le domaine de l'IA. En premier lieu, lorsque les données utilisées pour l'entraînement des modèles sont incomplètes ou inexactes, cela affecte les performances et la fiabilité des modèles. Ensuite, il y a la question des biais dans les données, qui peuvent être introduits de différentes manières, notamment lors de la collecte, de la sélection des échantillons ou du processus d'étiquetage (ou de qualification). Ces biais peuvent se refléter dans les prédictions des modèles d'IA, ce qui peut produire des résultats discriminatoires ou injustes. Le manque de diversité dans les données est un problème pour l’IA. Il peut conduire à des modèles qui ne sont plus pertinents pour des populations ou des situations différentes de celles sur lesquelles ils ont été formés. Cela donnera des résultats moins précis et moins fiables dans des contextes réels. De la même manière, l’évolution des données dans le temps doit également être un point d’attention. Les modèles doivent être mis à jour régulièrement avec de nouvelles données pour rester pertinents et précis dans des environnements en constante évolution. Cerise sur le gâteau, la collecte, le stockage et la gestion de ces volumes massifs de données représentent souvent des défis en matière de coûts, d'infrastructure, de confidentialité et de conformité aux réglementations.
Pas simple !
Soucieux d’améliorer la qualité des données dans le cadre de son activités, Egis a développé un savoir-faire dans la caractérisation et la qualification de la donnée. Cette expertise s’appuie sur une compréhension approfondie des différents aspects des données (structure, qualité, fiabilité et pertinence). De manière plus détaillée, il faut souvent caractériser la donnée, c’est-à-dire identifier et décrire les caractéristiques fondamentales des ensembles de données. Cela implique une compréhension fine de la nature, la structure et les propriétés des données afin de pouvoir les analyser et les utiliser de manière appropriée. Ce savoir-faire existe chez Egis et permet de produire des données mieux caractérisées qui augmenteront les performances des algorithmes.
De la même façon, Egis travaille à la qualification de la donnée. Il s’agit d’une autre étape essentielle dans la gestion des données, visant à s'assurer que les données utilisées sont fiables, précises et adaptées à l'objectif ou au contexte spécifique. C’est un travail souvent laborieux mais indispensable si l'on souhaite mettre au point une IA performante.
Le travail consiste à vérifier l'exactitude, la cohérence, l'intégrité et la complétude des données, à s’assurer que les données sont exemptes d'erreurs, de doublons ou de valeurs manquantes et qu'elles sont conformes aux normes de qualité définies. Il consiste aussi à vérifier qu’elles sont pertinentes et que les données nécessaires à l’apprentissage ou au fonctionnement de l’algorithme sont bien présentes. Bien entendu, elles doivent être valides, c’est-à-dire représenter fidèlement les phénomènes ou les objets qu'elles sont censées représenter.
Dans tout projet d’intelligence artificielle, la donnée est essentielle. Il faut la "travailler" pour obtenir des résultats performants. C’est la raison pour laquelle Egis a développé une expertise. C’est un fondement solide pour développer et déployer des intelligences artificielles.