Les mots à connaître en 2024 : intelligence synthétique

Florence Hermelin (Unlock Potentials) se penche, pour INfluencia, sur les mots qui marqueront 2024. Une série riches en surprises et découvertes pour être aware... Aujourd'hui, l'intelligence synthétique... Bien loin de la fille au bas nylon!

Notre monde produit chaque jour 2,5 trillions d’octets de données (source IMB, 2018), à l’origine de nombreux modèles prédictifs et d’analytics précieux. Afin de permettre une plus grande accessibilité à la data, les scientifiques ont imaginé développer en parallèle des jeux de données statistiques, générés uniquement de manière artificielle et non plus collectés à partir de sources réelles.

Une data, dite synthétique, pour bien faire la distinction. Avec des avantages certains, comme une plus grande sécurité (protection contre le cyber risque, moins de biais de représentativité) et confidentialité (nativement anonymisée, avec moins de contraintes réglementaires), notamment pour des secteurs sensibles (santé, armée…), avec des coûts bien plus limités pour son exploitation.

cette technologie, dont l’appétit semble insatiable, s’est rapidement heurtée aux limites du droit d’auteur dans son utilisation pirate des données produites par les humains

Jusque-là principalement utilisée pour des simulations, la data synthétique est devenue aujourd’hui un enjeu majeur, avec l’explosion récente des besoins pour entrainer automatiquement les modèles d’IA, afin de démontrer leur robustesse et surtout leur potentiel. En effet, cette technologie, dont l’appétit semble insatiable, s’est rapidement heurtée aux limites du droit d’auteur dans son utilisation pirate des données produites par les humains. Avoir recours à des datas synthétiques est apparu comme une solution miracle alors même que l’IA générative entrait avec fracas dans notre quotidien (ChatGPT n’a mis que 5 jours pour rassembler son premier million d’utilisateurs, fin novembre 2022). Aussi, il n’est pas étonnant que les analystes de Gartner nous prédisent que 60% des datas utilisées en 2024 dans le monde pour entrainer les systèmes d’IA seront désormais artificielles (contre à peine 1% en 2021). Cela va opérer un glissement majeur d’une IA qui s’éloigne du code vers une IA de la donnée, premiers petits pas vers l’IA générale (IA capable d’agir comme le cerveau humain) qui fait encore beaucoup débat.

quelles garanties avons-nous sur cette nouvelle combinatoire, qui peut s’éloigner à chaque fois un peu plus de la réalité, avec des données créées par une machine pour une autre machine, de façon opaque ?

Si ces outils ouvrent le champ des possibles créatifs, ils recèlent aussi nombre d’inconvénients dont il faut avoir conscience. Car le principe des IA génératives n’est pas uniquement de s’entrainer pour s’améliorer mais de proposer, dans leurs résultats, une recombinaison de ces données, de nature à offrir la meilleure des réponses à la demande de n’importe quel utilisateur, humain ou non. Or, quelles garanties avons-nous sur cette nouvelle combinatoire, qui peut s’éloigner à chaque fois un peu plus de la réalité, avec des données créées par une machine pour une autre machine, de façon opaque ?

Cette probabilité ne semble pas véritablement inquiéter la sphère scientifique qui met en place des garde-fous autour de systèmes de validation, encore humains mais jusqu’à quand ? Déjà la production d’outils d’affinage, comme le DPO (Direct Preference Optimisation) pour les grands modèles de langage (LLM) permet au modèle de base d’accroître sa performance, en développant sa propre fonction de récompense, avec de meilleurs résultats dans la réduction des textes toxiques qu’avec le renforcement par feedback humain. Ainsi, de la génération de prompts automatisés (déjà proposés par Auto-GPT ou BabyAGI) jusqu’à la validation des résultats, l’intervention humaine pourrait rapidement devenir non nécessaire dans cette boucle entièrement synthétique, pourtant dédiée à améliorer nos vies.

Il en va autrement de la production humaine de contenus synthétiques à partir d’outils d’IA générative (texte, audio, visuel), de nature à jeter la confusion en créant des deep fake news, de plus en plus indétectables. Si aujourd’hui nous les imaginons surtout comme des outils au service de notre divertissement (comme Meta qui tente de rallier à coup de millions les célébrités pour utiliser leur voix dans ses chatbots), d’autres ont bien compris l’usage politique qui pourrait en être fait. Au-delà des questions d’éthique, se pose le risque qu’encoure nos démocraties confrontées à la désinformation. Car la confiance dans la véracité des faits est essentielle pour nourrir le vivre ensemble.

Open AI, Microsoft ou encore Adobe travaillent quant à eux sur des outils de marquage invisible pour identifier clairement ce qui relève de la machine dans la production de contenus.

Heureusement, les grands acteurs commencent à sérieusement se mobiliser, comme YouTube qui demande à ses créateurs de mentionner l’utilisation de contenus synthétiques et lance une nouvelle fonctionnalité pour ses utilisateurs afin de demander le retrait de contenus artificiels réalistes sur une personne identifiable (avec une modération pour les contenus parodiques) ou toute production audiovisuelle reproduisant la voix d’artistes (à l’instar de Spotify qui a retiré récemment des milliers de chansons). Open AI, Microsoft ou encore Adobe travaillent quant à eux sur des outils de marquage invisible pour identifier clairement ce qui relève de la machine dans la production de contenus. La vigilance est en marche !

À côté de la demande récurrente sur la toile d’identification humaine, symbolisée par le fameux « Je ne suis pas un robot », il se peut que demain nous en venions à exiger une réciprocité à la machine sur la nature et la qualité de ses contenus. Synthétiques, peut-être mais pas automatiques !