Petit billet sur l’IA et l’éthique

Disclaimer

Ce billet, bien qu’écrit avec l’intention d’une rigueur scientifique, n’est pas un article scientifique. L’auteur ne prétend pas pouvoir présenter une revue exhaustive de la litérature scientifique, et ce billet n’est pas soumis à relecture auprès d’un comité scientifique. Il ne prétend pas non plus présenter un point de vue objectif et a une orientation critique recherchée. Aussi, cet article a vocation à évoluer, au fur et à mesure des remarques et des commentaires qui pourront venir enrichir les vues proposées ici.

Cette série d’ articles est le fruit de la réflexion d’un doctorant travaillant dans le domaine de l’intelligence artificielle (IA), et qui s’interroge sur son propre rôle dans les rouages d’un système complexe. Les vues proposées dans la suite de l’article sont propres à l’auteur et non nécessairement représentatives des chercheurs du domaine.

Toutes les illustrations de l’article ont été générées par l’auteur à l’aide d’images du domaine public.

Introduction

La question de l’éthique en IA remonte aux premiers balbutiements de la profession ; on peut ainsi retrouver chez Asimov, dans ses romans de science-fiction, les premières lueurs de l’exploration des dilemmes moraux liés à l’implémentation de l’éthique dans des systèmes informatiques.

Si la question d’une IA éthique se posait dans la recherche, peu s’attendaient à ce que la problématique devienne sérieuse avant l’apparition des AGI, les Artificial General Intelligence, ou intelligences artificielles générales, celles que l’on rencontre dans les films ou les romans (ceux d’Asimov par exemple). Les systèmes dits ‘intelligents’ développés aujourd’hui, loin de ces prouesses, se contentent de domaines d’application bien spécifiques et seraient donc exempts de considérations morales, puisque n’agissant sur des problèmes qu’au niveau de l’ordre technique – à l’exemption des systèmes de prises de décisions, qui ont leur propres dilemmes, mais ces derniers ne sont pas pas spécifiques à l’IA.

De nombreuses controverses ont pourtant largement relancé le débat de l’éthique en IA, et de plus en plus de chercheurs appellent à une meilleure prise en compte des conséquences du déploiement de l’IA dans la société. C’est devenu un enjeu majeur de la recherche, à tel point que NIPS (Neural Intelligence Processing Systems), l’une des plus grandes conférences en Apprentissage Machine (ML, pour Machine Learning), impose à ses auteurs de réfléchir sur l’impact de leur recherche, à travers un “Broader Impact Statement”.

Si la mesure semble risible pour certains (après tout, en demandant aux personnes concernées de remettre en cause leur propre travail, on risque de tomber sur tout un tas de biais), elle reste néanmoins la toute première mesure contraignante prise à un niveau mondial sur la prise en compte de l’éthique dans la recherche en IA.

Cela soulève tout un tas de questions, qui sont les suivantes : Qu’est-ce que l’éthique en IA ? Peut-on réellement parler d’IA ‘éthique’ ? Quels sont les tenants et les aboutissants d’une telle IA ?

Dans ce billet en deux volets, nous allons nous intéresser aux différentes considérations éthiques de l’IA, aux différents niveaux auxquels elle s’applique. Nous explorerons les moyens mis en oeuvre aujourd’hui pour intégrer l’éthique dans le principe même de l’IA, à leurs limites, leurs faiblesses et leurs forces.

Du flou initial des concepts discutés

La première difficulté quand on parle d’éthique en IA, ou d’IA éthique, c’est le flou des termes utilisés. Sans trop rentrer dans les détails, nous proposons ici une exploration rapide des problématiques liées à ces termes.

L’éthique, une norme non uniforme

L’adjectif ‘éthique’ […] ne peut être associé qu’à une démarche, une délibération, une réflexion, une question, un principe, une valeur, etc.

L’éthique selon Wikipédia, est “[…] une discipline philosophique portant sur les jugements moraux et dont le concept est donc très proche de celui de la morale. C’est une réflexion fondamentale de tout peuple afin d’établir ses normes, ses limites et ses devoirs.” Jean-Gabriel Ganascia, dans son intervention sur l’éthique et l’épistémologie des données, différencie éthique et morale de la manière suivante : la morale définirait les règles à suivre tandis que l’éthique serait la réflexion sur ces règles. Si cette distinction est faite en France, elle ne l’est pas forcément ailleurs – ce qui complique déjà la tâche d’une définition d’une éthique de l’IA, puisque celle-ci est supposée intrinsèquement universelle puisque l’IA l’est aussi.

À l’international, ‘ethics’ en anglais se traduit généralement par ‘déontologie’ en français. La déontologie peut être professionnelle, ou … éthique. Toujours selon Wikipédia, “l’éthique déontologique ou déontologisme […] est la théorie éthique qui affirme que chaque acte moral doit être jugé selon sa conformité (ou sa non-conformité) à certains devoirs”, tandis que “Le terme déontologie professionnelle fait référence à l’ensemble de principes et règles éthiques (code de déontologie, charte de déontologie) qui gèrent et guident une activité professionnelle. Ces normes sont celles qui déterminent les devoirs minimums professionnels exigibles dans l’accomplissement de leur activité”. Si ces définitions ne sont pas égales, elles possèdent un parallèle : l’existence d’une conformité ou de normes qui doivent guider nos actions. Confondons pour la suite éthique et déontologie, pour des questions pratiques.

Le Penseur de Rodin, repensé par une IA selon le style de la Nuit étoilée, de Van Gogh

Ramenée à l’IA, l’éthique semble être un ensemble de règles, normes, principes, devoirs, toutes universelles. Faire de l’IA éthique, ce serait donc se conformer à ce qui constitue cette éthique. Nous reviendrons plus tard sur la construction et la définition de ces règles ; le concept même de règles universelles semble déjà soulever des paradoxes.

Une telle règle éthique suppose un contexte dans lequel elle s’applique ; les normes supposent un état ‘normal’, et donc un contexte associé. Hors les normes sont connues pour être spatialement variables sur Terre, ainsi que les principes et devoirs des humains qui vivent sur notre planète. De fait, une norme morale universelle, par définition, n’existe pas. La morale dépend largement de la culture, des mœurs, de l’éducation. Dans le monde informatique, une application éthique se devrait donc de s’adapter à son public, à la morale de chacun. Les choix éthiques pour une personne s’opposant possiblement aux choix éthiques d’une autre , un système d’IA (SIA) éthique ne pourrait donc pas être consistant mais devrait s’adapter à son utilisateur. On est ici à l’opposé du principe éthique, celui qui doit être tenu envers et contre tout ; l’éthique proposée est permissive et s’autorise les largesses de chacun. Dans ce cadre là, l’éthique disparait pour ne devenir qu’une forme de morale malléable, assimilable au “bon sens”, si peu partagé d’un être à un autre.

Enfin, la possibilité même d’une IA éthique doit être remise en question. Comme le rappelle Catherine Tessier dans son article Ethique et IA : analyse et discussion paru à la Conférence Nationale en Intelligence Artificielle (CNIA), “un programme ou une technique ne peut pas être ‘éthique’ en soi et ne peut être qualifié d”éthique’. L’adjectif ‘éthique’ […] ne peut être associé qu’à une démarche, une délibération, une réflexion, une question, un principe, une valeur, etc.” Aussi bien qu’une IA ne peut être déclarée éthique, elle ne peut être déclarée de confiance ; car la confiance ne se décrète pas comme une caractéristique technique. De fait, la recherche de l’éthique (ou de déontologie) en IA est paradoxale en premier lieu. Encore faudrait-il pouvoir définir précisément ce qu’est l’IA.

L’IA, ou les IAs

Ce qui est du ressort de l’IA, et ce qui ne l’est pas, n’est pas documenté ou encadré. L’Intelligence Artificielle est multitude : du domaine de recherche aujourd’hui très vaste au fantasme décrit dans les romans et jeux vidéos, il convient de clarifier ce à quoi on fait référence quand on parle d’IA. Si le terme est apparu de manière concrète dans les années 70, de multiples sous-déclinaisons et domaines ont depuis vu le jour. Des systèmes experts aux arbres de décisions, en passant par les réseaux neuronaux, de nombreuses approches intégrées au concept d’IA ont été proposées dans le champ de la recherche. Aujourd’hui, le terme IA fait beaucoup écho au terme d’apprentissage machine, et se rapporte le plus souvent aux méthodes dites de Deep Learning, occultant largement le reste des approches et méthodes qui se réclament aussi de la discipline. De ce premier constat, on a une première ambiguïté : l’objectif de l’éthique de l’IA n’est pas clair, tant qu’il n’y a pas une référence claire aux approches concernées ; est-ce spécifique aux méthodes d’apprentissage machine, ou au contraire cette éthique concerne-t-elle l’ensemble des approches qui se réclament de l’IA ?

Le fantasme lié à l’IA contribue aussi à enrichir les ambiguïtés des définitions ; les AGI nourrissent l’imaginaire, et cette anthropomorphisation de l’IA n’est pas sans conséquence. On en vient à parler de ‘machines qui pourraient décider par elles-mêmes’, de ‘machines autonomes’, autres termes mal choisis. Ce vocabulaire invite la machine au même rang moral que l’humain, lui prête des attributs cognitifs, par réplication ou génération automatique. Il invite à penser une machine morale et capable de décisions découlant d’une véritable réflexion éthique. Pourtant, en l’état des choses, une machine ne peut qu’établir des relations causales entre entrées et sorties. L’éthique, en tant que réflexion menée lors d’un processus de décision, est totalement absente des calculs menés par les machines.

Les systèmes d’IA développés aujourd’hui reposent sur des briques complexes qui dépassent de loin le simple développement de modèle ; la construction d’un jeu de données, le design et développement du modèle, ou encore le déploiement de ce dernier peuvent chacun être découpés en sous-étapes spécifiques qui se spécialisent de plus en plus, et intègrent des problématiques qui leurs sont propres. L’IA englobe non seulement un large panel de méthodes, mais aussi de pratiques en évolution rapide, qu’il est difficile de définir tant ces pratiques divergent d’une application ou d’une méthode à l’autre. Chaque grand groupe propose ainsi ses propres découpages et agencements de briques dans sa définition de l’IA, d’autant plus complexe qu’elle tente de rester globale (comme illustré par Balayn et al. pour la génération de dataset, ou la très complexe “anatomy of IA” qui retrace le cycle de vie complet d’un SIA en particulier : Alexa).

L’IA a donc une définition malléable, chacun faisant référence à sa propre compréhension du phénomène. Si, nous le verrons plus bas, les chercheurs s’intéressent parfois à des éléments bien spécifiques et définis en éthique de l’IA, le travail sur une définition globale et une entente sur l’objet de ce qui doit être éthique reste à faire. Mais à qui incombe ce travail ?

Les pratiquants de l’IA

Qui, dans ce contexte, fait vraiment de l’IA ? Qui est capable d’y apposer une certaine éthique, et dans quelle mesure ? Peut-on le faire de manière globale, ou doit-on décomposer chaque élément du pipeline de développement d’un système, décortiquer les workflows pour identifier les organes à modifier pour pouvoir apposer le sceau éthique ?

Le milieu de l’IA évolue dans le contexte particulier du domaine informatique – un domaine par essence assez ouvert, mettant en avant le travail collaboratif, le partage de code et l’entraide dans la construction de briques technologiques complexes. Il n’y a pas d’organisation centrale ou d’autorité régissant les accès de chacun aux différents éléments nécessaires à la mise en place de systèmes d’IA. De nombreux jeux de données sont en accès libre, ainsi que de nombreux modèles, et plateformes de mises en production.

N’importe qui, en théorie, peut se saisir des outils à disposition sur le net et construire ses propres modèles, systèmes et solutions ; n’importe qui peut mettre à disposition ses données pour qu’elles soient utilisées par d’autres, ou déployer les solutions clés en main dans les conditions qu’il lui plaira. Parler d’éthique de l’IA, c’est parler d’éthique à chacune de ces personnes qui se serviront des ressources à disposition. Ne baissons pas les bras devant l’éducation d’individus sur des questions qui ne les intéressent pas ; comme bien d’autres technologies, l’IA permet à tout un chacun de faire plus en mettant à disposition outils et démonstrations. Ce qui nous intéressera ici, c’est moins l’éthique des individus utilisant la technologie de l’IA (et donc pas spécifique à l’IA) que l’éthique de l’IA de manière générale, telle qu’abordée dans la recherche et les groupes industriels. S’il est légitime de s’interroger sur la puissance des outils mis à dispositions d’individus lambda, ce n’est pas l’objet de ce billet.

Nous nous intéresserons donc particulièrement à ceux qui font de l’IA, dans le sens ‘qui la pratiquent et la développent’, dans les groupes industriels, dans les laboratoires de recherche, dans les startups, dans les organisations, … Une éthique de l’IA doit englober chacun de ces acteurs, dans chacune de leurs spécialités. Pour autant, tous les maillons de la chaîne de développement n’ont pas la même importance dans ce qu’ils peuvent apporter pour rendre l’IA plus éthique. Le travailleur du clic précaire d’un pays en développement, s’il est bel et bien dans la boucle qui permettra de produire des SIA, n’a pas le même levier d’action que l’ingénieur organisant le déploiement d’un système de surveillance des plaques d’immatriculation des véhicules au dessus d’un péage.

L’éthique de l’IA se heurte donc, au niveau du vocabulaire à une première problématique. De quelle éthique, de quelle IA, de qui parle-t-on ? La suite de l’article se focalise sur l’éthique déontologique appliquée à l’apprentissage machine, dans l’ensemble de son pipeline. Nous commencerons par explorer les contradictions éprouvées entre IA et éthique, avant de constater les faiblesses de l’approche de la recherche. Nous explorerons ensuite les pistes pour le développement d’une IA éthique, avant de finir sur un état des lieux de l’avancement de ces pistes.

Liste non exhaustive des contradictions entre IA et éthique

Nous aborderons dans cette partie quelques contradictions entre l’IA telle qu’elle est pratiquée aujourd’hui et l’éthique telle que l’on imagine appliquée à l’IA. Pour ce faire, nous aborderons des points bloquants précis, en essayant de les organiser par ordre ‘chronologique’ du pipeline de développement des systèmes d’IA. Ces contradictions ne sont pas une liste exhaustive, mais mettent en lumière des contradictions qui invitent à porter un nouveau regard sur l”IA éthique’.

La recherche au service du marché

L’IA est en grande partie au service du capital. Si cette thèse semble une évidence dans le domaine de l’industrie, elle semble plus discutable dans le domaine de la recherche. Pourtant, ce dernier est bien inscrit dans le tryptique science-technique-industrie. Si dans l’imaginaire collectif, la science est indépendante, elle est en pratique extrêmement liée à l’industrie – par les financements après lesquels les chercheurs courent, par les partenariats qui apportent la pérennité des projets, et d’autres manières plus complexes. Les financements dans le domaine de la recherche dépendent de fonds, d’organismes, d’appels, qui jugent de la nécessité et du bien fondé d’un projet avant de le financer. Les critères de sélection dépendent de décideurs, dont l’agenda est bien souvent lié au développement de l’industrie ou du capital. Les grandes conférences en IA, lieux de prestige pour les chercheurs où les dernières avancées sont mises en avant après une rude compétition, sont elles-mêmes sponsorisées (comprendre : financées) par les grands groupes industriels.

Le bouquet lancé par ce graphe de Banksy a pris feu dans une reconstitution artificielle

L’IA est aujourd’hui un énorme enjeu pour le marché, et en conséquence est grandement financée par ce dernier. Il est naif de penser que l’IA peut alors s’affranchir des objectifs du marché, et qu’elle est utilisée à d’autres fins que l’enrichissement des investisseurs. Si certains pans de l’IA tentent de s’extraire de cette logique, les ressources mises à dispositions pour ces initiatives restent marginales comparées à celles servant le capital. L’illustration de ce phénomène se retrouve dans le véhicule ‘autonome’ ; financé de toutes parts, avec nombre de chercheurs éminents travaillant à rendre le rêve possible grâce à la vision par ordinateur, le traitement embarqué, le couplage de capteurs. Pourtant, comme le rappelle Cécile Izoard dans son livre “Lettre aux humains qui robotisent le monde : merci de changer de métier“, le véhicule autonome est surtout un moyen pour l’industrie d’optimiser ses rendements. Les capitaux, dans l’industrie comme dans la recherche, sont aujourd’hui aspirés dans les projets qui serviront l’accroissement des richesses des investisseurs, et la déclinaison d’une IA éthique semble peu cohérente dans un tel contexte.

Extraction de features, extraction de minerais

Les innovations technologiques des 30 dernières années ont largement contribué à l’intensification de l’exploitation des minéraux sur la surface terrestre. Le passage au tout numérique, l’arrivée des terminaux comme interfaces de travail, de communication, a aggravé une situation qui s’avérait déjà dramatique. Loin de ralentir la consommation de minerais, les progrès technologiques et les optimisations récentes sont le moteur d’un effet rebond conséquent, poussant à une extraction minière et une production métallurgique toujours croissantes. Au point que des instances comme la Banque Mondiale s’inquiètent des besoins supplémentaires en métaux qui pourraient être générés par les tendances futures . Cette exploitation de la planète est accompagnée par celle des populations défavorisées, qui vivent et travaillent là où la production et la pollution sont délocalisées. Pour eux, la transition numérique est devenue synonyme d’une aliénation toujours plus grande, de conditions de vie catastrophiques et de travail dégradant. Les loi de Moore et consorts promettent monts et merveilles dans les pays développés, et vie de misère dans les pays moins chanceux.

Si on ne peut porter l’IA comme responsable de la situation, on peut se poser la question de sa contribution. Si les systèmes dits de ‘Machine Learning’ ont pu autant se développer, c’est dû à la conjonction d’au moins trois facteurs : l’acroissement des capacités de calcul, des capacités de stockage, et des données générées. L’Apprentissage Machine, et son composant phare, les réseaux neuronaux, nécessite une grande capacité computationnelle pour pouvoir ‘apprendre’. Ces réseaux ont aussi besoin d’une grande quantité de données à absorber, afin d’en tirer les lois et les relations recherchées, et donc de grandes capacités de stockage. Enfin, grâce à l’accroissement des terminaux, la donnée est devenue abondante, disponible. Le premier ‘neurone’ informatique, le perceptron, date de 1995, et les premiers réseaux convolutionnels (réseaux de neurones très utilisés en vision par ordinateur) de 1998. Si les réseaux de neurones n’ont pas percé avant 2012, c’est en grande partie dû au contexte technologique qui ne s’y prêtait pas. Et ce contexte technologique, aujourd’hui assumé en tant qu’évidence par les décideurs, est poussé à son paroxysme ; si l’abondance des données a permis l’émergence du Machine Learning (ML), c’est aujourd’hui le ML qui pousse à la génération massive de données, la construction de machines aux capacités de calcul plus puissantes, la construction de datacenters plus grands. Dans ce contexte, il serait intéressant d’estimer la part des minéraux extraits du sol pour des systèmes d’IA. Nul doute qu’aujourd’hui la part de l’IA dans la dégradation écologique est importante, et qu’elle ne va cesser de croître tant que la tendance ne sera pas inversée. Pourtant, une réflexion éthique sur l’IA interrogerait son rôle dans la dégradation du système Terre et se permettrait de remettre en cause la nécessité même de technologies si énergivores et consommatrices de ressources.

Jeux de données, jeux de pays développés

La construction d’un jeu de données (ou dataset) est une étape nécessaire pour la plupart des systèmes de Machine Learning. Cette construction relève d’un ensemble de choix qui peuvent relever de la nature du jeu de données (type de données, méthode de collecte, source des données, métadonnées) à des aspects plus techniques (choix des types et méthodes d’annotations, stockage des données, diffusion).

Il existe trois motivations principales dans la construction d’un dataset : l’exploration des données à des fins d’analyse, le développement de benchmarks (tests génériques permettant de comparer les performances de plusieurs modèles) et le développement d’applications. Ces trois thématiques relèvent de questions éthiques bien spécifiques, qui ne seront pas étudiées ici, mais qui pourraient faire l’objet de réflexions ultérieures.

Les jeux de données ont été un outil important pour le développement du ML. Chaque année ont lieu des concours scientifiques, qui comparent les résultats de différentes équipes de chercheurs sur des objectifs particuliers définis sur des jeux de données communs. Par exemple, IMAGENET , composé aujourd’hui de plus de 14 millions d’images, proposait chaque année de 2010 à 2017 un concours regroupant divers objectifs (détection d’objets, localisation d’objets). Ces concours ont stimulé la recherche internationale, ont permis le développement de nombreux modèles et sont aujourd’hui les fondations des applications qui se développent partout dans le monde. Ces données, qui ont servi à harmoniser la comparaison des performances des modèles, et donc à produire une évaluation ‘générale’ des modèles, ne sont pourtant pas si générales que ça. En fait, si on s’intéresse à leur provenance, on s’aperçoit que la plupart des jeux de données qui ont ainsi été constitués à des fins scientifiques d’évaluation des performances des pairs ne sont représentatifs que des pays développés . Les données qu’ils contiennent ne proviennent en grande partie que des États-Unis, de l’OCDE ou des puissances asiatiques ; les autres pays ne sont donc pas ou peu représentés dans les jeux de données de la scène internationale.

Le problème est plus large qu’une simple sous-représentation des pays en développement dans les jeux de données. Les modèles de ML sont connus pour performer sur des données qui partagent le contexte de leurs données d’entraînement. Il y a peu de chances que des modèles entraînés dans de tels jeux de données puissent se montrer aussi performants dans les pays du Sud global que dans les pays développés (quand ils ne deviennent pas complètement hors contexte ) ; on assiste ici à la naissance des inégalités de performances des modèles qui se fait en faveur des pays développés.

La construction même de ces datasets soulève plusieurs questions épineuses : d’où doivent provenir les données, sous quelles conditions peut-on collecter des données ? Comment annoter des données, quelles étiquettes peut-on coller à une image ou une section d’une image ? Utilisation de données sans autorisations, étiquettes dégradantes, … de nombreuses problématiques liées à ces questions ont émergé ces dernières années, illustrées par les publications de Kate Crawford, ou des initiatives comme Exposing.ai ou Notflawless.ai.

Les travailleurs du clic

Connus en France par les émissions de Cash Investigation “Au secours, mon patron est un algorithme” et la série Arte “Invisibles – Les travailleurs du clic“, les travailleurs du clic ont aussi leur rôle dans les systèmes d’IA. Ils sont employés à différents niveaux – effectuant des micro-tâches, extrêmement fragmentées et répétitives, pour étiqueter les données, pour vérifier les sorties des modèles, etc… Souvent travailleurs défavorisés, ils se retrouvent exploités avec pour seul but d’améliorer les IAs, comme le dénonce Antonio Casilli dans son livre “En attendant les robots : Enquêtes sur le travail du clic“. À l’heure où l’on dénonce les compagnies textiles et minières ayant recours à des pratiques dégradantes, l’industrie de l’IA fait pâle figure quand elle entend avancer une éthique quelconque.

Cette forme d’exploitation n’est pas seulement pécunière, mais aussi sociale. Les ‘étiqueteurs’ n’ont souvent pas leur mot à dire sur les données sur lesquels ils travaillent et sur la façon dont ces dernières doivent être étiquetées. Les décisions reviennent entièrement aux commanditaires des jeux de données, qui imposent par leurs choix un système de description de l’ordre des choses, et donc une vision très occidentalo-centrée des critères qui définissent le monde avec lequel leurs modèles finaux interagissent .

Avec des jeux de données de plus en plus grands, et une robotisation de plus en plus avancée, les travailleurs du clic ne sont pas prêts de disparaître. Pourtant, la considération des travailleurs les plus défavorisés devrait certainement être une priorité pour l’IA éthique, puisqu’elle est censée libérer les humains des tâches ingrates, et non pas les aliéner plus encore – c’était d’ailleurs la promesse du tout numérique, dont on attend encore les bienfaits.

Et on fait tourner les modèles

Les nécessités computationnelles des méthodes de l’IA engendrent des coûts qui sont difficilement comptabilisés aujourd’hui dans les bilans de l’IA. Pourtant, les modèles toujours plus grands et performants nécessitent des calculs toujours plus gros et plus longs. La course folle aux capacités de calcul, en cours depuis quelques décennies maintenant, est désormais au service de géants comme Facebook, Google et Amazon, qui s’ennorgueillent des performances atteintes après ce qui peut à chaque fois être considéré comme des prouesses technologiques. Le modèle GPT-2, développé par OpenAI en 2019, fort de 1,5 milliards de paramètres a été détrôné l’année suivante par son successeur, GPT-3, encore plus impressionnant : 175 milliards de paramètres, contre 15 milliard de paramètres pour son homologue de chez Microsoft, nommé Turing NLG. Ces modèles nécessitent pour pouvoir être entraînés des supercalculateurs, des entrepôts de données, un temps et des ressources considérables.

Le coût écologique de ces modèles, de ces calculs, est souvent ignoré dans la recherche. Si les médias ont beaucoup évoqué dernièrement le coût écologique du Bitcoin, quid de celui de la recherche en IA ? De premières pistes de réponses commencent à voir le jour, avec des estimations des coût CO2 de certains domaines comme celui de la vision par ordinateur . Une évaluation plus générale (incluant notamment les plus gros modèles de traitement automatique des langues, comme BERT ou GPT cités plus haut) permettrait peut-être aux chercheurs en IA de mieux prendre conscience de leur impact sur le monde.

Une réflexion éthique sur l’IA devrait prendre en compte les externalités négatives comme les émissions de CO2 imputables à la R&D des modèles d’IA. Il existe aujourd’hui trop peu de données et de prise en compte de cette problématique pour considérer qu’une telle démarche éthique est lancée.

L’application justifie les moyens

Une fois développés, les modèles sont intégrés à des applications qui sont ensuite distribuées, que ce soit dans le privé ou pour le grand public. Quelles finalités pour ces applications ? Il n’existe pas aujourd’hui de juge pour estimer le bien-fondé d’une application ou de l’utilisation de l’IA dans une application. Cette question peut paraître bénigne au premier abord ; bien d’autres technologies peuvent permettre de faire le bien comme le mal, et leur régulation serait des plus critiquées. Photoshop ne permet-il pas de réaliser des chefs-d’œuvres comme des contrefaçons ? Mais c’est vers la puissance de l’outil qu’il faut ici se tourner. Avec des applications nocives comme DeepFake ou la mise à disposition au commun des mortels des logiciels de reconnaissance faciale, la capacité de nuisance des usagers non spécialisés s’est retrouvée décuplée. Les outils de régulation classique des États et des entités régissant les sites les plus fréquentés sont vite dépassés par ces nouveaux moyens d’atteinte aux internautes et citoyens.

Le secteur privé ne se prive d’ailleurs pas d’utiliser ces nouvelles méthodes pour ses propres besoins. Que ce soit les complexes militaro-industriels et leurs rêves de surveillance et de contrôle total, ou les entreprises de stratégie éthiquement discutables (hello Cambridge Analytica, Clearview IA, entre autres scandales), de larges capitaux sont aujourd’hui investis dans l’utilisation de l’IA à des fins éthiquement discutables démocratiquement parlant.

Si on peut difficilement réguler une technologie au niveau mondial, on peut tenter d’en limiter sa nocivité et trouver des accords sur des limitations de l’utilisation de cette dernière (le nucléaire est un exemple parmi d’autres). Il est urgent que les grandes puissances, aujourd’hui les plus engagées dans la course à l’IA, prennent conscience du potentiel nocif des outils qui sont aujourd’hui développés et s’accordent sur des limitations des usages de ces derniers.

Des modèles racistes

Une fois déployés, les modèles ne sont pas exempts de torts. Des chercheurs comme Kate Crawford, Virginia Eubanks et bien d’autres ont exposé les dérives des modèles déployés aux quatre coins du monde, que ce soit dans les systèmes de justice américain, de police préventive ou de recrutement, comme illustré par Eubanks dans son livre “Automating Inequality“. Plusieurs études ont prouvé que les SIA reproduisaient les biais racistes et sexistes de la société, en partie à cause des données biaisées sur lesquelles ces modèles avaient été entraînés. Déployer des modèles sans avoir conscience de leurs possibles biais, c’est prendre le risque de reproduire les pires traits de la société, sans contrôle.

Les mêmes résultats sont observables sur les systèmes de reconnaissance faciale, maintenant connus pour performer moins bien sur les femmes, et particulièrement sur les femmes noires . Les groupes sociaux les moins représentés et les moins considérés sont les victimes de ces modèles. N’existant pas ou peu dans les données d’entraînement, ils sont simplement reclassés, comme si leur existence particulière ne devait pas être dans le monde normé du modèle. Les systèmes de classification du genre rencontrent les mêmes problèmes, la communauté LGBTQ+ étant tout à fait ignorée et inexistante dans les premiers modèles, et difficilement intégrée dans ceux qui s’intéressent à la question.

Le remplacement de questions sociales par des questions techniques se fait souvent en ignorant tout un pan de la question sociale – les solutions techniques déployées deviennent alors nocives pour certains groupes sociaux, qui se retrouvent marginalisés par les déploiements de modèles incapables de comprendre les questions complexes pour lesquelles ils sont déployés. Les SIA ne peuvent se réclamer d’une éthique particulière tant qu’ils participent à l’exacerbation des problématiques sociales ancrées dans nos sociétés.

La justice est aveugle

Les régulations possibles des SIA évoquées précédemment passeraient forcément par un cadre juridique ; chose qui n’existe pas encore aujourd’hui pour l’IA. L’Europe est la première des puissances mondiales à tenter de réguler l’IA, et commence en 2017 à se saisir du sujet. On verra en 2018 l’apparition d’un ‘Coordinated Plan on AI’, puis la création en 2019 du HLEG on AI (High-Level Expert Group on Artificial Intelligence). Il produit plusieurs rapports à partir desquels est écrit en 2020 un livre blanc à la Commission Européenne, qui sera à l’origine de la première proposition de régulation de l’IA en 2021 par le conseil de l’UE (IA Act).

Le choix a été fait, lors de ce draft de proposition de 2021, de ne pas concevoir l’IA comme singulière mais multiple par ces cas d’usages. Autrement dit, la régulation d’un système d’IA dépendra de son cas d’usage. Éthiquement parlant, cela nécessite un travail de longue haleine, puisqu’il s’agit de tracer dans les lignes de la loi non pas une éthique mais des éthiques de l’utilisation des systèmes d’IA.

Ce draft propose en l’occurence l’interdiction de certaines pratiques de l’IA en Europe (scoring social, reconnaissance faciale dans les endroits publics), la régulation de certaines pratiques (éducation assistée, systèmes de sélection et d’évaluation de candidats, utilisation d’IA dans la police et la justice, dans les IHM, pour le contrôle aux frontières, …) et un usage autorisé sans restrictions pour d’autres pratiques jugées à risque faible ou nul. Pour ce dernier cas, un code de bonne conduite ou un code d’éthique ‘suffirait’, ce qui reste encore vague. Que ce texte soit adopté ou non, il n’est pas exempt de critiques – comme celles de Thomas Mezinger, membre du HLEG, qui déplore la faiblesse des propositions, les jugeant à peine bonnes à faire du ‘blanchiment éthique’ dans un billet portant le titre “Ethics washing made in Europe”.

Tant que ces propositions ne seront pas acceptées, l’IA évoluera sans domaine juridique. Une fois adoptées, ces régulations pourront peut-être enrayer certaines dérives dues aux pratiques de l’IA ; mais en Europe seulement. Les autres grandes puissances ne semblent pas pour le moment vouloir s’embarasser de telles réflexions. Pourtant, tant qu’un cadre juridique global n’est pas adopté, on ne saura réguler efficacement les applications qui seront développées de part le monde.

Automatiser pour mieux régner

Les pays qui investissent dans les SIA et profitent le plus de leurs avancées sont sans surprise les pays les plus développés. Les bénéfices apportés par ces nouvelles approches sont pour le moment mineurs pour les pays en voie de développement et les pays les plus vulnérables. Le développement des technologies de l’IA suit le cours logique de l’histoire : les premiers bénéficiaires sont toujours les pays qui sont déjà aujourd’hui en position de puissance, viendront ensuite les autres. Plus que des bénéficiaires, ces approches leurs permettent d’associer une domination toujours plus grande sur les pays en ‘retard’ technologiquement.

L’homme de Vitruve, de Léonard de Vinci, défiguré par une IA

On avance pourtant l’IA comme un levier majeur pour résoudre les grandes problématiques du siècle, comme le changement climatique, les inégalités et la pauvreté dans le monde . Il est pourtant notoire que les pays les plus touchés par les changements actuels et à venir ne sont pas ceux qui aujourd’hui profitent des SIA. Ils sont d’ailleurs les premières victimes des externalités négatives de l’IA ; on a déjà parlé précédemment de l’extraction des leurs ressources, de l’exploitation de leurs travailleurs. Mais d’autres pratiques sont à l’œuvre aujourd’hui qui perpétuent les traditions colonialistes.

Les premières sont le pillage des données. Afin de produire des modèles fonctionnels dans les pays en développement, force est de constater que des données spécifiques à ces pays sont nécessaires pour les entrainer et les tester. Lorsque la récolte et l’exploitation de ces données est effectuée par une équipe étrangère sans accord, considération ou rétribution pour les sujets concernés, l’éthique même de la récolte de données est à mettre en question. On peut aussi mentionner les pratiques d”éthique dumping’, pratique qui consiste pour une équipe à échapper aux régulations de son pays en effectuant ses opérations dans d’autres nations moins régulées.

La deuxième consiste à oublier de prendre en considération les pratiques et la culture des populations concernées par les modèles déployés. De la collecte de données au déploiement du modèle, l’ensemble du pipeline doit être soumis au contexte de l’application, sans quoi ce dernier pourra se révéler hors sujet voire nocif . Les approches de développement participatif permettent de pallier ce problème, mais elles sont encore trop peu répandues. Les entreprises et organisations en mesure de déployer des SIA sont souvent persuadées du bien fondé économique ou social de leur démarche, et oublient la prise en compte des expériences et avis des populations concernées par leurs travaux.

Enfin, les tentatives et réflexions sur l’éthique des SIA dénotent une approche encore trop occidentale. Des travaux d’exploration et de déclinaison de ces approches dans des pays comme l’Inde dénoncent une non applicabilité des principes adoptés par l’approche occidentale . Les réflexions menées aujourd’hui manquent encore du recul nécessaire pour la prise en compte des populations vulnérables ou moins représentées sur la scène mondiale, et donc manquent cruellement leur but.

Les SIA transpirent les torts qui sont reprochés aux nations occidentales, et notamment le néocolonialisme. Une déconstruction structurale est nécessaire pour réussir à se détacher des traits qui aujourd’hui font du tort à une grande partie de la population mondiale, et qui pourtant sont ancrés dans les modèles aujourd’hui déployés.

Résumé du premier volet

Nous avons vu dans cette partie que la notion d’éthique en IA était problématique, pour de nombreuses raisons, réparties sur deux axes. Le premier axe met en lumière le flou des concepts discutés et souligne que le concept même d’IA éthique n’est pas bien défini. Le second axe décompose les SIA et propose une revue critique de chacun de ses composants, et met en exergue le paradoxe du concept d’IA éthique.

Le second volet de ce billet présentera les efforts du monde académique pour faire des SIA une industrie éthique ; les forces et les faiblesses de ces initiatives. Nous explorerons ensuite les pistes pour le développement d’une IA éthique, avant de finir sur un état des lieux de l’avancement de ces pistes.

Bibliographie

Rolnick, David, and Priya L. Donti. 2019. “Tackling Climate Change with Machine Learning.” ArXiv:1906.05433 [Cs, Stat], November. http://arxiv.org/abs/1906.05433.
Trivedi, Anusua, and Sumit Mukherjee. 2019. “Risks of Using Non-Verified Open Data: A Case Study on Using Machine Learning Techniques for Predicting Pregnancy Outcomes in India.” ArXiv:1910.02136 [Cs, Stat], October. http://arxiv.org/abs/1910.02136.
Fu, Andre, and Mahdi S. Hosseini. 2021. “Reconsidering CO2 Emissions from Computer Vision.” ArXiv:2104.08702 [Cs], April. http://arxiv.org/abs/2104.08702.
Sambasivan, Nithya, and Erin Arnesen. 2020. “Non-Portability of Algorithmic Fairness in India.” ArXiv:2012.03659 [Cs], December. http://arxiv.org/abs/2012.03659.
Shankar, Shreya, and Yoni Halpern. 2017. “No Classification without Representation: Assessing Geodiversity Issues in Open Data Sets for the Developing World.” ArXiv:1711.08536 [Stat], November. http://arxiv.org/abs/1711.08536.
Russakovsky, Olga, and Jia Deng. 2015. “ImageNet Large Scale Visual Recognition Challenge.” International Journal of Computer Vision 115 (3): 211–252. https://doi.org/10.1007/s11263-015-0816-y.
Balayn, Agathe, and Bogdan Kulynych. 2021. “Exploring Data Pipelines through the Process Lens: A Reference Model ForComputer Vision.” ArXiv:2107.01824 [Cs], July. http://arxiv.org/abs/2107.01824.
DeVries, Terrance, and Ishan Misra. 2019. “Does Object Recognition Work for Everyone?” ArXiv:1906.02659 [Cs], June. http://arxiv.org/abs/1906.02659.
Geiger, R. Stuart, and Kevin Yu. 2020. “Garbage in, Garbage out?: Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?” In Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 325–36. Barcelona Spain: ACM. https://doi.org/10.1145/3351095.3372862.
Stark, Luke. 2019. “Facial Recognition Is the Plutonium of AI.” XRDS: Crossroads, The ACM Magazine for Students 25 (3): 50–55. https://doi.org/10.1145/3313129.
Miceli, Milagros, and Julian Posada. 2021. “Wisdom for the Crowd: Discoursive Power in Annotation Instructions for Computer Vision.” ArXiv:2105.10990 [Cs], May. http://arxiv.org/abs/2105.10990.
Abuhamad, Grace, and Claudel Rheault. 2020. “Like a Researcher Stating Broader Impact For the Very First Time.” ArXiv:2011.13032 [Cs], November. http://arxiv.org/abs/2011.13032.
World Bank Group. 2017. The Growing Role of Minerals and Metals for a Low Carbon Future. World Bank, Washington, DC. https://doi.org/10.1596/28312.
Buolamwini, Joy, and Timnit Gebru. n.d. “Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification,” 15.
Djanegara, Nina Dewi Toft. n.d. “Face the Nation: Race, Technology and Borders.” BeyondFairCV, 5.