Quelques textes un peu trop longs pour mastodon (garanti 0% de matière IAsse)

resistIAGen

Je crois qu'il serait intéressant de faire une lecture comparée de ce genre de guide et du manifeste d'objection de conscience :

Dans le guide, il est “amusant” de noter quelques petites choses, par ci par là. Par ex au paragraphe 1.1/ Recherche d’informations (cas général) on voit : “Mistral AI société FR, hébergement US”.

Mais ce qui me laisse pantoise, c'est l'affirmation absolument gratuite, sans aucune source qui permette de l'appuyer (page 12) :

“Les assistants IAG sont capables de rechercher et synthétiser des informations, à partir de requêtes formulées en langage naturel, sans que l’utilisateur ait besoin de maîtriserle vocabulaire du domaine. (...) ces outils innovants peuvent générer des réponses synthétiques et personnalisées, plutôt que de simples listes de liens. “

Pour un usage en recherche.

Depuis quand est-il normal de ne pas maîtriser le vocabulaire de son domaine de recherche ? Et si c'est pour des gens hors domaine, comment vont-ils ensuite pouvoir appliquer la recommandation de la même page :“il est indispensable de croiser les sources et vérifier les informations obtenues” ?

Où est la source qui permet d'affirmer de manière aussi péremptoire qu'une machine à faire des phrases permet de “synthétiser des informations” ?

A quel moment est-il devenu acceptable de déléguer à cette même machine à faire des phrases le travail d'examen minutieux des “simples listes de liens”, pour s'approprier à la fois leur contenu et le graphe de connexion entre les sources, qui donne une idée des frontières raisonnables d'un domaine ?

En quoi une réponse “personnalisée” a-t-elle un intérêt en recherche ? Et qu'est-ce que ça veut dire, d'ailleurs ? On n'est pas en train de choisir un carrelage pour la cuisine, là.

L'accumulation des messages de mise en garde (p 6) :

“Notez bien que l’utilisateur est seul responsable devant la loi des contenus qu’il produit à l’aide de l’IAG et du respect de la réglementation relative à ses usages.”

suivi de :

“Qualité et pertinence des résultats : les résultats générés dépendent de la performance de l’IAG et de ses données d’entrée (quantité, qualité, fraicheur, etc.). Des résultats biaisés, incomplets ou même erronés peuvent être obtenus.”

laisse perplexe.

Je crois que c'est la 1ère fois qu'on nous fait à répétition une telle pub pour des outils intrinsèquement non fiables, en nous rappelant en permanence que si une erreur en découle ce sera notre faute.

Et en faisant semblant de croire qu'un usage responsable et conscient des enjeux va permettre d'infléchir l'exponentielle des impacts environnementaux du numérique. Voir aussi Pour un usage frugal et responsable des IA génératives.

N'importe qui d'un peu conscient des enjeux et effectivement responsable ne voit qu'une solution : ne surtout pas mettre le doigt dans cet engrenage.

Un jour on complétera le manifeste d'objection de conscience par un argumentaire sur le non-sens total des arguments publicitaires dans l'#ESR et l'EN (et à plein d'autres endroits aussi).

#resistIAGen

@flomaraninchi@pouet.chapril.org

image

Les impacts environnementaux du numérique au court du temps

ALT: un diagramme des impacts environnementaux divers du numérique (ordonnée) en fonction du temps (abscisse). La courbe monte régulièrement. En 2022 elle se redresse brutalement à l'arrivée des IA génératives. Une montgolfière rouge décorée de $ y est accrochée et la tire vers le haut. A côté on voit une courbe de croissance de la demande en électricité, avec la légende “Dans le monde, la consommation d'électricité des datacenters va doubler d'ici 2026, en TWh” (note : elle doublerait aussi même si elle était exprimée dans une autre unité :–)). Sur la droite en haut on voit une image d'énorme datacenter bleu comme posé sur Manhattan, pour donner l'échelle. Cette image vient d'une communication officielle de META sur les réseaux sociaux. Sur la droite tout en bas on voit un petit bonhomme tout frêle, dessiné en vert, arc-bouté pour tenir une corde accrochée quelque part en haut de la courbe des impacts redressée, un peu en dessous de son point d'accroche à la Mongolfière. La courbe a l'air très légèrement déformée par cette traction vers le bas. Mais vraiment très légèrement. A droite de l'image, en vert aussi, on lit : Chartes pour usages responsables.

Il manque encore à cette image l'idée que le développement tous azimuts de chartes d'usages responsables, éthiques, sobres, raisonnables, etc., contribue aux courants d'air qui font monter la montgolfière.

#resistIAGen

(Image évidemment faite à la main avec minutie – ou presque – par un être humain certifié authentique).

@flomaraninchi@pouet.chapril.org

#resistIAGen

image

Louis Fleckenstein (American, 1866 – 1943), photographer Sculpture of Thinking Woman, 1895–1943 The J. Paul Getty Museum, Los Angeles, 85.XM.28.1065

Il y a quelque temps déjà que je grince des dents en voyant passer ici ou là un article, une tribune ou une pétition qui, tout en dénonçant une oppression, une injustice ou un manque d'égalité d'une manière qui me touche et me convainc, détruit son propre message en choisissant une illustration générée par IA. Parfois ce n'est même pas signalé, mais soit les artistes se sont donné le mot pour représenter des personnages à 6 doigts partout, soit ce critère reste un bon détecteur.

Cela aurait pu arriver à une autre occasion, un peu plus tôt, un peu plus tard[^1] mais il se trouve que mon énervement croissant déclenche aujourd'hui l'écriture de ce billet, à l'occasion d'une tribune de l'association Femmes&Sciences : Cessez de parler « d’autocensure ». Admirez la main à 6 doigts, un pouce de chaque côté. Je n'arrive pas à imaginer quel prompt il faut donner à une IA générative d'image (laquelle, d'ailleurs ?) pour obtenir ce visuel particulièrement inepte. Pour avoir une idée de mon état d'esprit relatif au déferlement des IA génératives partout et au forcing des bigtech pour nous en faire manger à tous les repas, dites-vous que c'est environ cent fois plus énervé qu'en février dernier.

Dans le cas précis de la tribune publiée sur le site de Femmes&Sciences, à ceux (et celles) qui ne comprennent pas mon énervement croissant, j'essaie d'expliquer qu'entre autres dégâts socio-environnementaux avérés, les IA génératives ont un énorme problème de justification et de reproduction des biais et des discriminations. Comme l'écrivent Emily Bender et Alex Hanna dans leur excellent livre The AI Con, how to fight big tech's hype and create the future we want (page 36) : “General intelligence is not something that can be measured, but the force of such a promise has been used to justify racial, gender, and class inequality for more than a century” (“l'intelligence générale n'est pas mesurable, mais la force de la promesse a servi à justifier les inégalités raciales, de genre et de classe depuis plus d'un siècle”). Dans l'article précurseur “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”, on lit : “Biases can be encoded in ways (...) subtle patterns like referring to women doctors as if doctor itself entails not-woman (...)” (“les biais peuvent être codés (...) schémas subtils dont le fait de parler de “femmes docteurs”, comme si “docteur” seul impliquait nécessairement non femme (...)“. Notons qu'en français on tombe ici dans le problème de la féminisation des noms de métiers).

Nous avons donc une association “Femmes&sciences”, qui milite en particulier pour la place des femmes dans les disciplines scientifiques peu féminisées, publiant une tribune très bienvenue pour combattre l'idée que le problème vient de l'autocensure des femmes. Même si on est d'accord avec le diagnostic de la tribune, comment ne pas voir une énorme incohérence entre le fond et la forme ? Comment ne pas grincer des dents en découvrant une image produite par une famille d'outils qui, lorsqu'il s'agit de textes, génèrent l'expression “female doctors” comme s'il était totalement inimaginable que “doctors” désigne des femmes ? Une famille d'outils qui génère des histoires pleines de médecins nécessairement masculins et d'infirmières nécessairement féminines (Cf. Gender Representation of Health Care Professionals in Large Language Model–Generated Stories) ?

Complétons le titre de la tribune “Cessez de parler « d’autocensure » : ce ne sont pas les femmes qui se taisent, ce sont les structures qui les réduisent au silence” en ajoutant : “Et les outils qui reproduisent les biais de ces structures”.

Chères luttes contre toutes les discriminations et injustices, prises une par une ou dans une perspective intersectionnelle, merci de ne pas utiliser des outils qui reproduisent et amplifient ces mêmes discriminations et injustices que vous dénoncez à juste titre, outils qui sont aussi les derniers avatars d'une longue suite de promesses sur une prétendue intelligence artificielle ayant servi à justifier toutes ces oppressions et injustices depuis plus d'un siècle.

[^1]: Les autres luttes contre les discriminations qui affichent leur incohérence en utilisant des images générées par IA se reconnaîtront sans peine dans la critique ci-dessous.

@flomaraninchi@pouet.chapril.org

#resistIAGen

image

B. L. Singley (American, 1864 – 1938), photographer “Sew on your own buttons, I'm going for a ride.”, 1896 The J. Paul Getty Museum, Los Angeles

En informatique on parle d'intégration “seamless” ou “sans couture” en français, pour qualifier des situations où plusieurs services sont intégrés de manière à ce que le passage de l'un à l'autre soit extrêmement fluide, et idéalement invisible pour un utilisateur.

Considérons un environnement de gestion d'images qui propose des outils de manipulation simples des images individuelles. Si l'on a un répertoire plein de photos, on peut lancer séparément (1) cet outil de visualisation pour répérer des photos à monter en panorama (on note les numéros sur un bout de papier) ; (2) un autre outil de création de panorama dans lequel on importe les photos choisies (en se référant au bout de papier). Si l'environnement de gestion d'images propose lui-même de sélectionner les photos, de lancer la création de panorama pour nous, et de ré-importer l'image produite, on court-circuite le bout de papier d'échange d'informations entre outils.

Une application pour usager des transports en commun peut intégrer des outils de type cartographie de lignes, recherche d'itinéraires, paiement, etc. L'intégration va au-delà du point d'entrée unique : on peut avoir des liens entre fonctions, comme un bouton “acheter un billet” qui apparaît dans les résultats de recherche d'itinéraire, pour qu'on ne soit pas obligé de remonter au point d'entrée de l'application pour repartir dans une branche différente (en ayant besoin de se souvenir de ce qu'on a trouvé dans la recherche d'itinéraire, ou en l'ayant noté sur un bout de papier).

Les outils parfaitement intégrés facilitent la vie des utilisateurs, bien sûr, et font “gagner du temps”. Ils font aussi gagner de l'argent aux sites commerciaux. Amazon est le champion toutes catégories de la navigation fluide et des interfaces dans lesquelles aucun obstacle n'apparaît jamais à une décision d'achat intempestive et souvent fugace. SNCF Connect est un exemple à l'autre extrémité du spectre. Comprendre les liens entre l'appli SNCF Connect, l'appli de suivi du trafic, TGV pro qui existe encore sur certaines plateformes, etc., demande de longues études et une concentration sans faille.

L'intégration sans couture a aussi un effet sur la compréhension des choses. Quand on saute d'un outil à un autre sans se rendre compte des frontières grâce à cette absence de coutures, on perd la notion des flux d'informations sous-jacents, et la frontière entre retouche simple et création de panorama s'estompe. Cette perte de compréhension n'est pas nécessairement un mal en soi. Il est normal que l'on puisse se servir d'une voiture sans connaître le principe des moteurs à explosion. Le numérique est un outil comme un autre, il n'y a pas de raison particulière d'exiger que les utilisateurs le comprennent mieux que d'autres outils.

L'arrivée des IA génératives, en particulier pour le texte, s'inscrit pleinement dans cette situation de gommage des frontières, de masquage des flux d'informations, et de perte de compréhension des choses. Si le même outil, avec le même point d'entrée unique, permet de réaliser à la fois la correction orthographique ou grammaticale plus ou moins contextuelle, et des tâches de réécriture, on perd la notion de frontière entre correction et écriture à notre place. De même dans les outils d'édition courants pour la programmation (les “IDE” pour integrated Development Environment), la frontière devient floue entre proposition de complétion des noms de fonctions disponibles, corrections locales contextuelles, et carrément suggestion de forme de code ou même d'algorithme.

Rendez-nous les coutures ! Parfois il serait plus sain de choisir soi-même le bon outil au bon moment. En tout cas on aimerait avoir le choix.

Si l'on utilise un outil de type IA générative pour tout, y compris de la simple correction orthographique, c'est bien cher (en impacts socio-environnementaux, et peut-être bientôt en tarif d'abonnement) pour une fonction qui existe déjà dans des outils dédiés, certains même libres et gratuits. Avoir un correcteur intégré dans son outil d'édition de texte est déjà une forme d'intégration sans couture bien pratique. Mais s'il s'agit de générer des textes à partir de pas grand chose, forçons-nous[^1] à sortir de cet environnement et à lancer sciemment un autre outil, pour être bien conscients qu'il s'agit d'autre chose, entièrement.

Dans l'enseignement de l'algorithmique et de la programmation, le gommage des frontières entre correction locale et suggestion de code est particulièrement néfaste. Pour un étudiant, aller récupérer sans trop réfléchir des bouts de code directement sur StackOverflow pour les coller dans son projet, ça avait l'avantage de permettre de rester conscient de ces “emprunts” et du fait qu'on n'avait pas vraiment fait le travail demandé. Si l'équivalent de ces emprunts vient tout seul à soi, dans son outil d'édition de code, comme prolongation naturelle des fonctions de suggestion et correction locale, il va devenir difficile de savoir quand on a fait le travail nécessaire à l'apprentissage.

Encore une fois, rendez-nous les coutures ! S'il est normal de pouvoir conduire sans comprendre le principe du moteur à explosion, on aimerait quand même que la voiture ne passe pas en mode auto-pilot sans prévenir. Surtout si l'auto-pilot conduit mal.

[^1]: Je dis “forçons-nous” en m'incluant dans cette injonction, mais je n'utilise toujours pas ChatGPT.

@flomaraninchi@pouet.chapril.org

#resistIAGen

Dans le dernier billet de l'excellent David Gerard Generative AI runs on gambling addiction — just one more prompt, bro!, on lit l'histoire de ce programmeur qui essaie tant bien que mal de faire produire par une IA générative le code qu'il veut :

“For a good 12 hours, over the course of 1 ½ days, I tried to prompt it such that it yields what we needed. Eventually, I noticed that my prompts converged more and more to be almost the code I wanted. After still not getting a working result, I ended up implementing it myself in less than 30 minutes.”

Ça me fait irrésistiblement penser à ces moments où l'on passe l'aspirateur, et il y a un bout de papier à moitié coincé entre les lattes du parquet, qui résiste obstinément à l'aspiration. On se baisse pour le détacher et le présenter correctement devant le tuyau, on se relève et on essaie de l'aspirer, mais il se dérobe de nouveau. On se rebaisse pour le poser autrement et puis on se relève et on approche subrepticement le tuyau mais, las! décidément, il ne se laisse pas aspirer ! En désespoir de cause on se baisse une dernière fois, et puisqu'on a ce damné papier dans la main, on pense enfin à le mettre directement à la poubelle.

@flomaraninchi@pouet.chapril.org