Murmures de l'avenir modulaire de l'IA - Solutions côtières de Shenzhen Inc.

De James Somer

Un jour, fin décembre, j'ai téléchargé un programme appelé Whisper.cpp sur mon ordinateur portable, dans l'espoir de l'utiliser pour transcrire une interview que j'avais faite. Je lui ai envoyé un fichier audio et, toutes les quelques secondes, il produisait une ou deux lignes de transcription étrangement précise, écrivant exactement ce qui avait été dit avec une précision que je n'avais jamais vue auparavant. Au fur et à mesure que les lignes s'empilaient, je pouvais sentir mon ordinateur chauffer. C'était l'une des rares fois de mémoire récente où mon ordinateur portable avait en fait calculé quelque chose de compliqué - la plupart du temps, je l'utilisais simplement pour naviguer sur le Web, regarder la télévision et écrire. Maintenant, il exécutait une IA de pointe

Bien qu'il soit l'un des programmes les plus sophistiqués jamais exécutés sur mon ordinateur portable, Whisper.cpp est également l'un des plus simples. Si vous montriez son code source aux chercheurs en intelligence artificielle dès les premiers jours de la reconnaissance vocale, ils pourraient rire d'incrédulité ou pleurer - ce serait comme révéler à un physicien nucléaire que le processus de fusion froide peut être écrit sur une serviette. Whisper.cpp est l'intelligence distillée. C'est rare pour les logiciels modernes en ce sens qu'ils n'ont pratiquement aucune dépendance - en d'autres termes, ils fonctionnent sans l'aide d'autres programmes. Au lieu de cela, il s'agit de dix mille lignes de code autonome, dont la plupart ne font guère plus que de l'arithmétique assez compliquée. Il a été écrit en cinq jours par Georgi Gerganov, un programmeur bulgare qui, de son propre aveu, ne connaît presque rien à la reconnaissance vocale. Gerganov l'a adapté d'un programme appelé Whisper, publié en septembre par OpenAI, la même organisation derrière ChatGPT et DALL-E. Whisper transcrit la parole dans plus de quatre-vingt-dix langues. Dans certains d'entre eux, le logiciel est capable de performances surhumaines, c'est-à-dire qu'il peut réellement analyser ce que quelqu'un dit mieux qu'un humain.

Ce qui est si inhabituel à propos de Whisper, c'est qu'OpenAI l'a ouvert, publiant non seulement le code mais une description détaillée de son architecture. Ils incluaient également les "poids de modèle" très importants : un fichier géant de nombres spécifiant la force synaptique de chaque connexion dans le réseau neuronal du logiciel. Ce faisant, OpenAI a permis à n'importe qui, y compris à un amateur comme Gerganov, de modifier le programme. Gerganov a converti Whisper en C++, un langage de programmation largement pris en charge, pour faciliter le téléchargement et l'exécution sur pratiquement n'importe quel appareil. Cela ressemble à un détail logistique, mais c'est en fait la marque d'un changement radical. Jusqu'à récemment, les IA de renommée mondiale comme Whisper étaient le domaine exclusif des grandes entreprises technologiques qui les développaient. Ils existaient dans les coulisses, alimentant subtilement les résultats de recherche, les recommandations, les assistants de chat, etc. Si des étrangers ont été autorisés à les utiliser directement, leur utilisation a été mesurée et contrôlée.

Il y a eu quelques autres IA open source au cours des dernières années, mais la plupart d'entre elles ont été développées par des projets propriétaires de rétro-ingénierie. LeelaZero, un moteur d'échecs, est une version participative d'AlphaZero de DeepMind, le meilleur joueur informatique au monde ; étant donné que DeepMind n'a pas publié les poids du modèle d'AlphaZero, LeelaZero a dû être formé à partir de zéro, par des utilisateurs individuels - une stratégie qui n'était réalisable que parce que le programme pouvait apprendre en jouant aux échecs contre lui-même. De même, Stable Diffusion, qui évoque des images à partir de descriptions, est un clone extrêmement populaire de DALL-E d'OpenAI et d'Imagen de Google, mais formé avec des données accessibles au public. Whisper est peut-être la première IA de cette classe qui a simplement été offerte au public. À l'ère des logiciels basés sur le cloud, où tous nos programmes sont essentiellement loués aux entreprises qui les fabriquent, je trouve quelque peu électrisant que, maintenant que j'ai téléchargé Whisper.cpp, personne ne puisse me le retirer, pas même Gerganov. Son petit programme a transformé mon ordinateur portable d'un appareil qui accède à l'IA en une sorte de machine intelligente en soi.

Il fut un temps où les chercheurs pensaient que la reconnaissance vocale au niveau humain pouvait être "difficile à l'IA" - leur façon de décrire un problème si difficile qu'il ne pouvait tomber que lorsque les ordinateurs possédaient une intelligence générale. L'idée était qu'il y avait suffisamment d'ambiguïté dans la langue parlée pour que la seule façon de l'analyser soit de comprendre réellement ce que les locuteurs voulaient dire. La semaine dernière, j'ai entendu quelque chose à la radio qui aurait pu ressembler à un ordinateur, comme "Pouvez-vous gruer une Ford ?" Mais mon cerveau, connaissant le contexte de la conversation, l'a résolu de manière transparente comme "L'Ukraine peut-elle se permettre". Les problèmes de sens et de contexte ont assuré que, pendant des décennies, la reconnaissance vocale a été considérée comme un outil de mesure pour le domaine de l'IA dans son ensemble. La seule façon de comprendre la parole, selon la pensée, était de vraiment la comprendre.

Dans un essai influent de 2019, le chercheur en intelligence artificielle Richard Sutton explique que les premiers programmes de reconnaissance vocale étaient chargés de connaissances linguistiques spécialisées, non seulement sur la syntaxe, la grammaire et la phonétique, mais sur la façon dont la forme de la bouche humaine limitait les sons possibles. Malgré leur sophistication, ces programmes ne fonctionnaient pas très bien. Dans les années 1970, il y a eu un virage vers les méthodes statistiques, qui ont abandonné les connaissances spécialisées au profit de modèles tirés des données, par exemple, sur les sons et les mots qui avaient tendance à aller de pair. Le succès de cette approche s'est répercuté sur le reste de l'IA, amenant le domaine à centrer une grande partie de ses efforts sur des statistiques tirées d'énormes quantités de données. La stratégie a porté ses fruits : en 1990, l'état de l'art pour la reconnaissance vocale des consommateurs était un programme appelé DragonDictate, qui fonctionnait en temps réel. Mais Dragon obligeait les utilisateurs à énoncer clairement et à faire une pause entre chaque mot, et coûtait neuf mille dollars. Une amélioration majeure est survenue en 1997, lorsque la même société a lancé Dragon NaturallySpeaking. Vous n'avez plus besoin de faire une pause lorsque vous lui parlez. Pourtant, la précision sur un discours vraiment fluide ou accentué ou technique était relativement faible. Je me souviens de mon parrain, un éternel adopteur précoce, montrant le système de reconnaissance vocale dans sa voiture à cette époque ; il l'a utilisé pour appeler à la maison depuis le téléphone de la voiture. La numérotation aurait été plus facile.

Les programmes de reconnaissance vocale étaient encore trop glitchés pour être transparents. Corriger leurs erreurs prenait du temps. Et pourtant, ils étaient encore d'une complexité redoutable. Un manuel de 1999, qui décrivait un système de reconnaissance vocale alors à la pointe de la technologie similaire à Dragon NaturallySpeaking, comptait plus de quatre cents pages; pour le comprendre, il fallait maîtriser des mathématiques compliquées qui étaient parfois spécifiques au son - modèles de Markov cachés, analyse spectrale et quelque chose appelé "compensation cepstrale". Le livre était accompagné d'un CD-ROM contenant trente mille lignes de code, dont une grande partie était consacrée aux caprices de la parole et du son. Dans son étreinte des statistiques, la reconnaissance vocale était devenue un domaine profond et difficile. Il semblait que les progrès ne viendraient plus que progressivement et avec une douleur croissante.

Mais, en fait, c'est le contraire qui s'est produit. Comme Sutton l'a dit dans son essai de 2019, soixante-dix ans de recherche sur l'IA ont révélé que "les méthodes générales qui exploitent le calcul sont finalement les plus efficaces, et de loin". Sutton a appelé cela "la leçon amère": c'était amer parce qu'il y avait quelque chose de bouleversant dans le fait qu'intégrer plus d'intelligence et d'arcanes techniques dans vos programmes d'IA n'était pas seulement essentiel au progrès, mais en fait un obstacle. Il valait mieux avoir un programme plus simple qui savait apprendre, s'exécutant sur un ordinateur rapide, et le charger de résoudre lui-même un problème compliqué. La leçon devait sans cesse être réapprise, a écrit Sutton, car le brouillage de tout ce que vous saviez dans une IA produisait souvent des améliorations à court terme au début. Avec chaque nouvelle connaissance, votre programme s'améliorerait légèrement, mais, à long terme, la complexité supplémentaire rendrait plus difficile de trouver le moyen de progresser plus rapidement. Les méthodes qui ont pris du recul et dépouillé les connaissances des experts au profit du calcul brut ont toujours gagné. Sutton a conclu que l'objectif de la recherche sur l'IA devrait être de construire "des agents qui peuvent découvrir comme nous le pouvons" plutôt que des programmes "qui contiennent ce que nous avons découvert". Ces dernières années, les chercheurs en intelligence artificielle semblent avoir appris l'amère leçon une fois pour toutes. Le résultat a été un défilé de nouveaux programmes étonnants.

Depuis que j'ai des cassettes à taper – des conférences à transcrire, des entretiens à écrire –, je rêve d'un programme qui le ferait pour moi. Le processus de transcription prenait tellement de temps, nécessitant tant de petits rembobinages, que mes mains et mon dos me faisaient des crampes. En tant que journaliste, savoir ce qui m'attendait a probablement déformé mes reportages : au lieu de rencontrer quelqu'un en personne avec un magnétophone, il semblait souvent plus simple de parler au téléphone, en tapant les bons moments sur le moment. Il y a environ cinq ans, avec un mélange de honte et de soulagement, j'ai commencé à payer d'autres personnes pour faire la transcription pour moi. J'ai utilisé un service appelé Rev, qui a confié le travail et pris une part. C'était cher - une centaine de dollars pour un seul entretien - mais le prix témoignait du travail nécessaire. Rev avait une option d'IA beaucoup moins chère, mais, comme d'autres programmes de transcription que j'avais essayés, c'était juste assez imprécis pour être une nuisance. C'était comme si vous passiez plus de temps à corriger la mauvaise transcription qu'à la taper vous-même.

Il y a un an et demi, j'ai entendu parler d'un service appelé Otter.AI, qui était tellement meilleur que tout ce qui avait précédé qu'il suggérait une différence de nature. Ce n'était pas très bon pour la ponctuation, et il fallait encore la corriger ici et là, mais c'était le premier programme de transcription qui rendait inutile la réécoute fastidieuse. J'ai été tellement impressionné que cela est devenu une partie intégrante de mon flux de travail. Un problème autrefois impossible semblait être au stade de presque-là.

À la fin de l'année dernière, lorsque Whisper est apparu de nulle part, cela a définitivement résolu mon problème. Whisper est fondamentalement aussi compétent que moi en transcription. Le programme reprend un jargon subtil, manipulant des mots dont les sons pourraient facilement être confondus avec d'autres mots » ; par exemple, il entend correctement un ingénieur en mécanique dire : « Cela va prendre du temps pour faire de la CAO », même en majuscule « CAO » – un acronyme pour « conception assistée par ordinateur » – correctement. Il détermine comment ponctuer les auto-interruptions d'une personne, comme dans "Nous allons presque expédier. Nous sommes sur le point de - le prochain va expédier." C'est gratuit, ça tourne sur mon ordinateur portable, et c'est conceptuellement plus simple, de loin, que tout ce qui l'a précédé.

Il y a près d'une décennie, j'ai écrit un essai me demandant ce qui se passerait si la transcription de la parole devenait vraiment omniprésente. D'une part, il semble probable que nous verrons beaucoup plus de dictée. (Déjà, même si parler à mon téléphone ne semble pas naturel, je me retrouve de plus en plus à le faire.) Une fois que la technologie atteint un certain niveau de qualité, la tâche du sténographe judiciaire pourrait disparaître ; les archivistes pourraient se réjouir lorsque les enregistrements de discours, de réunions, de dépositions et d'émissions de radio d'il y a longtemps deviendront consultables. Il pourrait y avoir des changements encore plus importants - nous parlons beaucoup et presque tout passe dans l'éther. Et si les gens enregistraient automatiquement les conversations, en faisaient des transcriptions et s'y référaient comme nous regardons maintenant les anciens textes ou e-mails ? Il y a quelque chose qui m'attire dans la thésaurisation du bavardage; parler est facilement mon activité préférée, et j'aime l'idée de l'honorer en la sauvegardant. Mais ensuite, vous pensez aux annonceurs qui paient généreusement pour examiner les mentions de leurs noms de marque dans une conversation naturelle. Vous imaginez perdre un ami ou un emploi à cause d'un commentaire stupide. Vraiment, la perspective est terrifiante.

L'histoire de Whisper en dit long sur l'histoire de l'IA et sur son évolution. Lorsqu'un logiciel est open-source, vous pouvez l'adapter à vos propres fins - c'est une boîte de Legos au lieu d'un jouet entièrement formé - et un logiciel flexible est remarquablement durable. En 1976, le programmeur Richard Stallman a créé un programme d'édition de texte appelé Emacs qui est toujours très populaire parmi les développeurs de logiciels aujourd'hui. Je l'utilise non seulement pour la programmation mais pour l'écriture : comme il est open-source, j'ai pu le modifier pour m'aider à gérer les notes de mes articles. J'ai adapté le code que quelqu'un avait adapté de quelqu'un d'autre, qui l'avait adapté de quelqu'un d'autre - une chaîne de bricolage remontant jusqu'à Stallman.

Déjà, nous voyons quelque chose de similaire se produire avec Whisper. Un de mes amis, cinéaste et développeur de logiciels, a écrit une fine enveloppe autour de l'outil qui transcrit tous les fichiers audio et vidéo d'un projet documentaire pour lui faciliter la recherche d'extraits d'interviews. D'autres ont créé des programmes qui transcrivent les flux Twitch et les vidéos YouTube, ou qui fonctionnent comme des assistants vocaux privés sur leurs téléphones. Un groupe de codeurs essaie d'enseigner à l'outil d'annoter qui parle. Gerganov, qui a développé Whisper.cpp, a récemment créé une version Web, afin que les utilisateurs n'aient rien à télécharger.

La reconnaissance vocale presque parfaite est devenue non seulement une application, mais un élément constitutif des applications. Dès que cela se produit, les choses vont très vite. Lorsque le programme de conversion de texte en image d'OpenAI, DALL-E, est sorti, il a fait sensation, mais ce n'était rien comparé à la vague d'activités déclenchée par son clone open source, Stable Diffusion. DALL-E utilisait un modèle "freemium", dans lequel les utilisateurs pouvaient payer pour des images supplémentaires, et personne ne pouvait modifier son code ; il s'est généralement avéré plus puissant et plus précis que Stable Diffusion, car il a été formé sur des montagnes de données propriétaires. Mais il a été contraint de rivaliser avec un grand nombre et une grande variété d'adaptations, de plug-ins et de remix provenant de la communauté open source. En quelques semaines, les utilisateurs avaient adapté Stable Diffusion pour créer un mode "image à image", dans lequel ils pouvaient dire au programme de modifier une image existante avec une invite de texte. En invoquant à plusieurs reprises ce mode, une nouvelle méthode d'illustration est devenue possible, dans laquelle un utilisateur pouvait composer de manière itérative une image avec des mots, comme s'il dirigeait un robot artiste patient sans fin.

Cette ouverture, plutôt qu'un saut en avant spécifique dans les capacités, définit le moment actuel dans AI ChatGPT, le chatbot conversationnel d'OpenAI, est passionnant non pas parce qu'il est particulièrement intelligent - c'est souvent une fontaine de conneries ou de banalité - mais parce que quelle que soit l'intelligence dont il dispose est juste là, pour que n'importe qui puisse l'utiliser à tout moment. La disponibilité du programme est peut-être sa caractéristique la plus importante, car elle permet aux gens ordinaires de comprendre à quoi il sert. Même ainsi, ChatGPT n'est pas encore aussi ouvert que Whisper. Parce que l'écriture automatisée est si potentiellement précieuse, OpenAI a intérêt à la contrôler étroitement ; la société facture une version premium, et un écosystème d'applications à but lucratif qui ne font guère plus que d'envelopper ChatGPT apparaîtra sans aucun doute bientôt.

Finalement, cependant, quelqu'un publiera un programme presque aussi performant que ChatGPT, et entièrement open-source. Un amateur entreprenant trouvera un moyen de le faire fonctionner gratuitement sur votre ordinateur portable. Les gens vont commencer à le télécharger, à le remixer, à le connecter, à repenser et à réimaginer. Les capacités de l'IA entreront en collision avec notre intelligence collective. Et le monde commencera à changer d'une manière que nous ne pouvons pas encore prédire. ♦