Le fameux logiciel qui génère des textes grâce à l’intelligence artificielle, ChatGPT, a presque réussi à valider l’examen de médecine aux États-Unis. Des chercheurs de la société AnsibleHealth ont testé ses performances sur les épreuves passées par les étudiants en médecine, USMLE (United States Medical Licensing Examination). « ChatGPT s’est approché de la marge de réussite de 60 % de précision », indiquent-ils dans une étude publiée dans « Plos Digital health ».
L’examen USMLE se compose de trois parties, censées être passées respectivement après deux ans, quatre ans et en fin d’études. Le test a porté sur 350 des 376 items des épreuves de juin 2022. Trois types de questions sont soumises aux candidats : des questions ouvertes (« que serait le diagnostic pour ce patient compte tenu des informations présentées ? »), des questions à choix multiples sans justification (« quelle est la prochaine étape de suivi la plus appropriée parmi les suivantes ? ») et des choix multiples avec justification (« Quelle est la raison la plus probable pour les symptômes nocturnes du patient ? Expliquez votre raisonnement »). Les questions s'appuyant sur des images ont dû être retirées.
« Une étape notable dans la maturation de l'IA »
Les réponses ont été notées par deux examinateurs, un troisième ayant tranché les écarts entre eux. Le logiciel a obtenu un score situé entre 52,4 % et 75 % de bonnes réponses, alors qu’un résultat de 60 % est suffisant pour réussir l'examen. C’est ainsi le premier logiciel d’IA basé sur le langage à atteindre ce niveau de performance « de manière impressionnante » sans formation spécialisée, marquant « une étape notable dans la maturation de l'IA ». Selon eux, ChatGPT a affiché « un raisonnement compréhensible et des informations cliniques valides » et a démontré « un haut niveau de concordance et de perspicacité dans ses explications ».
Ces résultats sont jugés « passionnants » par Nello Cristianini, professeur en IA à l'université de Bath (Royaume-Uni), mais ils sont à considérer avec prudence : il s’agit « d'un mécanisme statistique formé pour générer du texte (nouveau mais "similaire" à celui sur lequel il a été formé), dans le bon contexte et de la bonne manière et nous ne devrions donc pas parler de compréhension des notions », rappelle-t-il, sur le site britannique Science Media Center. Selon lui, ces résultats pourraient tout de même amener à « reconsidérer la façon dont nous évaluons les nouveaux médecins », mais aussi à « développer de meilleures façons de traiter de grandes quantités de littérature ».
Pour la chercheuse à l'université autonome de Madrid, Lucia Ortiz de Zarate, cette étude démontre « le potentiel de l'IA dans le domaine médical ». Elle « peut se révéler d'une grande aide pour les médecins lorsqu'ils formulent des diagnostics et prescrivent des traitements ».
Yannick Neuder lance un plan de lutte contre la désinformation en santé
Dès 60 ans, la perte de l’odorat est associée à une hausse de la mortalité
Troubles du neurodéveloppement : les outils diagnostiques à intégrer en pratique
Santé mentale des jeunes : du mieux pour le repérage mais de nouveaux facteurs de risque