ChatGPT valide presque l’examen de médecine aux États-Unis

Par

Publié le 10/02/2023

Crédit photo : Phanie

Le fameux logiciel qui génère des textes grâce à l’intelligence artificielle, ChatGPT, a presque réussi à valider l’examen de médecine aux États-Unis. Des chercheurs de la société AnsibleHealth ont testé ses performances sur les épreuves passées par les étudiants en médecine, USMLE (United States Medical Licensing Examination). « ChatGPT s’est approché de la marge de réussite de 60 % de précision », indiquent-ils dans une étude publiée dans « Plos Digital health ».

L’examen USMLE se compose de trois parties, censées être passées respectivement après deux ans, quatre ans et en fin d’études. Le test a porté sur 350 des 376 items des épreuves de juin 2022. Trois types de questions sont soumises aux candidats : des questions ouvertes (« que serait le diagnostic pour ce patient compte tenu des informations présentées ? »), des questions à choix multiples sans justification (« quelle est la prochaine étape de suivi la plus appropriée parmi les suivantes ? ») et des choix multiples avec justification (« Quelle est la raison la plus probable pour les symptômes nocturnes du patient ? Expliquez votre raisonnement »). Les questions s'appuyant sur des images ont dû être retirées.

« Une étape notable dans la maturation de l'IA »

Les réponses ont été notées par deux examinateurs, un troisième ayant tranché les écarts entre eux. Le logiciel a obtenu un score situé entre 52,4 % et 75 % de bonnes réponses, alors qu’un résultat de 60 % est suffisant pour réussir l'examen. C’est ainsi le premier logiciel d’IA basé sur le langage à atteindre ce niveau de performance « de manière impressionnante » sans formation spécialisée, marquant « une étape notable dans la maturation de l'IA ». Selon eux, ChatGPT a affiché « un raisonnement compréhensible et des informations cliniques valides » et a démontré « un haut niveau de concordance et de perspicacité dans ses explications ».

Ces résultats sont jugés « passionnants » par Nello Cristianini, professeur en IA à l'université de Bath (Royaume-Uni), mais ils sont à considérer avec prudence : il s’agit « d'un mécanisme statistique formé pour générer du texte (nouveau mais "similaire" à celui sur lequel il a été formé), dans le bon contexte et de la bonne manière et nous ne devrions donc pas parler de compréhension des notions », rappelle-t-il, sur le site britannique Science Media Center. Selon lui, ces résultats pourraient tout de même amener à « reconsidérer la façon dont nous évaluons les nouveaux médecins », mais aussi à « développer de meilleures façons de traiter de grandes quantités de littérature ».

Pour la chercheuse à l'université autonome de Madrid, Lucia Ortiz de Zarate, cette étude démontre « le potentiel de l'IA dans le domaine médical ». Elle « peut se révéler d'une grande aide pour les médecins lorsqu'ils formulent des diagnostics et prescrivent des traitements ».