Des chercheurs berlinois étudient la fiabilité de ChatGPT pour fournir des informations scientifiquement fondées sur le changement climatique. Ils découvrent que l’IA fournit généralement des réponses correctes, mais qu’il ne faut en aucun cas lui faire confiance aveuglément. Vérifier les sources est plus important que jamais – mais tout sauf facile.
ChatGPT et d’autres grands modèles de langage fondés sur l’apprentissage automatique et de vastes ensembles de données pénètrent presque tous les domaines de la société. Les entreprises ou les chercheurs qui n’utilisent pas leur aide sont de plus en plus perçus comme anachroniques. Mais les informations issues de l’intelligence artificielle sont-elles suffisamment fiables ? Des scientifiques de l’Université technique de Berlin ont testé cela en utilisant le changement climatique. Pour ce faire, ils ont posé des questions à ChatGPT sur le sujet et examiné les réponses pour leur exactitude, leur pertinence et leurs éventuelles erreurs et contradictions.
Ses capacités impressionnantes ont fait de ChatGPT une source potentielle sur de nombreux sujets différents, écrit l’équipe berlinoise dans l’article publié dans « Ecological Economics ». Cependant, même les développeurs eux-mêmes ne peuvent pas expliquer comment une certaine réponse apparaît. Cela peut toujours convenir pour des tâches créatives telles que l’écriture d’un poème. Cela pose toutefois un problème lorsqu’il s’agit de sujets tels que les conséquences du changement climatique, pour lesquels des informations précises et fondées sur des faits sont importantes.
Il est donc important d’examiner la qualité des réponses apportées par ChatGPT dans ces domaines, selon les chercheurs. Entre autres choses, il est important de séparer la désinformation véhiculée dans le débat public et dans les médias des conclusions scientifiquement fondées.
Hallucinations et suppositions inutiles
Ce n’est pas facile. Pour aggraver les choses, l’IA peut « halluciner ». Autrement dit, ChatGPT fait des affirmations factuelles qui ne peuvent être étayées par aucune source. De plus, le modèle linguistique a tendance à « faire des hypothèses dénuées de sens au lieu de rejeter des questions sans réponse », selon l’équipe TU.
Le grand danger est que les utilisateurs de ChatGPT prennent les réponses incorrectes ou incorrectes au pied de la lettre car elles sont formulées de manière plausible et sémantiquement correcte. Des recherches antérieures ont montré que les gens accordaient plus de poids aux conseils de l’IA s’ils n’étaient pas familiers avec le sujet abordé, s’ils avaient déjà utilisé ChatGPT auparavant et s’ils recevaient des conseils précis du modèle, écrivent les chercheurs.
L’équipe berlinoise est particulièrement intéressée par le sujet car, avec le projet de recherche Green Consumption Assistant, elle développe un assistant basé sur l’IA qui aide les consommateurs à prendre des décisions d’achat plus durables sur Internet. Des recherches antérieures ont seulement mis en lumière les possibilités de ChatGPT, mais ne reflètent pas sa capacité à répondre aux questions sur le changement climatique, écrivent les chercheurs.
Pour clarifier cela, ils ont posé à ChatGPT un total de 95 questions. Ils ont évalué les réponses en termes d’exactitude, de pertinence et de cohérence. L’équipe a vérifié la qualité des réponses en utilisant des sources d’informations publiques et fiables sur le changement climatique, telles que le rapport actuel du Groupe d’experts intergouvernemental sur l’évolution du climat (GIEC).
Des réponses pour la plupart de haute qualité
Les chercheurs ont pris en compte le fait que le modèle linguistique est en constante évolution. Entre autres choses, ils ont vérifié si une entrée (invite) donnait des résultats différents à différents moments. Le premier cycle a été mené en février dernier à l’aide de ChatGPT-3.5, tandis que la deuxième série de questions a été menée à la mi-mai de cette année à l’aide de la version ultérieure du modèle. Sa base de connaissances a récemment été mise à jour et s’étend désormais jusqu’en avril 2023. Auparavant, le modèle ne disposait d’informations que jusqu’en septembre 2021.
Les résultats pourraient donc être différents aujourd’hui. Pour les études de suivi, les chercheurs suggèrent davantage de séries de questions à des intervalles plus courts. Les chercheurs voient d’autres limites à leur travail dans le nombre peut-être trop restreint d’experts pour évaluer les réponses. De plus, les questions et leur formulation n’étaient pas basées sur les données actuelles des utilisateurs. Aujourd’hui, les gens pourraient poser à ChatGPT différentes questions, formulées de différentes manières, qui produiraient des résultats différents.
Les travaux de recherche récemment publiés ont montré que la qualité des réponses du modèle est généralement élevée. En moyenne, il a obtenu une note de 8,25 sur 10 points. « Nous avons observé que ChatGPT fournit des arguments équilibrés et nuancés et conclut de nombreuses réponses par un commentaire qui encourage l’examen critique afin d’éviter les réponses biaisées », explique Maike Gossen de la TU Berlin. Par exemple, ChatGPT a répondu à la question « Comment la vie marine est-elle affectée par le changement climatique et comment les impacts négatifs peuvent-ils être réduits ? » non seulement la réduction des émissions de gaz à effet de serre évoquée – mais aussi ?
Réduire les impacts non climatiques des activités humaines tels que la surpêche et la pollution.
Taux d’erreur pertinent
L’exactitude de plus de la moitié des réponses a même été notée sur 10. Mais il ne faut pas compter sur des résultats toujours aussi élevés. Dans 6,25 pour cent des réponses, la précision n’a pas atteint plus de 3 points et dans 10 pour cent, la pertinence n’a pas atteint une valeur supérieure à 3.
Parmi les questions auxquelles on a répondu de manière inexacte, l’erreur la plus courante était causée par des hallucinations de faits. Par exemple, la réponse de ChatGPT à la question « Quel pourcentage de déchets recyclables est réellement recyclé par l’Allemagne ? » Corriger dans les grandes lignes, mais pas dans les détails. Selon l’Agence fédérale de l’environnement, il était de 67,4 % en 2020, tandis que ChatGPT indiquait 63 %.
ChatGPT est inventif, mais semble crédible
Dans certains cas, ChatGPT a généré des informations fausses ou fausses, telles que des références fabriquées ou de faux liens, y compris vers de prétendus articles et contributions dans des publications scientifiques. D’autres erreurs sont survenues dans les cas où ChatGPT citait des sources ou de la littérature scientifiques spécifiques et correctes, mais en tirait des conclusions incorrectes.
Les chercheurs ont également pu observer que les réponses inexactes de ChatGPT étaient formulées de manière si plausible qu’elles étaient perçues à tort comme correctes. « Étant donné que les générateurs de texte comme ChatGPT sont formés pour donner des réponses qui semblent correctes aux gens, le style de réponse confiant peut faire croire aux gens que la réponse est correcte », explique Maike Gossen.
L’équipe a également été confrontée à de la désinformation dans le discours social ou à des préjugés. Par exemple, certaines des réponses incorrectes de ChatGPT reflétaient des malentendus sur une action efficace contre le changement climatique. Cela inclut la surestimation des changements de comportement individuels, mais aussi des mesures individuelles de faible impact qui ralentissent les changements structurels et collectifs avec un impact plus important. Parfois, les réponses semblaient également trop optimistes quant aux solutions technologiques comme moyen clé d’atténuer le changement climatique.
Source précieuse mais faillible
Les grands modèles de langage comme ChatGPT pourraient être une source précieuse d’informations sur le changement climatique, concluent les scientifiques. Cependant, il existe un risque qu’elles propagent et promeuvent de fausses informations sur le changement climatique, car elles reflètent déjà des faits dépassés et des malentendus.
Leur courte étude montre que la vérification des sources d’informations environnementales et climatiques est plus importante que jamais. Cependant, reconnaître les réponses incorrectes nécessite souvent des connaissances spécialisées approfondies dans le domaine concerné, notamment parce qu’elles semblent plausibles à première vue.