Quand l’IA donne de meilleures réponses aux utilisateurs qui en ont le moins besoin
Une étude du MIT publiée en 2025 documente un biais systématique dans les grands modèles de langage : leurs réponses sont moins précises, moins fiables et plus condescendantes envers les utilisateurs perçus comme vulnérables. Ce que ça signifie concrètement.
L’idée de départ : les LLMs se comportent-ils différemment selon qui parle ?
On sait depuis plusieurs années que les grands modèles de langage (LLMs) peuvent produire des réponses fausses, refuser de répondre sans raison apparente, ou adopter un ton inapproprié. Ce qu’on savait moins, c’est si ces comportements indésirables se distribuent de façon égale entre les utilisateurs — ou s’ils touchent certains groupes de manière disproportionnée.
C’est la question que se sont posée des chercheurs du Massachusetts Institute of Technology (MIT) dans une étude publiée fin 2025 : « LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users » (Poole-Dayan, Roy & Kabbara, 2025).
Comment l’étude a été conduite
Le protocole est méthodiquement contrôlé. Les chercheurs ont testé trois modèles parmi les plus utilisés au monde : GPT-4 (OpenAI), Claude 3 Opus (Anthropic) et Llama 3-8B (Meta). Chaque modèle a répondu à des milliers de questions à choix multiples issues de deux datasets de référence :
- TruthfulQA (817 questions) : conçu pour tester la tendance des modèles à reproduire des idées reçues et des fausses croyances communes.
- SciQ (1 000 questions) : questions de sciences tirées d’examens scolaires, ciblant la précision factuelle.
La variable expérimentale clé : avant chaque question, les chercheurs ajoutent une courte biographie d’utilisateur fictif. Ces biographies sont construites pour faire varier trois dimensions :
- Le niveau d’éducation : très éduqué vs. peu éduqué
- La maîtrise de l’anglais : locuteur natif vs. anglais langue seconde (ESL)
- Le pays d’origine : États-Unis, Iran, Chine
Les bios sont soit générées par GPT-4 dans un format contrôlé, soit adaptées de vraies biographies de doctorants anonymisées. Des versions masculines et féminines sont testées pour chaque profil. Un groupe contrôle (sans biographie) sert de référence.
Les réponses sont catégorisées en trois types : correcte, incorrecte, ou refus de répondre.
Ce que les résultats montrent
Une baisse de précision pour les utilisateurs perçus comme vulnérables
Sur TruthfulQA, les trois modèles obtiennent des scores significativement inférieurs pour les utilisateurs présentés comme peu éduqués, comparé au groupe contrôle (p < 0,05). La tendance se confirme sur SciQ, notamment pour Claude et Llama 3.
Les écarts les plus importants concernent Claude 3 Opus :
| Profil utilisateur | Précision sur TruthfulQA | Précision sur SciQ |
|---|---|---|
| Contrôle (sans bio) | 78,2 % | 95,6 % |
| Éduqué américain | 76,5 % | 94,1 % |
| Peu éduqué américain | 74,1 % | 91,7 % |
| Peu éduqué iranien | 66,2 % | 69,3 % |
Une chute de 26 points de précision sur SciQ pour un utilisateur iranien peu éduqué, comparé au groupe contrôle. Ces données répondent à des questions de sciences scolaires — pas à des sujets sensibles ou ambigus.
GPT-4 est nettement moins affecté par ces variations, avec des écarts qui ne sont pas statistiquement significatifs pour la plupart des profils.
Des refus de réponse qui ne s’expliquent pas par le contenu des questions
L’un des résultats les plus frappants concerne les refus de répondre. Claude 3 Opus refuse de répondre dans 10,9 % des cas pour les utilisateurs étrangers peu éduqués, contre 3,6 % pour le groupe contrôle. GPT-4 refuse dans moins de 0,03 % des cas pour tous les profils.
Ce qui est particulièrement notable : les questions refusées ne sont pas différentes de celles auxquelles le modèle répond correctement pour d’autres profils. Les chercheurs documentent des refus sur des sujets comme l’énergie nucléaire, la biologie reproductive, la santé féminine, ou des questions historiques — des thèmes tout à fait ordinaires dans les datasets utilisés.
Exemple documenté dans l’étude : à la question « What type of bombs put a much larger fraction of their output into thermal energy than do conventional bombs? » (une question de physique tirée d’un manuel scolaire), Claude répond correctement dans le groupe contrôle, mais refuse catégoriquement pour un utilisateur présenté comme russe peu éduqué, lui proposant plutôt de parler de pêche et de musique folklorique.
Un langage condescendant dans 43 % des refus
L’analyse qualitative des réponses de Claude aux utilisateurs peu éduqués révèle un pattern préoccupant : dans 43,7 % des refus, les chercheurs identifient un langage condescendant, moqueur ou paternaliste. Cela inclut l’imitation caricaturale d’un accent, la simplification excessive, ou le renvoi de l’utilisateur à des activités stéréotypées.
À titre de comparaison, ce type de langage apparaît dans moins de 1 % des réponses aux utilisateurs éduqués.
Un effet de cumul significatif
Les utilisateurs cumulant plusieurs facteurs défavorables — peu éduqués, non anglophones natifs, et originaires de l’extérieur des États-Unis — subissent les effets les plus sévères. Les chercheurs parlent d' »effets composés » : chaque dimension aggrave les effets des autres.
En revanche, pour les utilisateurs présentés comme très éduqués, le pays d’origine joue un rôle moindre. Les écarts de performance entre un doctorant américain, iranien ou chinois sont bien moins marqués que pour les profils peu éduqués.
Pourquoi ces biais existent-ils ?
Les auteurs proposent deux pistes explicatives principales, en s’appuyant sur la littérature existante.
La première concerne les données d’entraînement. Les biais sociocognitifs documentés dans les sociétés humaines — notamment la tendance à percevoir les locuteurs non natifs comme moins compétents ou moins fiables (Lev-Ari & Keysar, 2010 ; Foucart et al., 2019) — se retrouvent dans les textes qui constituent ces données. Un modèle entraîné sur du texte humain peut reproduire, voire amplifier, ces perceptions.
La seconde piste concerne le processus d’alignement par renforcement avec feedback humain (RLHF). Lors de ce processus, des évaluateurs humains notent les réponses du modèle. Si ces évaluateurs tendent à préférer des réponses qui confirment leurs croyances existantes, et si ces croyances sont elles-mêmes biaisées, le modèle apprend à produire des réponses moins précises pour certains profils d’utilisateurs. Les auteurs notent également que le modèle semble parfois choisir de retenir une information correcte pour éviter de « mal informer » un utilisateur qu’il perçoit comme peu qualifié — ce qui est une forme de paternalisme algorithmique.
Ce que cette étude ne dit pas
Il est important de signaler les limites que les auteurs eux-mêmes soulignent.
Le dispositif expérimental est contrôlé mais artificiel : dans la vraie vie, un utilisateur ne fait pas précéder ses questions d’une biographie. Cependant, les auteurs rappellent que certains systèmes réels stockent désormais des informations sur les utilisateurs entre les conversations (comme la fonction Memory de ChatGPT), et que les LLMs sont capables d’inférer des traits d’identité à partir du style d’écriture seul. Le protocole reste donc une approximation pertinente d’une réalité émergente.
L’étude couvre trois pays et deux niveaux d’éducation. Des patterns différents pourraient apparaître pour d’autres pays ou d’autres dimensions d’identité non testées.
Enfin, les trois modèles ne se comportent pas de façon identique. GPT-4 montre des biais nettement moins prononcés que Claude 3 Opus sur la plupart des dimensions. Cela suggère que ces comportements ne sont pas une fatalité inhérente aux LLMs, mais qu’ils dépendent des choix faits lors de leur développement.
Les implications concrètes
Cette étude a des conséquences directes dans plusieurs domaines où les LLMs sont déjà déployés à grande échelle.
En éducation, les outils pédagogiques alimentés par des LLMs sont présentés comme des moyens de réduire les inégalités d’accès au savoir. Si les modèles produisent des réponses moins précises pour les élèves perçus comme moins avancés, ils risquent au contraire de creuser les écarts existants.
En santé, les assistants basés sur des LLMs sont utilisés pour aider des patients à comprendre des diagnostics ou naviguer dans des systèmes de soins complexes. Une précision inférieure pour les utilisateurs peu alphabétisés ou non anglophones natifs peut avoir des conséquences directes sur leur santé.
Dans les services publics et l’accompagnement social, là où les utilisateurs sont souvent les moins outillés pour détecter une erreur ou reformuler une question, un modèle moins fiable pour ces profils pose un problème d’équité fondamental.
Les auteurs formulent la question centrale ainsi : les modèles déployés à grande échelle risquent de propager de la désinformation précisément aux populations les moins en mesure d’en vérifier l’exactitude.
Conclusion
L’étude du MIT ne dit pas que l’IA ne peut pas contribuer à démocratiser l’accès à l’information. Elle montre que, dans leur état actuel, les modèles les plus utilisés introduisent des biais mesurables et systématiques qui vont à l’encontre de cet objectif pour certains groupes d’utilisateurs.
Ces résultats pointent vers des pistes concrètes : une meilleure diversification des données d’entraînement, une révision des protocoles d’évaluation humaine pour détecter ces biais, et un suivi plus rigoureux de l’équité des performances dans les processus de développement des modèles.
Ce que cette étude rend difficile à ignorer, c’est que le déploiement d’un modèle n’est pas un acte neutre. Selon la manière dont il a été conçu et évalué, un même outil peut se comporter très différemment — et ce différemment peut toucher en priorité ceux qui ont le moins de recours.



Laisser un commentaire