Cuando un LLM debe llevar la anamnesis por sí mismo: un banco de pruebas inspirado en el examen clínico muestra que el razonamiento diagnóstico interactivo degrada el rendimiento (Zhan & Gan 2026, arXiv)

Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu y Lu Gan (con la supervisión, financiación y revisión atribuidas a Xihe Qiu, Xiaoxiao Ge, Liang Liu y Lu Gan) publican en arXiv el 21 de mayo de 2026 un banco de pruebas «inspirado en el OSCE»: un simulador de paciente estandarizado ante el cual quince grandes modelos de lenguaje (LLM, large language models: modelos entrenados para predecir texto, usados aquí como asistentes del razonamiento clínico) deben, como un estudiante de medicina en un examen clínico, llevar ellos mismos la entrevista antes de emitir un diagnóstico. En 468 casos, este modo interactivo —hacer las preguntas uno mismo, turno a turno— reduce la exactitud diagnóstica en un 12,75 % y la calidad de las pruebas aportadas en un 24,36 % respecto al ajuste en el que toda la información se entrega de entrada, con errores debidos sobre todo al cierre diagnóstico prematuro y a un interrogatorio ineficaz. La lección es sobria y útil: los rankings sobre exámenes médicos estáticos de opción múltiple probablemente sobreestiman lo que estos modelos pueden hacer en una consulta real. Tres reservas acompañan el hallazgo: un simulador de paciente a su vez algorítmico, una procedencia de los casos no especificada en la versión accesible y cifras reportadas en valores relativos sin referencia humana.

El contexto

Desde hace cuatro años, el rendimiento de los LLM en medicina se mide sobre todo en exámenes escritos: preguntas de opción múltiple tipo USMLE (el examen de licencia médica estadounidense), conjuntos de datos como MedQA, viñetas clínicas cerradas. En esas pruebas los mejores modelos ya superan el umbral de aprobado humano, lo que ha alimentado una oleada de anuncios sobre «médicos IA». Pero esas pruebas comparten un rasgo: toda la información útil se expone de entrada en el enunciado. El modelo recibe la edad, los antecedentes, los síntomas, los resultados de laboratorio, y luego elige una respuesta. Una consulta real no funciona así: el clínico parte de un motivo vago, debe decidir qué preguntas hacer, qué pruebas pedir y cuándo detenerse —un razonamiento secuencial bajo incertidumbre, donde el arte está tanto en buscar la información como en procesarla.

Es esa brecha la que ataca el artículo. Se inscribe en una línea reciente de trabajos sobre la evaluación interactiva de modelos clínicos, que simulan un diálogo paciente-médico en lugar de una pregunta de opción múltiple. La novedad reivindicada es un marco inspirado en el OSCE: el OSCE (Objective Structured Clinical Examination, examen clínico objetivo estructurado) es la prueba en la que un estudiante de medicina se enfrenta a un «paciente estandarizado» —un actor formado para representar un caso— y se le evalúa por su capacidad de recoger la anamnesis, explorar y razonar. Al trasladar este formato a los LLM, los autores buscan medir no lo que el modelo sabe cuando se le da todo, sino lo que logra descubrir cuando debe hacer las preguntas correctas.

El método

El preprint (arXiv:2605.22047, 10.48550/arXiv.2605.22047), depositado el 21 de mayo de 2026 bajo licencia CC BY 4.0 (reutilización y adaptación permitidas con atribución —un punto favorable sobre el que volvemos—), construye dos piezas. Primero un simulador de paciente estandarizado: un agente que representa al paciente, responde a las preguntas del modelo evaluado y solo revela la información a medida que se solicita. Después un protocolo de indagación diagnóstica activa, controlado y reproducible, en el que el LLM mantiene un diálogo de varios turnos y luego formula un diagnóstico. Las afiliaciones precisas de los autores, la naturaleza exacta del motor del simulador y la lista nominal de los quince modelos no figuran en el resumen accesible; no los inventaremos y señalamos estas zonas como elementos a verificar en el manuscrito completo.

El banco de pruebas consta de 468 casos y quince modelos, propietarios y de código abierto. Para cada caso se comparan dos ajustes. En el ajuste full-context (contexto completo), todo el historial se entrega al modelo de entrada, como en un examen clásico de opción múltiple: es la cota superior idealizada. En el ajuste activo, el modelo solo ve al principio un motivo de consulta y debe interrogar al simulador, turno a turno, para reconstruir la información antes de concluir. Se miden dos magnitudes: la exactitud diagnóstica (¿es correcto el diagnóstico final?) y la calidad de las pruebas aportadas (¿son pertinentes y suficientes los elementos citados en apoyo del diagnóstico?). Un análisis de errores categoriza después los fallos.

Esta doble medida es más exigente que una simple puntuación: un modelo puede acertar el diagnóstico por razones equivocadas, o apoyándose en pruebas que en realidad no recogió. Separar la exactitud de la calidad del razonamiento es precisamente lo que distingue una evaluación clínica seria de un concurso de respuestas.

Los resultados

El resultado central es una brecha neta entre los dos ajustes. Al pasar del contexto completo a la indagación activa, la exactitud diagnóstica baja un 12,75 % y la calidad de las pruebas aportadas baja un 24,36 % (valores reportados respecto al ajuste full-context). Dicho de otro modo, la caída afecta aún más al razonamiento que al veredicto: no solo los modelos se equivocan más de diagnóstico, sino que sobre todo justifican mucho peor el que proponen. El análisis de errores atribuye estas caídas a dos comportamientos: el cierre diagnóstico prematuro —el modelo se fija en una hipótesis demasiado pronto, antes de recoger con qué confirmarla o descartarla— y un interrogatorio ineficaz —hace preguntas poco informativas, u omite las decisivas—. Son, notablemente, dos sesgos cognitivos bien descritos en clínicos humanos principiantes; los LLM los reproducen.

Traducción clínica. Como se trata de un banco de pruebas y no de un ensayo con pacientes, la traducción es de interpretación más que de número de vidas. La idea a retener: en un conjunto de consultas donde el modelo debe recoger él mismo la historia, alrededor de una respuesta correcta de cada ocho (en relativo) se pierde frente al caso ideal en el que se le entrega el historial completo, y casi una cuarta parte de la calidad del razonamiento justificativo se evapora. Para una herramienta destinada a asistir a un médico en un intercambio real, no es un detalle: el rendimiento mostrado en los exámenes escritos describe la cota superior de un modelo bien alimentado, no su comportamiento cuando debe conducir la entrevista. No obstante, estas cifras siguen siendo promedios relativos: sin los valores absolutos, sin la dispersión entre modelos y sin intervalos de confianza en el resumen, indican una tendencia robusta, no una medida de riesgo trasladable tal cual a un paciente concreto.

Lo que está bien

La evaluación apunta al problema correcto. La principal debilidad de los rankings actuales es que prueban el conocimiento entregado llave en mano, no la capacidad de investigar. Al adoptar un formato OSCE —recoger la anamnesis de un paciente estandarizado antes de concluir—, el artículo mide una competencia que realmente cuenta en clínica y que las pruebas de opción múltiple ignoran. Es exactamente el tipo de salvaguarda metodológica que falta en la literatura de «la IA aprueba el examen de medicina».

La doble métrica separa el veredicto del razonamiento. Medir a la vez la exactitud del diagnóstico y la calidad de las pruebas aportadas, y luego categorizar los errores (cierre prematuro, interrogatorio ineficaz), ofrece un diagnóstico de los modelos, y no solo una nota. Que la calidad de las pruebas caiga más (−24,36 %) que la exactitud (−12,75 %) es una observación valiosa: sugiere que algunos «buenos» diagnósticos en modo activo se alcanzan sin un razonamiento sólido, algo que una simple tasa de acierto habría ocultado.

La escala, la reproducibilidad y la licencia abierta. Quince modelos, propietarios y abiertos, sobre 468 casos, en un protocolo descrito como controlado y reproducible: lo bastante amplio para que la tendencia no dependa de un modelo ni de un puñado de casos. Y la difusión bajo licencia CC BY 4.0 —que permite la reutilización y la adaptación con atribución— facilita que otros equipos retomen el banco de pruebas, al contrario de las licencias no comerciales y sin obras derivadas que bloquean parte de la literatura.

Lo que está menos bien

El paciente es simulado, y el simulador es a su vez un modelo. El realismo de la prueba depende por completo de la calidad del paciente estandarizado. Si lo anima un LLM, la evaluación se vuelve en parte circular: un modelo interroga a otro modelo, y ambos pueden compartir los mismos puntos ciegos (mismos datos de entrenamiento, mismas formulaciones). Es una variante del modo de fallo del sesgo de población aplicado a la evaluación: un paciente simulado no es un paciente real, con sus relatos desordenados, sus olvidos, sus comorbilidades y sus formulaciones ambiguas. La validez externa —¿se trasladaría el rendimiento a entrevistas reales?— queda, por tanto, por establecer, y el resumen no anuncia ninguna validación sobre diálogos clínicos auténticos.

La procedencia de los 468 casos no se especifica, de ahí un riesgo de contaminación. Si esos casos derivan de colecciones públicas (viñetas, bancos de casos, conjuntos de datos médicos abiertos), los quince modelos han podido encontrarlos durante su entrenamiento. Es el modo de fallo del data leakage (fuga de datos) trasladado a los LLM, bajo el nombre de contaminación de datos: la cota superior «full-context» quedaría entonces inflada artificialmente por la memorización, lo que exageraría mecánicamente la brecha con el modo activo. Mientras el origen de los casos y el control de contaminación no se documenten en el texto completo, la cifra del 12,75 % debe leerse como una diferencia entre dos ajustes, no como una medida pura de la dificultad de investigar.

Porcentajes relativos, sin comparador humano ni valores absolutos. El resumen da caídas relativas (−12,75 %, −24,36 %) sin la exactitud absoluta de partida, sin la dispersión entre modelos y sin intervalos de confianza. Es un primo de la métrica engañosa: una caída relativa impresionante puede recubrir realidades muy distintas según el nivel de base. Sobre todo, falta un comparador humano sometido al mismo protocolo: ¿cuántas respuestas correctas pierde también un médico entre un historial completo y una entrevista por conducir? Sin esa referencia, sabemos que los LLM se degradan en modo interactivo, pero no si se degradan más o menos que un clínico —y es esa comparación la que decidiría su utilidad como asistente.

Lo que esto cambia

Para la comunidad investigadora, el mensaje es una llamada a cambiar la unidad de medida. Mientras los modelos clínicos se clasifiquen sobre exámenes estáticos de opción múltiple, los progresos exhibidos corren el riesgo de sobreestimar la aptitud real. Este tipo de banco de pruebas interactivo —y, mejor aún, su difusión abierta bajo CC BY 4.0— aporta un complemento que otros equipos pueden retomar, extender a diálogos reales y endurecer frente a la contaminación. La continuación natural es una versión con pacientes reales o transcripciones auténticas, y un brazo humano de comparación.

Para los clínicos, es una confirmación útil de la intuición de la cabecera del paciente: una herramienta que responde de forma brillante a una viñeta completa no es por ello un buen interlocutor de entrevista. El cierre diagnóstico prematuro y el interrogatorio ineficaz que muestran los modelos son precisamente las trampas que se enseña a evitar a los residentes. En concreto, ninguno de estos sistemas está hoy aprobado como dispositivo médico (ni marcado CE, ni autorización de la FDA, ni dictamen favorable de la HAS francesa) para conducir una anamnesis de forma autónoma, y este artículo explica por qué sigue imponiéndose la prudencia.

Para los pacientes y el público, la enseñanza es directa: un agente conversacional que parece «saber medicina» cuando se le describe todo de golpe puede equivocarse más cuando debe, como un verdadero profesional, hacer las preguntas correctas en el momento adecuado. Las herramientas de consumo tipo «verificador de síntomas» basadas en LLM heredan esta limitación. Pueden informar y orientar, pero no sustituyen la entrevista clínica —y la decisión diagnóstica sigue siendo cosa de un profesional.

Para saber más

El preprint está en acceso abierto en arXiv: arxiv.org/abs/2605.22047 (DOI 10.48550/arXiv.2605.22047), bajo licencia CC BY 4.0. Sobre los límites de los LLM en seguridad clínica, véase nuestro análisis del estudio de Auger 2026 sobre la frontera de seguridad clínica de un LLM en la esclerosis múltiple. Sobre cómo el formato de una respuesta de LLM en imagen puede engañar a la evaluación, véase nuestro análisis de Spitzer 2026 sobre el efecto del formato de explicación en radiología.