médical IA

10 000 casos sintéticos frente a cuatro LLM de frontera: lo que el estudio Auger 2026 revela sobre los puntos ciegos clínicos de Gemini 3 y GPT-5 en esclerosis múltiple

Publicado el 23 de mayo de 2026 · 9 min lectura

Stephen D. Auger (Imperial College London) publicó en medRxiv el 22 de abril de 2026 una evaluación a muy gran escala de cuatro modelos generativos de vanguardia — Gemini 3 Pro y Flash de Google, GPT-5.2 y GPT-5-mini de OpenAI — sobre hasta 10 000 casos sintéticos de esclerosis múltiple generados programáticamente, con etiquetado de verdad-terreno validado por subespecialistas. El hallazgo central cabe en una frase: la precisión diagnóstica no predice la seguridad de las recomendaciones terapéuticas. Incluso con el diagnóstico correcto, los modelos pueden recomendar corticoterapia a alta dosis en un paciente infectado, o trombolisis intravenosa para una EM — ambas inapropiadas, la segunda decididamente peligrosa. Lectura importante porque propone un método de stress-test a escala, y porque desplaza el debate de los benchmarks de tipo test a la seguridad operativa real.

El contexto

Los large language models (LLMs, modelos generativos de lenguaje entrenados sobre corpus masivos de texto) alcanzan hoy el 90 % o más en los tipos test del United States Medical Licensing Examination, en MedQA, en el NEJM Image Challenge. Los comunicados asociados han transmitido la impresión de un razonamiento clínico sólido. Pero una literatura paralela, más discreta, acumula desde 2024 las señales de que esos resultados en preguntas cerradas no se transfieren a la práctica: rendimiento que se desploma cuando se modifican las viñetas al margen, alucinaciones de referencias bibliográficas, sensibilidad extrema a la formulación del prompt y — punto central de este artículo — una disociación entre la capacidad para nombrar el diagnóstico y la capacidad para elegir el manejo correcto.

Medir esa disociación a escala choca con un muro logístico. Los casos clínicos reales son escasos, su etiquetado de verdad-terreno es caro, y su diversidad está limitada por los sesgos de inclusión de las cohortes hospitalarias. La esclerosis múltiple (EM) ofrece un terreno particularmente útil para rodear ese problema: dispone de criterios diagnósticos formalizados (los criterios de McDonald 2017, revisión 2024), de un mapa clínico-anatómico estereotipado (lesiones diseminadas en espacio y tiempo, síndromes medulares, ópticos, troncoencefálicos, hemisféricos) y de estrategias terapéuticas validadas (corticoterapia a alta dosis en brote, tratamientos modificadores de enfermedad, contraindicaciones bien identificadas). Auger aprovecha esa regularidad para generar decenas de miles de casos plausibles con etiquetas verificables — lo que ningún centro hospitalario podría aportar, y lo que los benchmarks públicos tampoco ofrecían.

El método

El estudio lo conduce Stephen D. Auger, neurólogo clínico e investigador del UK Dementia Research Institute Care Research and Technology Centre del Imperial College London, con actividad clínica en el Imperial College Healthcare NHS Trust. Preprint depositado en medRxiv el 22 de abril de 2026, DOI 10.64898/2026.04.22.26351488.

El dispositivo tiene tres ladrillos. Primer ladrillo: un generador procedimental de casos clínicos de EM, que combina sistemáticamente síntomas (visuales, sensitivos, motores, atáxicos, esfinterianos), signos de exploración, resultados de pruebas complementarias (RM cerebral y medular, bandas oligoclonales en LCR, serologías, potenciales evocados) y comorbilidades plausibles. Cada caso lleva una verdad-terreno estructurada: diagnóstico más probable, localización anatómica de la(s) lesión(es), exploraciones recomendadas, manejo terapéutico esperado. El sistema es parametrizable para producir de 1 000 a 10 000 casos únicos por ejecución.

Segundo ladrillo: cuatro modelos generativos de frontera — Gemini 3 Pro y Gemini 3 Flash (Google), GPT-5.2 y GPT-5-mini (OpenAI) — son interrogados sobre cada caso con un prompt estandarizado. La instrucción pide cuatro salidas: localización anatómica de la(s) lesión(es), diagnóstico diferencial ordenado, pruebas complementarias a solicitar y conducta terapéutica. Los LLMs no saben que el caso es necesariamente EM — deben inferirlo.

Tercer ladrillo: un evaluador automático híbrido compara las salidas LLM con la verdad-terreno. Combina term matching (correspondencia de términos médicos controlados, con gestión de sinónimos tipo SNOMED) y semantic comparison mediante embeddings vectoriales (que captura paráfrasis y formulaciones equivalentes). Ese evaluador fue validado sobre una cohorte inicial de 70 casos por clínicos subespecialistas en EM, en ciego, que juzgaron dos cosas: el realismo de los casos sintéticos y el acuerdo entre el evaluador automático y su propio juicio humano. Solo tras esas dos validaciones se escaló el sistema a los 10 000 casos.

El término verdad-terreno (ground truth) designa, en evaluación de IA, la etiqueta de referencia con la que se compara la salida del modelo. La fuerza del estudio es proponer una verdad-terreno a la vez clínicamente plausible y programática — disponible a escala, sin sesgo de anotador único.

Los resultados

El resultado principal es una disociación sistemática entre precisión diagnóstica y seguridad de las recomendaciones terapéuticas. Los cuatro modelos identifican correctamente la EM como diagnóstico más probable en una mayoría de casos — el rendimiento bruto en "tarea tipo test" es respetable. Pero al examinar las recomendaciones terapéuticas, el cuadro se deteriora y revela dos modos de fallo opuestos según el proveedor.

Lado Google. Gemini 3 Flash recomienda corticoides clínicamente apropiados solo en el 7,2 % de los casos (intervalo de confianza 95 %: 5,6–8,8), y Gemini 3 Pro en el 15,8 % (13,6–18,1). A modo de comparación, GPT-5-mini llega al 23,5 % (20,8–26,1). Sobre todo, los modelos Gemini recomiendan con frecuencia metilprednisolona a alta dosis en situaciones en que está contraindicada — en particular cuando el caso sintético menciona explícitamente una infección activa, o cuando los síntomas son incidentales, datados a más de catorce días o sin información temporal (un síntoma estabilizado no es un brote y no se trata con corticoterapia de ataque). El modo de fallo aquí es la infraespecificidad: el modelo reconoce que se habla de EM, dispara el protocolo "brote" por defecto, e ignora los moduladores clínicos que deberían anularlo.

Lado OpenAI. El modo de fallo es inverso y mucho más alarmante. GPT-5.2 recomienda iniciar inmediatamente una trombolisis intravenosa (tratamiento reservado al ictus isquémico agudo, peligroso fuera de indicación) en el 9,6 % de los casos de EM, y GPT-5-mini en el 6,4 %. Los dos modelos Gemini, en cambio, se mantienen por debajo del 1 % en esa recomendación aberrante. No es un error de redondeo: sobre 10 000 casos, GPT-5.2 propone una trombolisis innecesaria y potencialmente hemorrágica para unos 960 pacientes. El modo de fallo aquí es la colisión de esquemas — el modelo confunde la presentación neurológica aguda de la EM con la del ictus isquémico agudo y activa el protocolo correspondiente.

Ninguno de esos errores es detectable por un benchmark tipo test donde la pregunta fuese "¿cuál es el tratamiento de primera línea de un brote de EM?". Solo aparecen al pedir al modelo que razone sobre un caso completo, en interacción libre, que es lo que la práctica exige.

Traducción clínica. Sobre 1 000 pacientes consecutivos presentados a un LLM sin supervisión, GPT-5.2 propondría unas 96 trombolisis intravenosas innecesarias. Una trombolisis fuera de indicación expone, según la literatura sobre ictus, a un riesgo hemorrágico del orden del 2 al 6 % — es decir, dos a seis hemorragias intracraneales adicionales por cohorte de 1 000, atribuibles únicamente al error de orientación. A la inversa, Gemini 3 Flash privaría a unos 928 pacientes sobre 1 000 de una corticoterapia apropiada en brote, retrasando potencialmente la recuperación neurológica. Ninguno de estos escenarios se ha observado en práctica porque ninguno de esos modelos está hoy desplegado en autonomía clínica — es precisamente el argumento del artículo: hay que detectar esas fallas antes del despliegue, no después.

Lo bueno

Tres fortalezas específicas.

La escala de evaluación es sin precedentes para lo clínico. Los benchmarks públicos históricos (MedQA, MedMCQA, NEJM Image Challenge) rondan unos pocos miles de preguntas en el mejor de los casos, a menudo contaminadas por los datos de entrenamiento. 10 000 casos sintéticos con verdad-terreno estructurada y generados al vuelo resuelven el problema de fuga (los modelos no han podido ver esos casos) y permiten medir tasas de error raras — que es precisamente lo que exige la seguridad clínica. Un error al 1 % es invisible sobre 100 casos, evidente sobre 10 000.

El evaluador automático está validado contra expertos en ciego. La validación previa sobre 70 casos por subespecialistas en EM evita la trampa clásica de la evaluación autorreferencial (LLM juzgado por otro LLM, sin calibración humana). Esa exigencia metodológica aún dista de ser estándar en la literatura de benchmarking de LLMs clínicos, donde la "precisión" reportada es a menudo la de un evaluador GPT-4 que juzga a otro GPT-4 — sesgo de modelo juez-y-parte evidente.

El artículo prueba modelos realmente de frontera en 2026. Gemini 3 Pro/Flash y GPT-5.2/5-mini son las versiones actuales al momento de la redacción. La literatura LLM-clínica sufre de una obsolescencia rápida: un benchmark sobre GPT-3.5 publicado en 2023 no enseña nada útil en 2026. Este artículo será informativo al menos hasta la próxima generación de modelos y establece una metodología reproducible para evaluarlos.

Lo menos bueno

Tres limitaciones precisas que conviene tener presentes.

Los casos son sintéticos, así que la validez ecológica es limitada. Un caso generado programáticamente, aunque validado en su realismo por 70 expertos, no es un paciente. Le faltan las ambigüedades, las contradicciones, la información ausente, el ruido de la anamnesis real, y sobre todo el contexto longitudinal (antecedentes personales, tratamientos en curso, terreno familiar completo). El modo de fallo a señalar aquí es el sesgo de población: el rendimiento medido sobre casos sintéticos es probablemente una cota superior del rendimiento sobre casos reales, porque los casos sintéticos están más limpios. Auger lo reconoce explícitamente y propone su generador como herramienta de preselección antes de validación en cohortes prospectivas — no como sustituto.

El estudio se limita a una sola patología. La EM fue elegida por sus criterios formalizados y su mapa estereotipado. Nada garantiza que las conclusiones se transpongan a contextos en que el diagnóstico diferencial es más abierto (medicina interna general, pediatría, geriatría pluripatológica). El shortcut learning en los LLMs — la tendencia a aprender correlaciones parásitas — podría comportarse de manera distinta según la regularidad estadística de la patología. Una extensión a al menos tres o cuatro patologías de especificidad contrastada sería necesaria para hablar de un método generalizable.

Ni comparador humano ni evaluación prospectiva. El artículo compara los LLMs entre sí y con la verdad-terreno, pero no con el rendimiento de un clínico real ante el mismo caso sintético. Así no se sabe si el 23,5 % de recomendaciones apropiadas de corticoides (GPT-5-mini) es "catastróficamente bajo" o "comparable a un residente de guardia en las primeras horas". Esta pregunta queda abierta, y todo comentario que cite esas cifras sin comparador caerá pronto en el entusiasmo ciego ("GPT-5 lo hace peor que un principiante") o su inverso ("23 % ya es mejor que un médico cansado"). Acecha la métrica engañosa clásica: un porcentaje sin denominador clínico de referencia no se interpreta solo.

Nota adicional: preprint medRxiv, aún no revisado por pares; la versión final puede evolucionar.

Lo que cambia

Para la comunidad de investigación IA-salud, la señal metodológica es importante. Las evaluaciones de LLMs clínicos se han apoyado masivamente en tipos test, que miden la memoria de conocimientos médicos pero pierden la dimensión más arriesgada — la cadena decisional completa, del diagnóstico a la prescripción. Este artículo propone un marco operativo para generar casos en volumen, con verdad-terreno, y un evaluador calibrado sobre expertos humanos. Es un ladrillo metodológico reutilizable, y cabe esperar que otros equipos lo apliquen a otras patologías en los próximos meses.

Para los clínicos y las autoridades sanitarias, el mensaje es sobrio: ninguno de los cuatro modelos testados es, hoy por hoy, desplegable en autonomía para la prescripción. La FDA estadounidense, la EMA europea y la HAS francesa deberían considerar este tipo de stress-test a gran escala como un requisito previo a toda aprobación de un dispositivo IA generativa con finalidad clínica. Para los editores (Google, OpenAI, Anthropic, Mistral), el artículo sugiere que la próxima generación debería entrenarse con un objetivo explícito de seguridad terapéutica, y no solo de precisión diagnóstica. La distinción "saber que es una EM" frente a "saber qué hacer con una EM" es exactamente la frontera a instrumentar.

Para los pacientes y el público, la enseñanza útil es: los LLMs no están listos para sustituir a un médico en la prescripción, ni siquiera cuando dan el nombre correcto a la enfermedad. Un chatbot médico de consumo puede diagnosticar correctamente tu patología mientras sugiere un tratamiento peligroso. Esta disociación es contraintuitiva — la mediación por el lenguaje da una impresión de competencia global que oculta las fallas de la cadena completa — y explica por qué los usos clínicos reales pasan (por ahora) por un médico que mantiene el control, y por qué consultar un chatbot sin médico sigue siendo, en 2026, una mala idea.

Para profundizar

El preprint de Stephen D. Auger está en acceso abierto en medRxiv, DOI 10.64898/2026.04.22.26351488. Para los criterios diagnósticos de la EM utilizados como verdad-terreno, ver Thompson et al., Lancet Neurology, 2018 (criterios de McDonald 2017, DOI 10.1016/S1474-4422(17)30470-2). Para una panorámica de los modos de fallo específicos de los LLMs clínicos, ver Omiye et al., npj Digital Medicine, 2023 (DOI 10.1038/s41746-023-00939-z). Para el marco regulatorio francés sobre la IA generativa en salud, el informe HAS "Buenas prácticas para la evaluación clínica de los dispositivos médicos que incorporan inteligencia artificial" (diciembre 2024) sigue siendo la referencia. Para un estudio reciente sobre el formato de explicación LLM en radiología, ver nuestro decryptaje de Spitzer et al., npj Digital Medicine 2026.