Leer la investigación IA × medicina, mejor.
Tatakoto analiza las publicaciones científicas sobre inteligencia artificial aplicada a la salud. Transformers para detección de cáncer, foundation models en imagen médica, LLMs en razonamiento clínico. Cada artículo dice lo que el estudio encuentra, lo que no dice, y lo que cambia.
BreastGPT: un solo modelo multimodal para todo el recorrido del cáncer de mama — cuánto vale realmente un 90 % en un benchmark casero (Liu et al. 2026, arXiv)
Análisis crítico del preprint depositado el 3 de junio de 2026 en arXiv por Yang Liu y colaboradores (DAMO Academy de Alibaba, Universidad de Zhejiang, Hupan Lab, West China Hospital, China Medical University): BreastGPT, un modelo de lenguaje multimodal de 8.000 millones de parámetros que dice cubrir todo el recorrido clínico del cáncer de mama —cribado, diagnóstico, planificación del tratamiento— en cinco modalidades de imagen (mamografía, ecografía, RM, TC, láminas de patología) y el texto. Entrenado con 1,86 millones de pares pregunta-respuesta construidos en gran parte por los propios grandes modelos de Alibaba, alcanza un 75,66 % de exactitud en las preguntas de opción múltiple y un 89,92 % en las abiertas de su propio benchmark BreastStage-Bench. Una proeza de ingeniería real, pero la mayor parte de la brecha viene de entrenar sobre la distribución exacta del test: el comparador justo solo gana unos pocos puntos, nada se evaluó en pacientes reales ni se comparó con clínicos, y el corpus está en gran medida generado por los modelos de la casa.
MCEN: predecir la respuesta completa a la quimioterapia del cáncer de mama a partir de una biopsia, con la arquitectura Mamba (Zhang et al. 2026, npj Digital Medicine)
Análisis crítico del artículo publicado el 2 de junio de 2026 en npj Digital Medicine por Wenchuan Zhang, Shuwan Zhang, Fengling Li, Qingjie Lv, Yuhao Yi y Hong Bu (West China Hospital, Universidad de Sichuan, y colaboradores): MCEN, un modelo de aprendizaje profundo basado en la arquitectura Mamba que predice, a partir de una biopsia con aguja leída como lámina digital, si una paciente con cáncer de mama logrará una respuesta patológica completa tras quimioterapia neoadyuvante. Entrenado con 1.023 pacientes de un hospital chino y probado en cuatro centros independientes (1.646 pacientes en total), alcanza un AUROC de 0,923 en entrenamiento pero cae a 0,76–0,81 en validación externa, y sube hasta 0,84 al fusionar los datos clinicopatológicos. Sólido por su verdadera validación multicéntrica y la eficiencia de Mamba sobre imágenes gigapíxel, el trabajo queda limitado por una marcada brecha entrenamiento-validación, una cohorte exclusivamente china, exclusiones que descartan las formas atípicas y la ausencia de comparación con patólogos.
SKELEX: un foundation model entrenado con 1,3 millones de radiografías para leer el hueso, del quiste a la fractura (Kim et al. 2026, npj Digital Medicine)
Análisis crítico del artículo publicado el 2 de junio de 2026 en npj Digital Medicine por Shinn Kim, Soobin Lee, Ilkyu Han, Sunghoon Kwon y colegas de la Universidad Nacional de Seúl: SKELEX, presentado como el primer foundation model a gran escala dedicado a las radiografías del aparato locomotor. Un autoencoder enmascarado con dorsal ViT-Large se preentrena de forma autosupervisada con 1 296 540 radiografías sin etiquetar de un solo hospital coreano (2010-2016) y luego se adapta a 12 tareas diagnósticas en 7 conjuntos de datos públicos. Supera a cinco modelos de referencia en un 6,21 % de media relativa (AUROC de 0,953 frente a 0,884 de su propio modelo de inicialización en la detección de tumor óseo), está mejor calibrado y alcanza el nivel de los mejores con la mitad de las etiquetas. Convincente en eficiencia de etiquetas e higiene metodológica, el trabajo está limitado por datos de entrenamiento de un solo centro y un solo país, una verdadera validación externa restringida solo a la aplicación de tumor óseo, la ausencia de comparación con radiólogos, una resolución reducida a 224×224 y pesos publicados únicamente para uso académico.
PINNOCHIO: predecir el rostro postoperatorio en cirugía ortognática con una red guiada por la física, tan precisa como los elementos finitos pero en segundos (Lee et al. 2026, arXiv)
Análisis crítico del preprint publicado en arXiv el 1 de junio de 2026 (enviado a MICCAI 2026) por Jungwook Lee, Daeseung Kim, Kevin Gu, Zhangfeng Hu, Tianshu Kuang, Finn Hopeman, Michael A.K. Liebschner, Jaime Gateno y Pingkun Yan (Rensselaer Polytechnic Institute, Houston Methodist, Baylor College of Medicine): PINNOCHIO, una red neuronal guiada por la física que predice cómo se deforman los tejidos blandos del rostro tras el reposicionamiento quirúrgico de los maxilares, separando el movimiento de la interfaz hueso–tejido de la deformación hiperelástica del volumen. En 40 casos clínicos reales (TC preoperatoria + superficie 3dMD postoperatoria) iguala o supera al simulador de elementos finitos de referencia en fidelidad de superficie (distancia de Chamfer 1,12 mm frente a 1,30; 86,55 % de los puntos a menos de 2 mm frente a 80,90 %) ejecutándose en 3,24 segundos en lugar de 3,5 horas. Convincente en velocidad y plausibilidad biomecánica, el trabajo está limitado por una cohorte de 40 pacientes, una supervisión que solo cubre la superficie externa, parámetros mecánicos fijos idénticos para todos y la ausencia de código o pesos publicados.
Cuando un LLM debe llevar la anamnesis por sí mismo: un banco de pruebas inspirado en el examen clínico muestra que el razonamiento diagnóstico interactivo degrada el rendimiento (Zhan & Gan 2026, arXiv)
Análisis crítico del preprint publicado en arXiv el 21 de mayo de 2026 por Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu y Lu Gan: un banco de pruebas «inspirado en el OSCE» en el que un simulador de paciente estandarizado obliga a quince grandes modelos de lenguaje (LLM) a llevar ellos mismos la entrevista, turno a turno, antes de emitir un diagnóstico. En 468 casos, pasar de la información servida de entrada a la recogida activa de la anamnesis reduce la exactitud diagnóstica en un 12,75 % y la calidad de las pruebas aportadas en un 24,36 %, con errores debidos sobre todo al cierre diagnóstico prematuro y a un interrogatorio ineficaz. La conclusión, sobria y útil: los rankings sobre exámenes médicos estáticos de opción múltiple probablemente sobreestiman lo que estos modelos pueden hacer en una consulta real. Límites: el simulador de paciente es a su vez algorítmico, la procedencia de los casos no se detalla en el resumen accesible (riesgo de contaminación) y las cifras se reportan en valores relativos sin comparador humano explícito.
GTBIS: un modelo de deep learning que lee la morfología de los carcinomas neuroendocrinos pulmonares combinados para predecir el pronóstico (Yang y Zhou 2026, npj Digital Medicine)
Análisis crítico del artículo de npj Digital Medicine del 30 de mayo de 2026 por Lin Yang, Ruyu Sheng, Zijian Yang, Shilong Liu y Meng Zhou (National Cancer Center / Cancer Hospital de la Academia China de Ciencias Médicas en Pekín, Wenzhou Medical University y Harbin Medical University Cancer Hospital): GTBIS, un modelo de deep learning interpretable que lee la morfología de las láminas de patología para distinguir el carcinoma de células pequeñas (SCLC) del carcinoma neuroendocrino de células grandes (LCNEC), y luego aplica esa lectura a los tumores combinados cSCLC-LCNEC para estratificar su pronóstico. En cohortes multicéntricas que totalizan 670 pacientes, el modelo separa los tumores combinados tratados con quimiorradioterapia en un subgrupo SCLC-like de pronóstico favorable (supervivencia global a cinco años del 100 % frente al 39,5 %, supervivencia libre de enfermedad del 87,5 % frente al 36,0 %) y un subgrupo LCNEC-like de mal pronóstico, manteniéndose la clasificación como factor pronóstico independiente en el análisis multivariable. Pero la muestra es modesta, todos los centros son chinos, la validación es retrospectiva sin comparador humano explícito, y la licencia CC BY-NC-ND cierra la adaptación.
Pathog-PDx: un sistema de aprendizaje automático para identificar 22 patógenos respiratorios pediátricos a partir del registro electrónico (Su 2026, npj Digital Medicine)
Análisis crítico del artículo de npj Digital Medicine del 29 de mayo de 2026 por Dubin Su, Qun Chen, Ruizhi Xu y colegas (First Affiliated Hospital of Xiamen University, Zhengzhou University, Nanjing University, Shenzhen Second People's Hospital y UIUC): Pathog-PDx, un sistema diagnóstico que combina 42 variables clínicas y de laboratorio del registro electrónico para distinguir 22 subtipos de patógenos responsables de infecciones respiratorias en niños hospitalizados. Cohorte de desarrollo de 134.500 niños en tres centros y dos bases de datos, validación prospectiva independiente en 1.338 niños, AUC promedio 0,88 sobre los 22 patógenos y 0,95 para el virus de la gripe, despliegue público de una herramienta de apoyo a la decisión en línea. Pero todos los centros de desarrollo son chinos, falta el comparador clínico humano, la licencia CC BY-NC-ND cierra la adaptación académica, y la propia naturaleza del gold standard para 22 clases merece una discusión aparte.
EpiVLM: un modelo visión-lenguaje para detectar y clasificar crisis epilépticas en vídeo, del hospital al domicilio (He 2026, npj Digital Medicine)
Análisis crítico del artículo publicado en npj Digital Medicine el 26 de mayo de 2026 por Mengqiao He, Leihao Sha, Pengfei Wei, Lei Chen y colegas (West China Hospital, Universidad de Sichuan y Shenzhen Institutes of Advanced Technology, CAS): EpiVLM, un modelo visión-lenguaje (VLM) que combina prompts estructurados clínicamente con razonamiento sobre vídeo para reconocer cinco semiologías de crisis en 232 grabaciones vídeo de 127 pacientes (11 666 segmentos anotados) procedentes de dos centros terciarios, grabaciones domiciliarias no controladas y un dataset público independiente. Exactitud 0,795–0,947, sensibilidad 0,842–0,957, falsos positivos por vídeo 0,47–2,45 %, retardo medio entre inicio de crisis y detección por debajo de 6 segundos, con prompts y umbrales fijados a priori sin recalibración por sitio. Pero todos los centros terciarios son chinos, la cohorte domiciliaria apenas se describe en el resumen, no hay comparación frontal con anotadores humanos, y un coautor está afiliado a una empresa privada (Brain Everest LLC) sin declaración de conflicto.
Un pipeline de neuroimagen automatizado para el pronóstico cognitivo personalizado post-ictus (Brzus 2026, npj Digital Medicine)
Análisis crítico del artículo del 27 de mayo de 2026 en npj Digital Medicine por Michal Brzus, Joseph Griffis, Aaron D. Boes y colegas (Universidad de Iowa): un pipeline DICOM a PDF totalmente automatizado que segmenta lesiones isquémicas con una 3D Residual U-Net, predice 28 desenlaces neuropsicológicos mediante lesion network mapping, y redacta un informe personalizado vía LLaMA 3.3 70B air-gapped en menos de tres minutos. Entrenamiento sobre 604 pacientes del Iowa Lesion Registry, test independiente sobre 153 pacientes con ictus isquémico imagenados con 17 modelos de escáner. AUC de 0,74 a 0,90 en cinco dominios cognitivos detallados, 96 % de concordancia entre predicciones obtenidas a partir de segmentaciones automáticas y manuales. Pero entrenamiento y test del mismo centro, ningún comparador clínico (NIHSS, mRS, demografía sola), revisión clínica de los informes por el propio autor sénior, y cuatro de los siete autores son titulares de la patente asociada y cofundan NeuroPred Inc.
SHAP y SVM para predecir la trombosis venosa profunda tras cirugía por cáncer de endometrio (estudio Zhou 2026, npj Digital Medicine)
Análisis crítico del artículo de Qing Zhou y colegas publicado el 27 de mayo de 2026 en npj Digital Medicine: un modelo SVM de cuatro variables (dímero D postoperatorio, edad, fibrinógeno, estadio FIGO) predice la trombosis venosa profunda tras cirugía por cáncer de endometrio, con AUC 0,828 en validación interna y 0,819 en cohorte externa sobre 841 + 95 pacientes chinas. SHAP hace que las contribuciones sean interpretables. Pero las imágenes se realizan por síntomas (sesgo de detección), cohorte 100 % china, sin comparación frontal con los scores Caprini/Wells, y dímero D medido tras la cirugía — se trata más de una ayuda a la detección precoz que de una predicción estricta.
UNet-MoE-Cli: un mixture-of-experts para personalizar el neoadyuvante del cáncer de recto (Liu 2026, npj Digital Medicine)
Análisis crítico del artículo de npj Digital Medicine del 26 de mayo de 2026 de Xiangyu Liu y colegas: UNet-MoE-Cli, un modelo de deep learning mixture-of-experts sobre IRM multiparamétrica y variables clínicas, estima probabilidades de respuesta patológica completa por régimen en el neoadyuvante del cáncer de recto localmente avanzado. AUC 0,827 en validación interna, 0,790 en cohorte prospectiva (ChiCTR2400085797), pero sensibilidad solo de 0,45–0,53, experto nCT mono-céntrico, cohorte 100 % china, y beneficio de la escalada calculado por el propio modelo.
Cuando el texto se come la imagen: lo que el estudio Restrepo 2026 revela sobre la fragilidad contextual de los VLMs clínicos en MIMIC-CXR
Análisis crítico del preprint arXiv 2605.17436 del 17 de mayo de 2026 de David Restrepo (CentraleSupélec-Université Paris-Saclay) y colegas: ocho modelos vision-language evaluados sobre 1 000 radiografías torácicas de MIMIC-CXR pierden hasta el 66 % de sus decisiones correctas cuando se sustituye el texto clínico por el de un paciente de clase opuesta. Imagen sola se queda en 0,50–0,68, texto solo iguala al multimodal. Incluso MedGemma, adaptado a lo médico, se derrumba. Estos VLMs son clasificadores de informes disfrazados de lectores de imágenes.
PromptRad: etiquetar informes de TC hepática con solo 32 ejemplos anotados, y empatar con GPT-4
Análisis crítico del preprint arXiv 2605.20052 de mayo de 2026 (BioNLP 2026 @ ACL) de Ying-Jia Lin y colegas (Chang Gung University, Taiwán): un PubMedBERT de 110 millones de parámetros, ajustado por prompt-tuning con un verbalizador enriquecido por UMLS, alcanza el 89,2 % de F1 macro en siete categorías de lesiones hepáticas en TC, partiendo de solo 32 informes anotados, y con mejor manejo de negaciones que GPT-4.
10 000 casos sintéticos frente a cuatro LLM de frontera: lo que el estudio Auger 2026 revela sobre los puntos ciegos clínicos de Gemini 3 y GPT-5 en esclerosis múltiple
Análisis crítico del preprint medRxiv de abril de 2026 de Stephen D. Auger (Imperial College London): hasta 10 000 casos sintéticos de esclerosis múltiple con verdad-terreno, cuatro modelos de frontera (Gemini 3 Pro/Flash, GPT-5.2/5-mini) evaluados sobre diagnóstico, localización, exploraciones y manejo. La precisión diagnóstica no predice la seguridad terapéutica: Gemini infrautiliza los corticoides apropiados, GPT-5 recomienda trombolisis intravenosa en casi uno de cada diez casos.
GPT-4 en radiología: por qué el formato de explicación de un LLM cambia la precisión diagnóstica de los médicos
Análisis del artículo de Spitzer et al. en npj Digital Medicine 2026: ensayo aleatorizado con 101 radiólogos que compara tres formatos de explicación de GPT-4. La cadena de pensamiento aporta 12,2 puntos de precisión, el diagnóstico diferencial induce sesgo de automatización. Implicaciones para el despliegue clínico de LLMs.
GigaPath en patología digital: lo que cambia un foundation model entrenado en 1.300 millones de teselas
Análisis crítico del artículo de Nature 2024 sobre Prov-GigaPath, foundation model transformer para patología digital. Arquitectura, datos, rendimiento en 26 benchmarks de cáncer, y lo que realmente cambia para el diagnóstico.