BreastGPT: un solo modelo multimodal para todo el recorrido del cáncer de mama — cuánto vale realmente un 90 % en un benchmark casero (Liu et al. 2026, arXiv)
Yang Liu, Jiajin Zhang, Danyang Tu, Yingda Xia y colaboradores (DAMO Academy de Alibaba, Universidad de Zhejiang, Hupan Lab, y los hospitales West China y China Medical University) depositan el 3 de junio de 2026 en arXiv BreastGPT, un modelo de lenguaje multimodal de 8.000 millones de parámetros presentado como capaz de cubrir todo el recorrido clínico del cáncer de mama —cribado, diagnóstico, planificación del tratamiento— en cinco modalidades de imagen (mamografía, ecografía, RM, TC, láminas de patología) más el texto clínico. Entrenado con 1,86 millones de pares pregunta-respuesta fabricados en gran parte por los propios grandes modelos de Alibaba, alcanza un 75,66 % de exactitud en las preguntas de opción múltiple y un 89,92 % en las abiertas de su propio benchmark BreastStage-Bench, muy por delante de modelos generalistas interrogados en frío. Es una demostración de ingeniería seria, pero la mayor parte de la brecha viene de entrenar sobre la distribución exacta del test: el único comparador justo solo gana unos pocos puntos, nada se evaluó en pacientes reales ni se comparó con clínicos, y la «verdad de referencia» está en gran medida generada por los modelos de la casa.
El contexto
Atender un cáncer de mama es un recorrido por etapas. En el cribado, se leen sobre todo mamografías (y, cada vez más, se detectan lesiones mamarias de forma oportunista en TC torácicas hechas por otro motivo). En el diagnóstico, se encadenan ecografía, RM y, para confirmar, el examen al microscopio de una biopsia —la patología. En la planificación del tratamiento, se integran el subtipo, la extensión y la respuesta esperada. Cada paso moviliza una modalidad de imagen distinta y un razonamiento distinto.
La IA ha abordado hasta ahora estas etapas de una en una: un modelo para la mamografía, otro para la ecografía, otro para la lámina. Los autores parten de una constatación: no existe ni un conjunto de datos ni un modelo único que atraviese todo el recorrido. Su propuesta es un modelo de lenguaje multimodal (un MLLM: un modelo de lenguaje capaz de «ver» imágenes además de leer y escribir texto) interrogado como VQA (visual question answering: se le muestra una imagen y se le hace una pregunta, de opción múltiple o abierta). Un solo sistema, llamado a responder en cinco modalidades y tres etapas. La ambición es clara; lo que vale, una vez medido, es la cuestión.
El método
El artículo es un preprint de arXiv (2606.04911, depositado el 3 de junio de 2026, bajo licencia CC BY-NC-SA, aún sin revisión por pares). BreastGPT se construye sobre Qwen3-VL, un modelo visión-lenguaje de Alibaba, en su versión de 8.000 millones de parámetros. El truco central es un codificador visual de dos ramas con un encaminamiento según la modalidad: una rama «estándar» (el codificador de imágenes nativo de Qwen3-VL) trata la TC, la RM, la ecografía y la mamografía; una rama «gigapíxel» trata las láminas de patología, que son imágenes de varios miles de millones de píxeles. Esta segunda rama divide la lámina en teselas a gran aumento, codifica cada tesela con CONCH (un codificador preentrenado en imágenes de patología) y luego lo agrega todo con LongNet, una arquitectura de atención «dilatada» concebida para secuencias muy largas.
Para no ahogar al modelo de lenguaje bajo decenas de miles de teselas, los autores adaptan una técnica de compresión de tokens «que preserva los conceptos»: en lugar de transmitirlo todo, selecciona 128 tokens visuales que maximizan la cobertura de la información útil. El método no requiere entrenamiento adicional. El encaminamiento entre tareas no pasa por cabezales especializados sino por instrucciones de sistema que indican al modelo la etapa y la tarea. El entrenamiento movilizó 32 tarjetas gráficas H100 durante poco más de tres días.
En cuanto a los datos, el corpus «BreastStage» reúne unas 662.000 imágenes, 136 plantillas de tareas y 1,86 millones de pares de instrucciones, a partir de 17 subconjuntos que cubren cinco modalidades (reparto: 57,9 % cribado, 36,7 % diagnóstico, 5,4 % tratamiento). Las fuentes de imágenes son sobre todo públicas —CT-RATE para la TC (20.546 volúmenes femeninos), BUS-CoT para la ecografía (11.439 imágenes), un subconjunto de EMBED para la mamografía, y BCNB, TCGA-BRCA y TCGA-HISTAI para la patología (2.510 láminas)— con una sola cohorte de RM privada, de dos hospitales, anotada por diez especialistas en mama, cuyos informes en chino se tradujeron automáticamente. Punto crucial: gran parte del texto (preguntas abiertas, leyendas, informes simulados) no la escriben humanos sino que está generada por los propios modelos de Alibaba (Qwen2.5-VL-72B para las decisiones ligadas a la imagen, Qwen3-Max para las transformaciones de texto).
Los resultados
En su propio benchmark BreastStage-Bench (12.182 casos de test, separados a nivel de paciente), BreastGPT alcanza un 75,66 % de exactitud en las preguntas de opción múltiple y un 89,92 % en las abiertas. Los modelos generalistas interrogados sin entrenamiento específico quedan muy por detrás: GPT-5.4 en 54,0 / 53,6, los modelos médicos dedicados como Lingshu en 50,4. Es este contraste el que destaca el resumen.
Pero la cifra que de verdad importa está en otra parte, y los autores tienen la honestidad de proporcionarla: un Qwen3-VL de 8.000 millones de parámetros, idéntico pero simplemente afinado sobre los mismos datos, ya alcanza un 68,21 % / 88,24 %. El aporte propio de la arquitectura de dos ramas y de la compresión de tokens se reduce así a unos 7 puntos en opción múltiple y menos de 2 puntos en preguntas abiertas. La mayor parte de la ganancia no es la arquitectura: es haber entrenado el modelo sobre la distribución exacta del test. El beneficio arquitectónico es real sobre todo en patología, donde la rama gigapíxel hace pasar la exactitud del 60,4 al 71,4 %.
Traducción clínica. Aquí hay que ser directo: estos porcentajes no se traducen en nada clínico. Una exactitud del 75 % en un cuestionario de opción múltiple no es ni una sensibilidad ni una especificidad de cribado; no dice cuántos cánceres se pasarían por alto ni cuántas falsas alarmas se generarían en pacientes reales. No se midió ningún rendimiento sobre un criterio clínico, no se hizo ninguna comparación con un radiólogo o un patólogo, y la evaluación transcurre enteramente sobre datos del mismo origen que el entrenamiento. Dicho de otro modo, BreastGPT responde bien a preguntas construidas como las que ha visto —alentador para un prototipo, pero no nos enseña casi nada sobre lo que haría ante un caso real.
Lo que está bien
Una verdadera ingeniería para el gigapíxel, y una ganancia medible donde cuenta. Hacer convivir en un mismo modelo imágenes de radiología «normales» y láminas de patología de varios miles de millones de píxeles es un problema técnico difícil. La combinación CONCH + LongNet + compresión a 128 tokens es una respuesta cuidada, y es en la patología donde el aporte arquitectónico es más nítido (60,4 → 71,4 % en opción múltiple). La idea de un asistente único que sigue el recorrido en lugar de herramientas en silos es, en principio, la buena dirección.
Escala y, sobre todo, un comparador ablativo honesto. El corpus es masivo y está documentado (662.000 imágenes, 17 subconjuntos, cinco modalidades). Y los autores no se conforman con batir a modelos generalistas: informan del rendimiento de un Qwen3-VL simplemente afinado sobre sus datos. Es precisamente este comparador el que permite al lector ver que la ganancia arquitectónica real es modesta —aportar esta cifra hay que reconocérselo, muchos equipos la omitirían.
Transparencia sobre el estatus y los límites. El artículo dice explícitamente que BreastGPT es un «prototipo de investigación», no validado clínicamente, no revisado por una autoridad regulatoria, y que no debe tomarse por un sistema diagnóstico autónomo. Reconoce que los datos no son longitudinales (rara vez el mismo paciente seguido de principio a fin), recomienda una validación específica por centro, y anuncia la puesta a disposición del código y del benchmark bajo licencia no comercial.
Lo que está menos bien
Un comparador sesgado y una métrica engañosa en la presentación. Comparar un modelo entrenado sobre la distribución del test con modelos generalistas interrogados en frío (GPT-5.4 «en solo el 49,3 %») es una comparación desequilibrada: un duelo entre un candidato que ha visto los exámenes anteriores y candidatos que descubren la prueba. El comparador sesgado infla la brecha anunciada («más del 25 / 35 / 40 %» según la etapa), mientras que el único comparador justo, su propio modelo afinado, devuelve la ganancia real a unos pocos puntos. Comunicar sobre la gran brecha en lugar de la pequeña es una métrica engañosa.
Una evaluación circular, con riesgo de fuga de datos y de atajo. El benchmark se construye a partir de los mismos 17 conjuntos de datos que el entrenamiento, por el mismo equipo, con el mismo pipeline de generación. La separación es a nivel de paciente, pero una misma imagen puede reaparecer en tareas diferentes, y las plantillas de frases de los informes se repiten: terreno propicio para la fuga de datos (data leakage) y el shortcut learning, donde el modelo aprende el estilo de las preguntas en vez de la medicina. Peor aún, la «verdad de referencia» de las preguntas abiertas está generada por los propios modelos de Alibaba, y luego calificada por un evaluador también basado en un modelo de lenguaje: el corrector y el candidato comparten la misma familia, lo que recompensa mecánicamente las respuestas de estilo «Qwen». Los subconjuntos más sensibles son minúsculos (113 preguntas abiertas y 70 leyendas en patología), lo que hace frágiles las afirmaciones sobre la etapa de «tratamiento».
Sin paciente, sin clínico, y con puntos ciegos de población y de gobernanza. La evaluación es enteramente sobre benchmark: ningún resultado en pacientes reales, ningún criterio clínico, ninguna comparación directa con un radiólogo o un patólogo —los tres especialistas en mama implicados solo auditaron la calidad de los datos, nunca se enfrentaron al modelo. Las cohortes son mayoritariamente chinas y de centros específicos (la RM, privada, viene de dos hospitales), lo que deja intacto el riesgo de sesgo de población y de desplome con otros escáneres u otros países. Por último, ni la financiación ni los conflictos de interés se declaran, aunque el modelo de base, los modelos generadores de datos y el corrector sean todos productos del mismo grupo industrial —una dependencia que merecería explicitarse.
Lo que cambia
Para la comunidad investigadora, BreastGPT es de doble filo. Por un lado, es un plano reutilizable para asistentes multimodales que siguen un recorrido clínico, y el ladrillo gigapíxel (CONCH + LongNet + compresión de tokens) es transponible a otros cánceres. Por otro, es un caso de manual de los límites del «benchmark casero»: cuando el equipo que entrena el modelo fabrica también el conjunto de test, la verdad de referencia y el corrector, las puntuaciones espectaculares pierden su valor probatorio. La necesidad de benchmarks externos, independientes y anotados por humanos nunca ha sido tan clara.
Para los clínicos, la herramienta no tiene alcance inmediato: prototipo no validado, sin comparación con la lectura experta, sin test prospectivo, sin estatus regulatorio. La idea de un asistente único que acompañe el cribado, el diagnóstico y la decisión es atractiva a medio plazo, pero supone franquear todo lo que aquí falta —una evaluación en pacientes reales, contra médicos reales, en hospitales reales.
Para las pacientes y el público, el mensaje cabe en una frase: un 90 % en un benchmark no es una herramienta médica segura. Los modelos de lenguaje multimodales pueden producir respuestas fluidas y plausibles aun equivocándose o alucinando detalles —un riesgo tanto más serio cuanto que la «verdad de referencia» de este trabajo fue escrita por modelos. Una respuesta bien formulada no es una respuesta correcta, y un prototipo impresionante no es un dispositivo validado.
Para saber más
El preprint está en acceso abierto en arXiv: arxiv.org/abs/2606.04911 (DOI 10.48550/arXiv.2606.04911); los autores anuncian la publicación del código, de los pesos (8.000 millones de parámetros) y del benchmark BreastStage en ModelScope. Sobre otro modelo reciente dedicado al cáncer de mama —la predicción de respuesta a la quimioterapia a partir de una biopsia— véase nuestro análisis de MCEN. Sobre los modelos de fundación en patología digital y el análisis de láminas gigapíxel, véase nuestro análisis de GigaPath. Y sobre la trampa de los modelos «multimodales» que en realidad se apoyan sobre todo en el texto, véase nuestro análisis del VLM clínico donde el texto domina la imagen.