PromptRad: etiquetar informes de TC hepática con solo 32 ejemplos anotados, y empatar con GPT-4
Ying-Jia Lin (Chang Gung University, Taiwán) y su equipo publicaron en arXiv el 19 de mayo de 2026 PromptRad, un artículo aceptado en el taller BioNLP 2026 de ACL que propone un método de etiquetado automático de informes de TC hepática con un presupuesto de anotación extremadamente reducido. El resultado cabe en una frase: con solo 32 informes anotados y un modelo de 110 millones de parámetros — menos del 1 % del tamaño de GPT-4 — su enfoque por prompt-tuning enriquecido con sinónimos UMLS alcanza el 89,2 % de F1 macro en siete categorías de lesiones hepáticas, iguala a GPT-4 en zero-shot y lo supera en el manejo de negaciones. Lectura importante porque cuestiona la idea de que el rendimiento en NLP clínico necesite escala del modelo, y porque ofrece un dispositivo desplegable localmente, sin enviar datos de paciente a un proveedor cloud.
El contexto
Los informes de radiología son uno de los yacimientos de datos clínicos más ricos que existen. Por cada examen de imagen realizado, un radiólogo redacta un texto libre que describe lo que ve, lo que sospecha, lo que descarta. Pero esa riqueza queda atrapada en la forma: texto no estructurado, jerga especializada, abreviaturas, formulaciones de duda, negaciones múltiples, contradicciones asumidas. Para aprovechar esos informes a gran escala — por ejemplo para identificar todas las imágenes de carcinoma hepatocelular en un PACS hospitalario, o para construir un conjunto de entrenamiento de un modelo de imagen —, primero hay que etiquetarlos, es decir, convertirlos en variables estructuradas (categorías binarias: tal diagnóstico presente / ausente).
Tres enfoques dominan. Los etiquetadores basados en reglas (CheXpert, NegBio, MetaMap) se apoyan en diccionarios de términos y reglas de negación. Son rápidos, transparentes, pero se desploman en cuanto la formulación se aleja de los patrones esperados. El fine-tuning de modelos preentrenados (BERT, PubMedBERT) exige, en cambio, miles de informes anotados por categoría — un coste de anotación fuera del alcance de un servicio hospitalario sin presupuesto de investigación dedicado. Los grandes modelos de lenguaje (GPT-4 y sucesores) resuelven parcialmente el problema por su capacidad de generalizar sin entrenamiento específico (zero-shot), pero imponen el envío de los informes del paciente a un proveedor externo — incompatible con la mayoría de los marcos regulatorios sobre datos sanitarios. Es en ese hueco donde se sitúa este artículo.
El método
El estudio está dirigido por Ying-Jia Lin y Hung-Yu Kao (National Tsing Hua University y Chang Gung University) con un equipo clínico de Chang Gung Memorial Hospital y Sijhih Cathay General Hospital (Taiwán). Preprint depositado en arXiv el 19 de mayo de 2026 (revisado el 20 de mayo), versión camera-ready aceptada en BioNLP 2026 en el marco de la conferencia ACL. DOI 10.48550/arXiv.2605.20052, código publicado bajo licencia abierta en GitHub. Financiación pública taiwanesa (NSTC), sin conflicto de interés declarado.
El dispositivo descansa sobre tres elementos. Primer elemento: un modelo base ligero, PubMedBERT, un BERT de 110 millones de parámetros preentrenado por Microsoft Research sobre todo el corpus PubMed. Es un modelo de codificación textual encoder-only — mucho más pequeño que los LLMs de consumo, pero entrenado específicamente sobre literatura biomédica, por tanto bien calibrado al vocabulario médico.
Segundo elemento: el prompt-tuning por modelado de lenguaje enmascarado. En lugar de añadir una capa de clasificación sobre PubMedBERT (método clásico del fine-tuning), PromptRad reformula la tarea de etiquetado como un problema de cloze test. El informe se inserta en una plantilla del tipo « r The radiology report is related to [MASK]. », donde [MASK] es la palabra a predecir. El modelo se entrena para predecir una palabra del vocabulario por cada categoría objetivo. Esta formulación tiene dos virtudes: preserva el entrenamiento inicial del modelo (sin capa aleatoria que inicializar) y aprovecha directamente la « cabeza de enmascaramiento » que PubMedBERT ha pasado su preentrenamiento perfeccionando.
Tercer elemento: el verbalizador multi-palabra enriquecido por UMLS. Un verbalizador, en prompt-tuning, es la función que asocia una clase a una o varias palabras del vocabulario. De forma ingenua, se tomaría simplemente el nombre de la clase (« hepatocellular carcinoma »). Los autores van más lejos: consultan SNOMED CT (a través del UMLS Metathesaurus, el gran tesauro médico de la National Library of Medicine estadounidense) para cada clase y añaden los sinónimos utilizados en la práctica clínica. El carcinoma hepatocelular se convierte en { « hcc », « hepatoma » }; la esteatosis en { « steatosis », « fatty liver » }; el post-tratamiento incluye los acrónimos RFA (radiofrequency ablation) y TACE (transarterial chemoembolization). En el momento de la decisión, el modelo agrega la probabilidad máxima entre todos los sinónimos de una categoría. Esa inyección de conocimiento médico es lo que distingue a PromptRad de un prompt-tuning genérico.
El conjunto de datos consta de 1 098 informes de TC hepática desidentificados, redactados en inglés, procedentes de un gran centro médico taiwanés en el periodo 2008–2017. División cronológica estricta: 773 informes de entrenamiento (2008–2014), 325 informes de prueba (2015–2017). Siete categorías de lesiones hepáticas anotadas por dos radiólogos senior, con la consigna explícita de marcar como positivas las menciones sospechosas para evitar falsos negativos. En configuración low-resource, solo se muestrean 32 informes del pool de entrenamiento de manera estratificada para preservar la distribución de clases; los resultados se promedian sobre cinco extracciones. Estudio aprobado por el comité ético del centro participante.
Comparadores: tres familias. Lado reglas: un etiquetador de diccionario, MetaMap y NegBio. Lado fine-tuning: PubMedBERT clásico, y dos variantes híbridas donde el fine-tuning está precedido por un preprocesamiento con MetaMap o NegBio. Lado gran modelo: GPT-4 zero-shot y GPT-4 con in-context learning usando tres ejemplos.
Los resultados
El resultado principal es un F1 macro del 89,2 % (± 1,0) para PromptRad+AutoT (la variante con generación automática de plantillas por T5), ligeramente por encima de GPT-4 zero-shot al 88,7 %, y muy por encima del fine-tuning PubMedBERT clásico al 58,6 % (± 10,0). La variante manual de PromptRad alcanza el 83,7 % (± 2,1). NegBio, el mejor de los etiquetadores basados en reglas, se queda en 76,6 %. La detección de la metástasis hepática pasa así del 27,5 % (NegBio) o 54,9 % (PubMedBERT) al 84,7 % (PromptRad+AutoT) — un margen considerable sobre una categoría minoritaria (101 casos de entrenamiento, 46 casos de prueba). Sobre el hemangioma, otra categoría rara, se pasa del 37,7 % (PubMedBERT) al 92,4 %.
Sobre el manejo de negaciones, el artículo reporta (Figura 4) que PromptRad+AutoT supera a GPT-4, NegBio y MetaMap en distinguir formulaciones negativas explícitas (« no liver cirrhosis », « R/O metastasis ») en las tres categorías HCC, Cirrosis y Metástasis. NegBio en particular se desploma sobre la cirrosis porque su lógica de análisis sintáctico exige oraciones completas, y los radiólogos suelen escribir en estilo telegráfico. El margen se construye allí donde la lectura del texto exige una comprensión semántica — exactamente el terreno de juego de un modelo de lenguaje.
Traducción clínica. Para fijar los órdenes de magnitud sobre 1 000 informes de TC hepática etiquetados automáticamente en rutina: un etiquetador PubMedBERT fine-tuneado con 32 ejemplos perdería unas 45 menciones de esteatosis sobre 100, frente a 3 para PromptRad+AutoT. Sobre la metástasis hepática, NegBio perdería unos 72 casos reales sobre 100, frente a 15 para PromptRad+AutoT — al precio de algunos falsos positivos adicionales en valor absoluto. Un informe negativo marcado por error como positivo tiene un coste de relectura humana, pero no un coste clínico directo. Para un servicio de radiología que busca constituir un registro de tumores hepáticos a partir de su PACS, el margen entre el 28 % y el 85 % de sensibilidad sobre la metástasis cambia la naturaleza del registro — de inutilizable a utilizable.
Lo bueno
Tres fortalezas específicas.
La eficiencia en datos es extrema y está cuantificada. 32 informes anotados frente a los miles exigidos por un fine-tuning BERT clásico: es la brecha que hace la método desplegable en un servicio hospitalario real, donde ningún radiólogo dispone del tiempo libre para anotar 5 000 casos. El artículo muestra además (sección 5.4) que el rendimiento sigue subiendo con más datos: con 128 ejemplos, PromptRad+AutoT supera el 90 % de F1 macro. La curva está trazada honestamente, sin cherry-picking de un umbral favorable.
La validación se hace sobre división cronológica, no aleatoria. Entrenamiento sobre 2008–2014, prueba sobre 2015–2017. Es una disciplina metodológica que elimina al menos una forma de data leakage — el escenario donde el mismo paciente o el mismo radiólogo aparecería a la vez en entrenamiento y prueba porque un sorteo aleatorio los separó. Sobre datos clínicos, es la buena práctica, aún demasiado a menudo ignorada en la literatura NLP médica.
El código está publicado bajo licencia permisiva, el modelo base es abierto. PubMedBERT está bajo licencia MIT, el código de PromptRad se publica bajo CC BY 4.0 en GitHub, y el método no depende de ningún servicio propietario en el momento de la inferencia (la API de OpenAI se usa solo para la comparación). Concretamente, un hospital puede desplegar el pipeline completo localmente, sin enviar un solo informe a un proveedor externo — algo raro en la ola actual de artículos que se limitan a hacer prompt a GPT-4 y publican.
Lo menos bueno
Tres limitaciones precisas.
Datos procedentes de un solo centro, sobre una sola modalidad, en una sola lengua. 1 098 informes de TC hepática de un hospital de Taiwán, redactados en inglés. Es el sesgo de población en su forma clásica: nada garantiza que el modelo sobreviva a un cambio de servicio (radiología pediátrica), de modalidad (RM), de especialidad (informes cardiológicos), o de lengua (español hospitalario, que mezcla castellano y anglicismos con sus propias abreviaturas). Los autores lo reconocen explícitamente en su sección de limitaciones. Para un hospital hispanohablante, habría que reentrenar desde cero, y la escasez de PubMedBERT en español bien calibrado es un obstáculo real.
El comparador GPT-4 se usa zero-shot sin optimización de prompt, lo que lo desfavorece. La literatura 2024–2026 ha demostrado abundantemente que un prompt cuidadosamente diseñado, con ejemplos bien escogidos y cadena de razonamiento explícita, puede hacer ganar 5 a 10 puntos a GPT-4 en tareas clínicas. La versión in-context learning probada aquí usa « tres ejemplos aleatorios » — elección que probablemente no es la mejor. El modo de fallo a señalar es el comparador sesgado: no se sabe si PromptRad supera a un GPT-4 mal explotado o a un GPT-4 en sus condiciones óptimas. Una comparación con GPT-4 fine-tuneado, o con un modelo open-weights de tamaño comparable (Llama-3-Med, BiomedCLIP), habría sido más instructiva.
La métrica de referencia es un F1 sobre siete categorías fijas, lo que no cubre el escenario clínico más exigente. En la práctica, un servicio de radiología necesita etiquetar potencialmente decenas de categorías — incluidas hallazgos raros que no aparecen ni una vez en 32 ejemplos de entrenamiento. El artículo no dice nada sobre la degradación de PromptRad frente a categorías de muy baja prevalencia (1 caso por 1 000, por ejemplo), ni sobre hallazgos incidentales fuera del vocabulario UMLS. Acecha la métrica engañosa clásica: un F1 macro del 89 % sobre siete categorías bien representadas puede ocultar un derrumbe sobre la octava. Falta una evaluación prospectiva sobre la cola de la distribución de hallazgos radiológicos para cualificar el método en producción.
Lo que cambia
Para la comunidad de investigación en NLP médico, el mensaje metodológico es importante. Desde 2023, muchos equipos han dejado de hacer fine-tuning de modelos compactos porque GPT-4 zero-shot parecía dispensarles del esfuerzo. Este artículo recuerda que un modelo base bien adaptado y un verbalizador enriquecido por terminología médica pueden igualar a GPT-4 sobre una tarea precisa, con 1 000 veces menos parámetros, por tanto a coste de inferencia despreciable y sin dependencia de una API externa. Es un argumento útil en el debate sobre la soberanía técnica de los hospitales. A la inversa, el artículo no pretende sustituir a GPT-4 en tareas abiertas, y no lo hace — la crítica honesta debe guardar esta frontera presente.
Para los clínicos y los servicios de imagen, la palanca operativa es concreta. Un servicio que desee indexar retrospectivamente su PACS — por ejemplo para constituir una cohorte de pacientes con carcinoma hepatocelular con fines de investigación o revisión de calidad — puede esperar hacerlo ahora con un esfuerzo de anotación de unas pocas horas-radiólogo, en lugar de meses-radiólogo. La pregunta práctica, sin embargo, es la integración: quién aloja el modelo, quién lo mantiene, quién audita sus falsos negativos. Ninguno de estos puntos lo resuelve el artículo, que se detiene en el benchmark.
Para los pacientes y el público, la enseñanza queda indirecta. Nadie consultará nunca PromptRad. Pero los pipelines descendientes — alimentando registros de cáncer, estudios epidemiológicos sobre lesiones hepáticas, conjuntos de datos para los futuros modelos de imagen — tendrán un efecto en cascada sobre la calidad del conocimiento médico producido. Una infraestructura de etiquetado que pasa del 60 % al 89 % de precisión media es una literatura científica que deriva menos, cohortes mejor constituidas, y a término recomendaciones clínicas más fiables. El beneficio no es visible, pero es real.
Para profundizar
El preprint arXiv 2605.20052 está en acceso abierto en arxiv.org; versión PDF directa aquí. El código y los scripts se publican en github.com/ila-lab/PromptRad. Para PubMedBERT, el artículo original de Gu et al. (2021) es accesible vía DOI 10.1145/3458754. Para las bases conceptuales del prompt-tuning, ver Liu et al., ACM Computing Surveys, 2023 (DOI 10.1145/3560815). Para el UMLS Metathesaurus, punto de entrada en la National Library of Medicine. Para una panorámica reciente de los modos de fallo específicos de los LLMs clínicos, ver nuestro decryptaje del estudio Auger 2026.