Un modelo de última generación de lenguaje a gran escala (LLM) superó en muchos ámbitos a los médicos en tareas de razonamiento clínico como la toma de decisiones en urgencias, la identificación de posibles diagnósticos y la elección de los pasos en el tratamiento.
Así lo indica un estudio que publica Science, aunque sus autores advierten que esos resultados no significan que los sistemas de inteligencia artificial (IA) estén preparados para ejercer la medicina por sí mismos, ni que los médicos puedan ser excluidos del proceso de diagnóstico.
La investigación, encabezada por Facultad de Medicina de Harvard (EE.UU) y que uso con el modelo de lenguaje datos reales de servicios de urgencias, evaluó si la IA podía, cómo hacen los médicos, revisar una historia clínica desordenada y usar esa información para determinar el diagnóstico y los pasos a seguir.
En general, los resultados muestran que los LLM “ofrecen actualmente un rendimiento notable en el diagnóstico diferencial, el razonamiento clínico diagnóstico y el razonamiento sobre el tratamiento, y superan tanto a las generaciones anteriores de modelos como a los propios médicos en múltiples ámbitos”, indica el estudio.
Estas mismas mejoras en el rendimiento se observan “a la hora de ofrecer segundas opiniones en casos médicos reales y no estructurados en el servicio de urgencias, donde los médicos deben actuar con rapidez con información limitada y, a menudo, incompleta”.
Los autores señalan, entre las limitaciones del estudio, que su enfoque se limitaba al razonamiento basado en texto, mientras que la práctica clínica depende en gran medida de señales visuales y auditivas, ámbitos en los que la IA actual sigue teniendo menos capacidad.
El estudio, encabezado por Peter Brodeur, de Harvard, evaluó las capacidades de diagnóstico y planificación del tratamiento de un modelo avanzado de lenguaje a gran escala —la serie o1 de OpenAI— comparando su rendimiento con el de cientos de médicos y sistemas de IA anteriores en una amplia gama de tareas de razonamiento clínico.
Entre ellas se incluían tanto casos clínicos estandarizados como un estudio en el mundo real con pacientes de urgencias seleccionados al azar.
Con información de EFE / Foto: Ilustrativa de Pexels