En un reciente estudio clínico realizado por expertos de varios centros de investigación estadounidenses, se exploró el impacto de los 'grandes modelos de lenguaje' (o LLMs), como ChatGPT-4, en el proceso de diagnóstico médico.
Y los resultados han sido reveladores: los médicos que hicieron uso de la plataforma de OpenAI junto a sus recursos convencionales obtuvieron resultados sólo ligeramente mejores que los médicos que no tuvieron ningún acceso al bot...
...pero, para sorpresa de los investigadores, ChatGPT actuando de forma autónoma superó a ambos grupos de médicos.
¿Chatbots vs. médicos?
El estudio, que implicó a 50 médicos de diversas especialidades (medicina interna, medicina familiar y emergencias), asignó a los participantes a dos grupos: uno que utilizó un chatbot junto con herramientas tradicionales de apoyo al diagnóstico, y otro que usó únicamente recursos convencionales como bases de datos clínicas. Además, se evaluó el rendimiento del chatbot actuando de forma autónoma.
Así, el chatbot, utilizado en solitario, logró una puntuación media del 92% en un indicador que medía la precisión y calidad del razonamiento diagnóstico, superando tanto a los médicos con acceso a la herramienta (76%) como a aquellos sin ella (74%).
El sesgo humano y la subutilización de la IA
Una de las sorpresas más notables fue la resistencia de los médicos a aceptar diagnósticos alternativos sugeridos por el chatbot, incluso cuando estos eran más precisos. Según explicó el Dr. Adam Rodman, coautor del estudio y experto en medicina interna.
"No escuchaban a la inteligencia artificial cuando les decía cosas que contradecían sus propias ideas".
Este hallazgo refleja un fenómeno bien documentado: el exceso de confianza de los médicos en sus propios juicios.
Otro aspecto crítico fue la forma en que los médicos interactuaron con el chatbot. Muchos lo trataron como un motor de búsqueda convencional, haciendo preguntas específicas en lugar de aprovechar su capacidad para analizar casos completos y ofrecer un razonamiento estructurado. Solo una minoría utilizó la herramienta para procesar toda la información clínica de forma integral.
El potencial desaprovechado de los modelos de IA
Los LLM han demostrado una capacidad sobresaliente para resolver problemas clínicos complejos, gracias a su entrenamiento en grandes volúmenes de datos y su habilidad para interpretar el lenguaje natural. En el estudio, el chatbot no sólo generó diagnósticos precisos, sino que también explicó detalladamente las razones que sustentaban sus conclusiones.
Esto sugiere que estas herramientas podrían convertirse en 'asistentes médicos' capaces de aportar segundas opiniones valiosas a la hora de complementar el criterio humano.
Sin embargo, para realizar este potencial, es fundamental capacitar a los profesionales en el uso efectivo de estas herramientas... y es que, entre las limitaciones del estudio, destaca el hecho de que los médicos participantes no recibieron capacitación específica en el uso del chatbot, lo que refleja su nivel de uso real por los profesionales médicos, pero también subestima el potencial real de la IA.
Precedentes en el uso de la IA en medicina
El uso de ordenadores para asistir en diagnósticos no es nuevo. Desde los años 70, los investigadores han desarrollado sistemas como INTERNIST-1, que intentaban replicar el razonamiento humano a través de códigos lógicos. Aunque estas iniciativas resultaron prometedoras, su adopción fue limitada debido a su gran complejidad y a la falta de confianza de los médicos.
Con la llegada de los LLM, el enfoque ha cambiado: estos sistemas no imitan directamente el razonamiento humano, sino que generan diagnósticos al predecir patrones lingüísticos con base en datos previos. Su interfaz conversacional, fácil de usar, ha transformado la manera en que los médicos pueden interactuar con su ordenador.
Imagen | Marcos Merino mediante IA
En Genbeta | Han retado a ChatGPT a hacer exámenes muy difíciles de medicina y abogacía. La IA aprueba en segundos
Ver 0 comentarios