ChatGPT-4 ha vencido a los médicos a la hora de diagnosticar enfermedades, según un estudio científico

Los médicos se resisten a hacer caso a los diagnósticos de la IA, por correctos que sean y/o bien argumentados que estén. A no ser que les den la razón

18 noviembre 2024, 21:55

Marcos Merino

En un reciente estudio clínico realizado por expertos de varios centros de investigación estadounidenses, se exploró el impacto de los 'grandes modelos de lenguaje' (o LLMs), como ChatGPT-4, en el proceso de diagnóstico médico.

Y los resultados han sido reveladores: los médicos que hicieron uso de la plataforma de OpenAI junto a sus recursos convencionales obtuvieron resultados sólo ligeramente mejores que los médicos que no tuvieron ningún acceso al bot...

...pero, para sorpresa de los investigadores, ChatGPT actuando de forma autónoma superó a ambos grupos de médicos.

Un vistazo a…

CHAT GPT-4 en 4 MINUTOS

¿Chatbots vs. médicos?

El estudio, que implicó a 50 médicos de diversas especialidades (medicina interna, medicina familiar y emergencias), asignó a los participantes a dos grupos: uno que utilizó un chatbot junto con herramientas tradicionales de apoyo al diagnóstico, y otro que usó únicamente recursos convencionales como bases de datos clínicas. Además, se evaluó el rendimiento del chatbot actuando de forma autónoma.

Así, el chatbot, utilizado en solitario, logró una puntuación media del 92% en un indicador que medía la precisión y calidad del razonamiento diagnóstico, superando tanto a los médicos con acceso a la herramienta (76%) como a aquellos sin ella (74%).

El sesgo humano y la subutilización de la IA

Una de las sorpresas más notables fue la resistencia de los médicos a aceptar diagnósticos alternativos sugeridos por el chatbot, incluso cuando estos eran más precisos. Según explicó el Dr. Adam Rodman, coautor del estudio y experto en medicina interna.

"No escuchaban a la inteligencia artificial cuando les decía cosas que contradecían sus propias ideas".

En Genbeta

"GPT-4 salvó la vida de mi perro": su dueño cuenta como la inteligencia artificial pudo diagnosticar lo que el veterinario no vio

Este hallazgo refleja un fenómeno bien documentado: el exceso de confianza de los médicos en sus propios juicios.

Otro aspecto crítico fue la forma en que los médicos interactuaron con el chatbot. Muchos lo trataron como un motor de búsqueda convencional, haciendo preguntas específicas en lugar de aprovechar su capacidad para analizar casos completos y ofrecer un razonamiento estructurado. Solo una minoría utilizó la herramienta para procesar toda la información clínica de forma integral.

El potencial desaprovechado de los modelos de IA

Los LLM han demostrado una capacidad sobresaliente para resolver problemas clínicos complejos, gracias a su entrenamiento en grandes volúmenes de datos y su habilidad para interpretar el lenguaje natural. En el estudio, el chatbot no sólo generó diagnósticos precisos, sino que también explicó detalladamente las razones que sustentaban sus conclusiones.

Esto sugiere que estas herramientas podrían convertirse en 'asistentes médicos' capaces de aportar segundas opiniones valiosas a la hora de complementar el criterio humano.

Sin embargo, para realizar este potencial, es fundamental capacitar a los profesionales en el uso efectivo de estas herramientas... y es que, entre las limitaciones del estudio, destaca el hecho de que los médicos participantes no recibieron capacitación específica en el uso del chatbot, lo que refleja su nivel de uso real por los profesionales médicos, pero también subestima el potencial real de la IA.

Precedentes en el uso de la IA en medicina

El uso de ordenadores para asistir en diagnósticos no es nuevo. Desde los años 70, los investigadores han desarrollado sistemas como INTERNIST-1, que intentaban replicar el razonamiento humano a través de códigos lógicos. Aunque estas iniciativas resultaron prometedoras, su adopción fue limitada debido a su gran complejidad y a la falta de confianza de los médicos.

Con la llegada de los LLM, el enfoque ha cambiado: estos sistemas no imitan directamente el razonamiento humano, sino que generan diagnósticos al predecir patrones lingüísticos con base en datos previos. Su interfaz conversacional, fácil de usar, ha transformado la manera en que los médicos pueden interactuar con su ordenador.

Imagen | Marcos Merino mediante IA

En Genbeta | Han retado a ChatGPT a hacer exámenes muy difíciles de medicina y abogacía. La IA aprueba en segundos

Ver todos los comentarios en https://www.genbeta.com

VER 1 Comentario

Portada de Genbeta