Una investigación científica que acaba de ser publicada recuerda que la transparencia en el código es esencial para combatir los peligros de la información engañosa. Y, aunque ChatGPT haya llegado al mundo sorprendiendo por sus impresionantes capacidades de comprender el lenguaje natural, llevar a cabo muchísimas funciones y respondernos a muchas dudas, no hay por qué depender al 100% de una sola herramienta que, a su vez, depende de unas pocas empresas.
Aunque ya hemos visto que hay vida más allá de ChatGPT y que contamos con alternativas (aunque muchas de ellas se basan en las capacidades de esta inteligencia artificial para darnos los resultados), además de las que están llegando con otros gigantes tech como Google, hay muchos expertos y expertas que plantean la necesidad de contar con una herramienta de este estilo pero que sea abierta.
Dice un informe realizado por diversas investigadoras para Nature que ChatGPT muestra como unos de los problemas más inmediatos para la comunidad investigadora la falta de transparencia. Los conjuntos de entrenamiento subyacentes y los LLM (grandes modelos lingüísticos) de ChatGPT y sus predecesores no están a disposición del público, y las empresas tecnológicas pueden ocultar el funcionamiento interno de sus IA conversacionales. Esto hace que la respuesta que da a problemas científicos no tenga por qué ser del todo cierta y se necesitan alternativas de código abierto, más transparentes.
Confianza, o no, en los resultados
El estudio alerta de que las IA conversacionales cambian las reglas del juego de la ciencia. Y de la necesidad de darle respuesta a esto. Recuerda el grupo de investigadores que ChatGPT es uno de los primeros modelos capaces de conversar de forma convincente en varios idiomas sobre una amplia gama de temas. Es gratuito, fácil de usar y sigue mejorando y evolucionando en sus capacidades.
"Actualmente, casi todas las tecnologías de IA conversacional de vanguardia son productos patentados de un pequeño número de grandes empresas tecnológicas", escribe la autora principal, Eva A. M. van Dis, investigadora postdoctoral y psicóloga del UMC de Ámsterdam. Ella y los colabores de este estudio ven que "uno de los problemas más inmediatos para la comunidad investigadora es la falta de transparencia" en cómo se ha recopilado la información para las respuestas.
"Para contrarrestar esta opacidad, debería priorizarse ya el desarrollo de la IA de código abierto", afirman. En Genbeta ya creamos un artículo periodístico y analizamos los resultados. Y tratamos esto. Vimos cómo hay un enorme riesgo a una estandarización de contenidos y a una pérdida de diversidad de puntos de vista y de creatividad, experiencias personales o conocidas y originalidad. Los y las periodistas, cuando informamos, estamos obligadas a ir mencionando las fuentes, vamos indicando de dónde ha salido la información y la contrastamos, además de añadir nuestro conocimiento y experiencia en los temas.
OpenAI, la startup de San Francisco, de la que Elon Musk es socio fundador, que desarrolló ChatGPT y que está financiada por Microsoft, no ha publicado el código fuente de ChatGPT. Los grandes modelos lingüísticos que precedieron a esta reconocida tecnología, en particular el GPT-3 de OpenAI, presentado en 2020, tampoco tienen código fuente público.
Los investigadores preguntaron a la IA: '¿cuántos pacientes con depresión experimentan recaídas después del tratamiento?' y cuentan que ChatGPT "generó un texto demasiado general argumentando que los efectos del tratamiento suelen ser duraderos. Sin embargo, numerosos estudios de alta calidad muestran que los efectos del tratamiento disminuyen y que el riesgo de recaída oscila entre el 29% y el 51% en el primer año tras la finalización del tratamiento".
Los autores no abogan por prescindir de los grandes modelos lingüísticos. Más bien sugieren que "hay que centrarse en aprovechar la oportunidad y gestionar los riesgos". Y ven esencial "adoptar políticas explícitas que exijan transparencia sobre el uso de la IA conversacional en la preparación de todos los materiales que puedan llegar a formar parte de la documentación publicada".
Ya se trabaja en alternativas de código abierto
Las ideas que plantea este nuevo estudio no son nuevas. Y, de hecho, en España ya hay personas aportando a una alternativa a ChatGPT que sea open source. Tenemos el ejemplo de Open Assistant (al que merece la pena no perder de vista). Oficialmente hay más "árboles" -conversaciones completas para entrenar al asistente- en español que en inglés, como ha publicado Carlos Santana, conocido divulgador de inteligencia artificial.
El impacto que hemos tenido en Open Assistant los Españoles es tal, que a la gráfica ya la titulan:
— Carlos Santana (@DotCSV) February 13, 2023
👉 AI Reconquista
Oficialmente hay más "árboles" -conversaciones completas para entrenar al asistente- en Español que en Inglés. Sois impresionantes :) pic.twitter.com/wEv3Hz08Rj
La iniciativa de Open Assistant está coordinada por el grupo LAION y busca crear una chatbot conversacional como Bing Chat o ChatGPT que sea de libre acceso, entrenado por y para la comunidad. Para presentarse, dicen: "de la misma forma que Stable Diffusion ayudó al mundo a crear arte e imágenes de nuevas maneras, queremos mejorar el mundo proporcionando una IA conversacional asombrosa".
Puedes encontrarlos en Discord y GitHub. Recuerdan que "el código abierto es la creencia de que si colaboramos juntos, podemos regalar nuestro conocimiento y tecnología al mundo en beneficio de la humanidad".
Por el momento, está en las primeras etapas de desarrollo, trabajando a partir de la investigación establecida para aplicar RLHF (aprendizaje por refuerzo con realimentación humana) a modelos de lenguaje de gran tamaño. El código y los modelos están licenciados bajo la licencia Apache 2.0. Será gratuito de usar.