El pasado jueves te anunciábamos el desembarco del modelo de lenguaje Gemini Pro en el chatbot de Google, Bard (al menos, para los usuarios que accedíamos desde España, en otras zonas del mundo llevaba semanas en marcha). De modo que ahora es un buen momento para poder contraponer, por fin, su rendimiento al de GPT-4 (el modelo detrás de la versión de pago de ChatGPT).
Antes de empezar a comparar respuestas, hay que reconocer que el renovado Bard parte con ventaja en un aspecto importante... el del precio: es gratuito, mientras que estamos comparándolo con GPT-4, disponible por 20 €/mes.
Problemas de lógica (ganador: ChatGPT)
"¿Qué pesa más, medio kilo de plomo o un kilo de plumas?" y "Si en una carrera adelanto al octavo corredor, ¿en qué posición estoy?" han sido dos problemas de lógica aparentemente sencillos para la mayoría de los humanos...
...en los que ChatGPT ha proporcionado respuestas escuetas pero correctas, y Bard se ha extendido con prolijas explicaciones para justificar respuestas incorrectas (aunque, en uno de los casos, luego sí proporciona un ejemplo correcto).
Luego he aumentado la dificultad pidiéndoles que resuelvan el 'problema de las cinco casas', algo más complejo (por la cantidad de elementos que contempla el enunciado y por la necesidad de responder por descarte).
Ambos han contestado correctamente al mismo, si bien ChatGPT ha necesitado replantear el modo en que estaba abordando el problema porque el analizador de código de Python que ha utilizado para plantear el problema había terminado incurriendo en un error de sintaxis (Bard, hay que reconocerlo, ha respondido más rápida y limpiamente en este punto).
Aun así, hablamos de tres respuestas correctas del de OpenAI contra una del de Google.
Acceso a información actualizada (ganador: Bard, por poco)
Le he preguntado a ambos chatbots cuándo tendrán lugar las próximas elecciones autonómicas en Galicia, aprovechando que la campaña electoral acaba de iniciarse.
Bard no sólo ha respondido correctamente, sino que ha aportado todo tipo de información contextual sobre la convocatoria de las elecciones, cometiendo únicamente errores al especificar los principales partidos que concurrirán a las elecciones (pues proporciona un listado en el que aparece el desaparecido 'Ciudadanos', pero no Sumar, VOX ni Democracia Ourensana).
ChatGPT también ha contestado correctamente a la pregunta realizada, sin embargo, no ha proporcionado información contextual directa, y al intentar hacerlo mediante un enlace, éste es inusable por alguna razón ignota (no es que la URL no funcione, es que no ofrece ninguna URL).
Labores de traducción (ganador: ChatGPT, con claridad)
Le he pedido a ambos chatbots que traduzcan al español un texto en amhárico (principal lengua etíope, dotada de su propio alfabeto), otro en latín y otro en catalán.
ChatGPT ha sido capaz de ofrecer traducciones con sentido y coherencia de los tres textos, mientras que Bard sólo ha respondido en el último caso (el texto catalán). En los otros dos casos, el chatbot de Google me ha contestado (en inglés) que aún estaba trabajando en lo de aprender idiomas.
Análisis de imágenes (ganador: ChatGPT, con claridad)
Igualmente, le he pedido a ambos chatbots que analicen las siguientes tres imágenes y me expliquen su contenido:
- En el primer caso, respuesta correcta y detallada de ChatGPT... mientras Bard se excusa diciendo que aún no puede analizar imágenes en que aparezcan personas.
- En el segundo caso, respuesta correcta y detallada de ChatGPT... mientras Bard se excusa diciendo que aún no puede analizar imágenes en que aparezcan personas (aunque éstas apenas se distinguen en este caso).
- En el tercer caso (ya sin personas en la imagen), ChatGPT detecta que la imagen contiene imágenes de varias razas de perros, y procede a identificarlas (con una tasa de acierto notable)... mientras que Bard se contenta con identificar sólo una de ellas y soltar una parrafada sobre la misma.
Preguntas sobre temas especializados (Empate)
He querido plantearle dudas sobre cuestiones muy especializadas (rebuscadas, vamos) en las que yo mismo fuera capaz de juzgar la corrección de las respuestas por conocer el tema de primera mano. Así, les he pedido a ambos que aborden dos cuestiones de temáticas notablemente diferentes:
A) una valoración filosófica de la cosmogonía del sabio presocrático griego Ferécides de Siros.
B) una comparativa entre dos servicios de generación de vídeo mediante IA (Fliki e InVideo).
En ambos casos las respuestas han sido, además de largas, bastante satisfactorias (también igualmente matizables en varios puntos); todo ello desde mi subjetivo punto de vista.
En favor de Bard, diré que al principio escribí mal 'Fliki' (puse 'Flicki') y ChatGPT fue incapaz de saber a qué servicio me refería, problema que no tuvo su rival de Google.
Resolución de problemas de programación (Ganador: Bard)
"Necesito crear una calculadora básica usando HTML y JavaScript, ¿puedes proporcionarme el código necesario?"
Un problema notablemente sencillito que ambos supieron resolver (aunque, sin embargo, no lo hayan hecho con la misma eficacia). Ninguna de las dos quedó muy notable en lo estético, pues no les pedí que usaran CSS, pero la calculadora de ChatGPT no mostraba bien ni el texto y, lo que es más importante, tenía un bug que le impedía concatenar operaciones sin pulsar antes "=".
Por otro parte, el código proporcionado por Bard fue más elegante, pues separaba HTML y JavaScript en dos archivos diferentes.
Bard podría haber conseguido un puñado de puntos extra gracias a unos prometidos 'recursos adicionales' (un tutorial y un repositorio) de los que, sin embargo, fue incapaz de proporcionar una URL válida.
Imagen | Marcos Merino mediante IA
En Genbeta | Se ha filtrado una IA del OpenAI europeo, Mistral. Su rendimiento rivaliza con GPT-4 y puedes probarlo en tu PC