Evaluar la creatividad, coherencia y originalidad son algunas de características a analizar en una IA
Cuando llega una nueva inteligencia artificial al mercado o al menos un nuevo modelo, son muchas las preguntas que nos generan. La primera de ellas es saber la potencia que tiene o incluso si es fiable o no. Para ello se pueden hacer diferentes test para ponerlas a pruebas como el famoso 'Test de Turing'.
Pero hay otro test que es mucho menos conocido, pero realmente interesante que va a enfrentar a la IA a uno de sus grandes problemas: la originalidad. Hablamos del 'test de la manzana' que tiene la misión de conocer si son capaces de enfrentarse a tareas lingüísticas complejas.
Un test que nos muestra lo inteligente que es una IA
Tal y como compartió el profesor Ethan Mollick, son muchas las inteligencias artificiales que no terminan de cumplir con un test que a priori puede ser realmente sencillo de completar para cualquier tipo de persona. Y es que al final hablamos de un test creado por David Monge que se basa en pedir a la IA que escriba 10 oraciones que acaben con la palabra 'manzana'.
Es cierto que a priori puede parecer un test realmente tonto, y que cualquier persona puede terminar cumpliendo de manera correcta. Pero la realidad es que para las IA esto es un gran problema porque es "una tarea no trivial para un modelo autorregresivo". Y no es nada fácil.
Así lo he podido comprobar con el recién presentado GPT-4o que apuntaba a ser un modelo de IA realmente inteligente, pero en algo tan sencillo como esto se observa que en la frase 6 se acaba con 'me encanta' o en la novena con 'muy refrescante'.
Esta es una tónica general dentro del mundo de las inteligencias artificiales, ya que si nos vamos al otro extremo y hablamos de Gemini nos encontramos una peor situación. Gemini muestra muchas menos frases que acaben con esta palabra, e incluso cuando le decimos que se está equivocando se reafirma en su error.
Pero... ¿Por qué es un modelo tan eficaz para evaluar el funcionamiento de una inteligencia artificial? La primera razón que se esgrime para ello es la capacidad de la IA para poder salir de su entrenamiento y adaptarse a una estructura para la que en realidad no están adaptadas. En este caso vemos que GPT-4o tiene una mayor libertad para ello.
Además de esto, también se evalúa la creatividad de la IA que como sabemos a veces se puede terminar poniendo en dudas. Y es que es necesario para realizar este reto contar con capacidad para generar frases que no sean iguales, pero que sobre todo tengan coherencia. Un punto muy importante que todos queremos tener presentes cuando generamos textos amplios para nuestros trabajos.
La IA para poder paliar esto puede en otro punto que todos odiamos cuando nos referimos a la inteligencia artificial y que es la repetición de frases o de ciertas estructuras. Este test pone a prueba precisamente esto para poder evitar que veamos como una estructura se repite de manera constante.
Pero lo más importante es que el resultado se termine comprendiendo. Todos podemos terminar una frase cualquiera con la palabra 'manzana', pero puede no terminar teniendo ningún tipo de sentido. La IA puede caer en ello muchas veces y por eso este test es realmente interesante.
En definitiva, si quieres evaluar a una inteligencia artificial vas a poder introducir el prompt 'dime 10 frases que acaben con la palabra "manzana"'. Dependiendo del resultado, vas a poder averiguar si ofrece buenos resultados o no, con un test que ofrece una gran fiabilidad.
Imágenes | Priscilla Du Preez
En Genbeta | Después de comparar Google Gemini, ChatGPT y Microsoft Copilot, tengo claro que llevaba razón: estaba usando el mejor
Ver todos los comentarios en https://www.genbeta.com
VER 2 Comentarios