OpenAI vuelve a hacer saltar la IA por los aires cuando Google comenzaba a superarle: así es o3 y por qué es tan importante

La capacidad de 'razonamiento' de la IA da un salto de gigante con 'o3'

En los últimos años, la inteligencia artificial (IA) ha estado avanzando a pasos agigantados, pero a pocos días de que acabe, 2024 parece haberse convertido en un punto de inflexión crucial, en el que -en muy poco tiempo- OpenAI y otros actores clave del sector han presentado modelos que 'amenazan' con redefinir lo que entendemos como inteligencia artificial.

Pero, entre todos ellos, el nuevo modelo 'o3' de OpenAI, presentado hace unos minutos como traca final de los 12 días de novedades de la compañía, podría tener un lugar destacado, precisamente cuando Google parecía haber batido a la compañía liderada por Altman tanto en el campo de los chatbots como en vídeo e imagen.

Un vistazo a…
'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE

¿Qué es o3 y por qué es revolucionario?

El modelo o3, junto con su variante o3-mini, ha superado ampliamente a su predecesor, o1, en tareas de programación (según Sam Altman, CEO de OpenAI, o3 es "increíble en codificación")... pero, aún más importante, también en razonamiento lógico.

Lo que diferencia a o3 de sus predecesores es su enfoque en el razonamiento profundo. Este modelo toma más tiempo para procesar preguntas, optimizando así sus respuestas. Se busca así superar los límites observados en el entrenamiento de modelos de IA basado exclusivamente en el aumento de datos y potencia computacional.

ARC-AGI es un estándar que mide la capacidad de los modelos de IA para resolver tareas complejas que requieren razonamiento general más allá de patrones preentrenados, un test "fácil para los humanos y difícil para las máquinas", que es reconocido como una referencia a la hora de medir avances hacia 'IA General'.

Pues bien, estos son los resultados de la familia de modelos GPT:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 high (2024): 32%
  • o1 Pro (2024): ~50%
  • o3 (2024): 76%
  • o3 [modo de alta computación] (2024): 87%

Las versiones de la arquitectura o3 logran un desempeño notablemente alto, acercándose al dominio casi completo de las tareas de razonamiento general evaluadas. Os recordamos que la puntuación media de la inteligencia humana en este test es del 85%.

Entonces, ¿o3 programa bien?

Codeforces es una plataforma online muy popular para la práctica de programación competitiva, usadas por desarrolladores de todo el mundo para mejorar sus habilidades algorítmicas, y que ofrece un sistema de rating similar al utilizado en ajedrez (Elo). Pues bien, según la clasificación de Codeforces, o3 ocupa el puesto 175 de los mejores programadores del mundo:

Eficaz, pero... ¿también eficiente?

Según Mike Knoop, un destacado impulsor del Premio ARC, la configuración de alto rendimiento de o3 utiliza 172 veces más potencia de cálculo que su versión básica. Esto subraya la necesidad de avanzar en la eficiencia computacional para alcanzar objetivos más ambiciosos, como un sistema AGI que pueda operar con recursos limitados.

Por su parte, François Chollet, el creador de ARC-AGI, valora en 20 $ el gasto por tarea de cómputo de la configuración básica a o3, y en "miles de dólares" su gasto por tarea en el modo de alto cómputo (miles de $ por tarea):

"Es muy costoso, pero no se trata solo de fuerza bruta: estas capacidades son un territorio nuevo y requieren atención científica seria".

¿Y dónde está 'o2'?

Según ha explicado el propio Sam Altman en la presentación de hoy, la compañía decidió saltarse la denominación "o2" para evitar conflictos legales con "nuestros amigos de Telefónica": la compañía homónima (O2) es la filial británica del grupo.

Imagen | Marcos Merino mediante IA

En Genbeta | "No estamos aquí para masturbarnos por el número de parámetros". El CEO de OpenAI quita importancia a lo que más se alababa de GPT-4

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta