OpenAI está revolucionando la transcripción de audio a texto con Whisper mientras todos seguimos centrados en ChatGPT y DALL-E

Si hace un par de años Whisper V2 ya se convirtió en nuestra herramienta favorita para transcribir entrevistas, Whisper V3 va un paso más allá

23 noviembre 2024, 14:01

Marcos Merino

Hace un año, los protagonistas del evento DevDay de OpenAI fueron el lanzamiento de GPT-4 Turbo y de los GPTs personalizados (y su correspondiente 'store'). Estas fueron las novedades que acapararon el interés mediático y la atención del usuario… pero había un 'tapado', una nueva IA que, con el tiempo, ha demostrado que merecía mucha más atención que la recibida en su momento.

Os hablamos de la IA de trascripción de audio a texto Whisper V3, una IA open source (al contrario que ChatGPT o DALL·E), por lo que está disponible para su uso online gratuito a través de plataformas como Hugging Face o Replicate, y de varios clientes de escritorio (como el gratuito Buzz o el cliente de pago WhisperScript).

Un antes y un después

Hasta hace no mucho, la transcripción de audio a texto siempre había sido un desafío para la mayoría de los usuarios, pues las herramientas gratuitas a las que podían disponer acostumbraban a cometer numerosos errores. Whisper V2 fue la primera herramienta gratuita que convenció a muchos usuarios…

…pero con Whisper V3 ya tenemos la sensación de que es el equivalente en su campo a ChatGPT —excepto por la parte de ser 100% gratuito—, una IA que los desarrolladores de software van a empezar a breve a implementar en sus propias aplicaciones.

Además, su versatilidad lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el campo de la asistencia por voz.

En Xataka

OpenAI Whisper: qué es, cómo funciona y cómo puedes usar esta inteligencia artificial para transcribir audios

¿Qué nos ofrece Whisper V3?

Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Si lo comparamos con su versión anterior, Whisper V3 ha logrado reducir los errores entre un 10 y un 20%. En el caso del idioma español, su tasa de error se encuentra por debajo del 5%, lo que lo convierte en uno de los idiomas mejor comprendidos por este modelo.

Una de las características más destacadas de Whisper V3 es su capacidad multitarea: puede utilizarse para reconocer y traducir múltiples idiomas. Además, este modelo es capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación, lo que lo convierte en una herramienta enormemente versátil.

Además, OpenAI ha puesto a disposición de los usuarios modelos de Whisper V3 de distintos tamaños (y, por ello, de distintos niveles de rendimiento), desde una versión minúscula con menos de 1 GB de VRAM hasta el modelo large, entrenado con 1.550 millones de parámetros y con requisitos de unos 10 GB de VRAM. Esto permite que Whisper V3 se adapte a diferentes aplicaciones y necesidades, brindando flexibilidad a los usuarios.

Imagen | Marcos Merino mediante IA

En Genbeta | He probado LuzIA, una inteligencia artificial que transcribe audios y da respuestas dentro de WhatsApp. Y todo rapidísimo

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta