OpenAI presenta su nueva API de Whisper: su propio sistema de reconocimiento de voz automático

Gilberto Rojas
| 4 min read

Desarrolladores y creativos en todo el mundo han encontrado el ‘santo grial’ para hacer más eficientes sus nuevos productos y servicios con OpenAI. Ahora, tanto el chatbot ChatGPT, como el servicio automático de reconocimiento de voz de la misma empresa, Whisper, cuentan con su propia API (interfaz de programación de aplicaciones, por sus siglas en inglés).

Con un precio de 0,006 dólares por minuto, Whisper es un sistema avanzado de reconocimiento automático de voz que, según lo expresado por la dirección de OpenAI, permite una transcripción “robusta” en distintos idiomas, así como la inmediata traducción al inglés. De hecho, es capaz de tomar archivos en formatos tan viarios como M4A, MP3, MP4, MPEG, MPGA y WEBN, por solo mencionar algunos.

Claro que hoy por hoy existe una gran cantidad de compañías que han desarrollado sistemas de reconocimientos de voz mediana o altamente eficientes, Google, Amazon y Meta entre ellas, pero lo que pone en un siguiente nivel a Whisper de OpenAI son las 680.000 horas de datos multilingües y multitarea que ostenta.

OpenAI optimizó Whisper aún más

Según lo dicho por Greg Brockman, presidente de OpenAI, los cientos de miles de horas de distintos idiomas de Whisper hacen que su sistema de reconocimiento de voz sea mucho más eficiente cuando se trata de diferenciar acentos, desviar ruidos de fondo y entender lenguajes técnicos.

“Lanzamos un modelo, pero eso en realidad no fue suficiente para que todo el ecosistema de desarrolladores se construyera a su alrededor (…) La API de Whisper es el mismo modelo grande que puede obtener el código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente”, expresó el CEO de esta compañía en entrevista con Techcrunch.

Para Brockman, existen hoy muchas barreras para que las empresas adopten la tecnología que necesitan cuando se trata de transcripciones de voz, cuestión que refuerza una encuesta de Statista generada en 2020, la cual apunta que compañías citan problemas de precisión, reconocimiento del dialecto y costos como las principales razones para no dar el paso que se requiere en la adopción de sistemas como los de Google o Meta.

Desarrolladores de Whisper trabajan en las limitaciones de su sistema

Así y todo, el sistema desarrollado desde OpenAI ha dejado en claro que conoce estos problemas y ha reconocido que entiende sus propias limitaciones, una de las cuales es la predicción de la “siguiente palabra”.

Brockman explicó en la entrevista antes citada que el sistema de Whisper se ‘entrenó’ con datos muy ruidosos, por lo que podría incluir palabras que en realidad no se han dicho en la transcripción de los textos, probablemente porque el algoritmo intenta predecir la “siguiente palabra” del audio sin hacerlo de manera eficaz.

También es sabido que Whisper no funciona igual de ‘perfecto’ en todos los idiomas que maneja. Y es que sufre una tasa superior de error cuando se trata de grabaciones en lenguajes que no tienen mucha información en la base de datos de la aplicación.

Claro que esto está lejos de ser una novedad en el mercado de los sistemas de reconocimiento de voz, tanto es así que un estudio hecho por la Universidad de Stanford en 2020 encontró que sistemas como el de Google, Apple, IBM, Amazon y Microsoft cometen errores de hasta un 19 % más con usuarios blancos que con usuarios negros.

OpenAI ¿La mejor del mercado?

Sabiendo todo lo anterior, el CEO de OpenAI igual considera que las capacidades de transcripción de Whisper están muy por encima del resto de su competencia y su aplicativo está siendo usado para mejorar las herramientas de muchas compañías a nivel mundial.

Un ejemplo de esto es Speak, aplicación de aprendizaje de idiomas impulsada por Inteligencia Artificial, la cual ya estaría utilizando la API de Whisper para potenciar un nuevo “compañero” virtual dentro de la App.

Desde OpenAI se considera que, si pueden meter a Whisper en el mercado de voz a texto de forma masiva, podrían traer una rentabilidad a la compañía de cifras muy interesantes. Según un informe citado por Techcrunch, este apartado del mercado podría tener un valor cercano a los 5.4 mil millones de dólares para 2026, mientras que para 2021 su capitalización era de 2.2 mil millones de dólares.

Nuestra imagen es que realmente queremos ser esta ‘inteligencia universal’ (…) Realmente queremos, de manera muy flexible, poder tomar cualquier tipo de datos que tenga, cualquier tipo de tarea que desee realizar y ser un multiplicador de fuerzas en esa atención”, sentenció Brockman.

¡Otras novedades!

¿Sabías que OpenAI es una empres respaldada por Microsoft? ¿Te imaginas cuánto subirán las acciones de Microsoft una vez las herramientas de OpenAI se vuelvan masivamente usadas? Pues recuerda que a través de eToro puedes invertir en Microsoft, comprar y vender sus acciones en cuestión de segundos y de la manera más fácil posible.

Ahora, diversificarse es la clave, por lo que nuestros analistas han creado un listado con los mejores proyectos blockchain del momento que se actualiza semana a semana para que no te pierdas nada y para que ostentes un portafolio robusto que te ayude a aguantar los golpes del mercado y a ganar todos los días.

La inversión en criptoactivos no está regulada, puede no ser adecuada para inversores minoristas y perderse la totalidad del importe invertido.

Es importante leer y comprender los riesgos de está inversión que se explican detalladamente en el Anexo II de la siguiente circular.