Microsoft acaba de atacar de frente a uno de los mayores problemas de la IA interactiva: su gran coste. Y lo ha hecho lanzando 3 nuevos modelos «Mini» de voz en Azure AI Foundry. Diseñados específicamente para reducir los gastos, pero sin sacrificar la calidad.
De hecho, a la hora de construir un asistente de voz, su problema principal era el coste. Los modelos completos de GPT consumen grandes recursos, que a su vez generan una latencia demasiado elevada para una conversación en tiempo real. Y el coste por minuto era también demasiado alto para algunas startups o aplicaciones más humildes.
Pero Microsoft ha atajado este problema con una nueva estrategia. El pasado 15 de diciembre lanzó sus nuevos modelos «Mini». Que son un 70% más baratos que sus equivalentes modelos completos, pero con mejor precisión y menos latencia. Cuentan con una transcripción de voz a texto mejorada -50% menos de errores), síntesis de texto a voz en tiempo real bidireccional (humano-IA). Y lo mejor de todo es que se ejecuta directamente dentro de Azure. Sin que necesitemos GPU de precios estratosféricos.
El problema de las IA de voz
Durante estos años atrás, el hecho de construir un asistente de voz sólido era todo un desafío. De hecho, sin ir más lejos, los modelos completos de OpenAI generaban:
- Alta latencia. Cuestión de segundos entre que el usuario terminaba de hablar y la IA respondía. Que saboteaba de lleno la actividad principal.
- Alto coste, donde cada minuto de conversación costaba centavos de dólar. Lo que multiplicado por millones de usuarios era un saldo negativo insostenible.
- Errores frecuentes en cuanto a transcripción, alucinaciones o generación de voz robótica.
Como consecuencia de todo esto, tan solo las empresas más grandes podían permitirse una IA de voz de calidad. Las startups quedaban atrapadas entre la obsolescencia y modelos con calidad mediocre. Pero Microsoft ha lanzado estos 3 modelos, precisamente, para quitarnos este problema de encima.
Los 3 nuevos modelos «Mini»
Microsoft ha lanzado 3 modelos específicos, cada uno con sus pros, contras y distintas capacidades.
gpt-realtime-mini-2025-12-15
Es el modelo más potente de los 3. El usuario habla, la IA escucha, procesa y responde en tiempo real, a lo que añade unas mejoras sustanciales:
- 70% más barato que el modelo GPT-4o completo.
- Latencia ultra-baja, que genera respuestas en cuestión de milisegundos.
- Mejor manejo de interrupciones, para que el usuario pueda frenar al asistente sin problema alguno.
- Audio en cualquier formato, capaz de aceptar MP3, WAV y Opus sin ningún tipo de conversión previa.
Todo esto se traduce en que podemos construir nuestro asistente de voz para una app, con un tercio del presupuesto de lo que costaba anteriormente.
gpt-4o-mini-transcribe-2025-12-15
Modelo encargado de convertir voz a texto. Pero lo más importante de su lanzamiento es que Microsoft ha reducido enormemente los errores con respecto a las versiones previas. De hecho, cuenta con un 50% menos de error de palabras (WER) comparado con las anteriores versiones. También se han reducido las alucinaciones en una tasa de 4x, por lo que cuando estamos en silencio o hay ruido de fondo, el modelo no se inventa el texto.
Además de ello, también se ha mejorado la precisión para los idiomas fuera del inglés: el español, inglés y alemán funcionan mejor que en versiones anteriores. Y otro gran logro ha sido su mejora en puntuación, ya que ahora añade puntos, comas y mayúsculas sin necesidad de que lo revisemos posteriormente.
gpt-4o-mini-tts-2025-12-15
Si el anterior modelo convertía voz a texto, este se encarga de lo contrario: texto a voz. Aquí Microsoft ha añadido una característica de las que llaman mucho la atención: clonación de voces.
Podemos cargar voces personalizadas durante 30 segundos y el modelo puede replicarla perfectamente. También se ha perfeccionado el algoritmo para que la síntesis suene menos robótica, con pausas más naturales y una entonación realista, eliminando los artefactos que generaban «ruido». Por último, se ha añadido soporte para más idiomas: español, alemán, francés, japonés o chino.
Por lo tanto, ahora podemos crear audiolibros, podcasts o asistentes con voces naturales.
