Las mejores herramientas para convertir texto a voz y voz a texto (TTS y STT)

El uso de voz es muy cómodo para cierto tipo de trabajos y tareas, sobre todo cuando necesitamos escribir algo y no queremos teclearlo todo. Con un simple audio podemos generar ese texto escrito gracias a decenas de herramientas en la red, las cuales cada vez funcionan mejor.

Del mismo modo, podemos convertir un texto en voz, y pese a que no tendrá el mismo tono que un humano, y puede que se detecte que es robótico, también es muy cómodo para miles de casos, desde crear un vídeo sin tener que hablar, hasta que nos lea un libro sin visualizar ni una sola letra del mismo.

Cómo convertir texto a voz

Actualmente, si pruebas varias herramientas de voz, ElevenLabs es la típica que dices “vale, esto ya da un poco de miedo de lo real que suena”. No es solo que lea bien, es que parece que entiende lo que está diciendo. Hace pausas, cambia el tono… no suena robótico casi nunca. Y encima puedes clonar voces con muy poco audio, lo cual es una locura. Tiene español con varios acentos, que eso se agradece. Lo malo, pues que el plan gratis se queda cortito, pero bueno, para probar sobra.

Por otro lado, tienes Azure, que es como más… serio, más de empresa. No es tan espectacular en plan “wow qué real” como ElevenLabs, pero funciona muy bien y tiene una cantidad enorme de voces e idiomas. Si necesitas hacer mucho volumen o integrarlo con cosas de Microsoft, es supercómodo. Y al ser gratis está bastante bien, la verdad.

ElevenLabs
Captura del uso de la app ElevenLabs para transcribir texto a audio

Google Cloud TTS va un poco por ahí también. No destaca por una cosa loca en concreto, pero está muy equilibrado. Algunas voces suenan muy bien, sobre todo las más nuevas, y si ya usas cosas de Google, pues todo te encaja sin pensar mucho. Es de esas opciones que sabes que no te van a fallar.

Y por último tenemos Amazon Polly, No tiene tantas voces ni tanta historia, pero si ya estás en AWS, es lo típico que usas porque te viene perfecto y no te complicas. Además, al principio te dejan usar bastante gratis, así que para probar sin pagar no está nada mal.

Cómo convertir voz a texto

En cuanto a convertir voz a texto, Whisper, el de OpenAI, es el favorito de mucha gente porque es gratis si te lo montas tú. Lo puedes correr en tu propio ordenador y listo, sin pagar nada. Funciona sorprendentemente bien, sobre todo en español. El modelo grande es superpreciso. Luego tienes versiones más ligeras que van casi en tiempo real incluso en equipos normalitos. Y hay mil herramientas hechas por la comunidad para usarlo fácil, en navegador o apps. Es de esos que dices: “vale, esto para trastear o incluso proyectos serios, me sirve de sobra”.