Whisper es la herramienta de transcripción de OpenAI. En teoría su nivel de confiabilidad es igual a la de un ser humano. Por dicho motivo se ha aplicado esta solución informática en varias industrias en las que la producción de registros de una forma ágil y certera es muy importante. Puede emplearse para mantener el registro de lo que ocurrió en una entrevista, crear subtítulos para una película o documentar la evolución de un paciente en un hospital.
Sin embargo cada vez hay más investigadores apuntando que la herramienta tiene un punto débil importante. Tiende a crear texto adicional, en ocasiones frases enteras.
Inventos y comentarios racistas
En algunos casos los textos agregados contienen expresiones violentas, comentarios racistas y menciones a medicamentos que no existen. Un ejemplo tomado del repositorio TalkBank de la Universidad Carnegie Mellon contiene un audio que señala: “Otras dos chichas y una señorita”. La transcripción apunta “Otras dos chicas y una señorita, um, que eran negras”. En otra ocasión se menciona un medicamento conocido como antibiotico hiperactivado. Que hasta donde sabemos no existe.
Frecuencia
Las alucinaciones son un fenómeno común en la inteligencia artificial. Son más frecuentes cuanto más trabajo realiza el modelo y más profunda su elaboración. En el caso de Whisper la frecuencia es importante, aunque varía según el trabajo realizado y cada usuario. Pero cabe señalar que puede tener una ocurrencia superior al 50%. Aún en los casos en los que el audio original no es un problema pueden producirse alucinaciones.
Un problema de confianza y estándares
Lo que ocurre con Whisper es en gran medida un problema de falta de estándares. Resulta claro que para algunas implementaciones el tener cierta cantidad de errores no es un problema grave. Puedes revisar los subtítulos para ver si algo extraño ha ocurrido y si una frase aparece fuera de lugar nadie sale lastimado. Pero los registros de una empresa de finanzas o una organización dedicada a la salud son material delicado que no puede estar sujeto a un margen de error tan grande.
También es amplia la brecha entre lo que las empresas presentan y el nivel del producto.
Responsabilidad
Whisper está incluida en algunas versiones de ChatGPT. Ha sido descargada más de 4 millones de veces desde la plataforma HugginFace. Es un software extremadamente popular y mucho más proclive al error que otros sistema similares.
OpenAi ha señalado que la empresa estudia continuamente como reducir las alucinaciones y que aprecia las contribuciones críticas de los investigadores. La empresa también recomienda no usar Whisper en instancias vinculadas a la toma de decisiones. La responsabilidad es compartida, porque muchas empresas saben de estas limitaciones y siguen empleando la herramienta.
La entrada Whisper sugiere medicamentos que no existen y realiza comentarios inapropiados aparece primero en RedUSERS.