La estudiante del Instituto Real de Tecnología de Estocolmo, Celeste De Nadai, investigó los modelos de lenguaje extensos con el objetivo de descubrir si sus respuestas estaban marcadas por ciertos prejuicios. Se enfocó mayormente en como respondían a las variables de género y los nombres. De Nadai había observado reportes previos relacionados con versiones anteriores de las IA. Pero no encontró estudios de las iteraciones más recientes.
No sin prejuicios
La investigadora estaba preocupada porque esta tecnología había comenzado a utilizarse en tareas de selección de empleados. Las compañías encargadas de reclutar a los profesionales a menudo señalan que el uso de la inteligencia artificial les permite actuar sin prejuicios. De Nadai apunta que eso no es cierto, que aún en los casos en los se eliminan ciertos parámetros, como los nombres, otros marcadores pueden delatar la procedencia social de una persona.
Es importante notar que el aprendizaje de las IA es automatizado, y los desarrolladores tienen un control limitado sobre los patrones que establecerá el modelo.
El estudio
La investigadora trabajó con los modelos Gemini 1.5, Mistral nemo 2407 y GPT40-mini. Estos debían evaluar las respuestas a 24 preguntas de una entrevista laboral.
Los datos de los aplicantes, en términos de sexo y nombre, fueron intercambiados hasta producir 200 sujetos (100 hombres y 100 mujeres). Los nombres fueron clasificados por origen en los grupos Africa Occidental, Este Asiático, Medio Oriente y Anglo Sajón. La idea era que los modelos se enfrentaran a situaciones en las que la respuesta era la misma, pero el perfil del profesional fuera diferente.
Resultado
Lo que De Nadai descubrió es que existía un prejuicio en contra de los nombres masculinos y en particular contra aquellos que pertenecían al grupo Anglo Sajón. El resultado no era lo que se esperaba, dado que las IA a menudo han sido acusadas de hacer lo contrario, favorecer los nombres de origen europeo occidental. Eso era lo que han demostrado estudios anteriores.
Teoría
De Nadai cree que lo que ha ocurrido es que los desarrolladores ha observado los prejuicios que existían en los modelos y han intentado corregirlos. Sin embargo, en vez de simplemente anular el defecto han cambiado la dirección del prejuicio.
El estudio sugiere que una forma de hacer que las evaluaciones sean más justas es dar consignas más estrictas, con criterios detallados sobre como examinar las preguntas. Sin embargo, lo más conveniente es negar el acceso a información que puede usarse para realizar inferencias indeseadas.
Gemini tiene problemas para entender el contexto histórico cuando produce imágenes
La entrada Las IA mal corregidas ahora discriminan a quienes antes favorecían aparece primero en RedUSERS.