Bluesky promete que no usará tus mensajes para entrenar una IA, pero otras empresas sí podrán hacerlo

Una de las grandes controversias que ha generado la inteligencia artificial desde su llegada, es el uso de los datos privados de usuarios para su entrenamiento. Esto es algo que ahora alcanza a la IA de la red social Bluesky, pero que la empresa quiere desmentir.

Antes de nada, seguro que muchos ya sabéis que Bluesky se ha posicionado como una clara alternativa para todos aquellos que han acabado frustrados con X. De ahí que en su corta vida está recibiendo una enorme cantidad de clientes que por ejemplo llegan desde la antigua Twitter. Sin embargo ahora se está viendo en una importante controversia debido a la formación de los modelos IA que utiliza.

Su entrenamiento se basa en el protocolo descentralizado AT que supuestamente ofrece a los usuarios más control y transparencia. Pero un incidente reciente ha demostrado que ser una plataforma de código abierto y descentralizada, tiene sus inconvenientes.

Un experto en el aprendizaje automático recopiló un conjunto de datos correspondientes a un millón de mensajes de Bluesky utilizando la API Firehose de la red social. Este conjunto de datos no estaba anonimizado, sino que incluía el contenido de los usuarios junto con identificadores descentralizados, lo que permitía su rastreo. Su objetivo era respaldar la investigación y experimentación de aprendizaje automático con datos de redes sociales.

Como no podía ser de otro modo, toda esta información se publicó en Bluesky, lo que no ha sentado nada bien a la mayoría de los usuarios. Muchos expresaron su oposición al entrenamiento de la IA con sus publicaciones, una postura que de hecho coincide con la política de Bluesky.

Bluesky niega usar los datos de los usuarios en la IA

Es más, los máximos responsables de la propia plataforma afirman explícitamente que no utilizan el contenido de los usuarios para entrenar modelos generativos de IA. Pero claro, este conjunto de datos que os mencionamos antes, se convirtió en un importante punto de controversia y desencadenó una oleada de críticas. Así, los usuarios argumentaron que sus publicaciones se estaban utilizando sin su consentimiento, violando así los principios sobre los que se fundó Bluesky.

privacidad bluesky

Finalmente, la información extraída se retiró de la plataforma. Con todo y con ello, mientras de la propia Bluesky afirma que no usa las publicaciones de los usuarios para entrenar su IA, lo cierto es que su arquitectura pública y de código abierto permite a terceros utilizar esos datos libremente. Esto es algo que incluye los fines a los que la plataforma y sus usuarios se oponen rotundamente.

Por ejemplo, decir que la API Firehose de Bluesky transmite todas las publicaciones públicas en tiempo real, algo clave para la creación del conjunto de datos detectado. Aunque es una función diseñada para mejorar la transparencia y la innovación, también abre las puertas a posibles usos indebidos, como os podréis imaginar.

Lo irónico de todo esto es que muchos usuarios abandonaron plataformas como X para evitar que sus contenidos se utilizaran para el entrenamiento de inteligencia artificial. Bluesky, con su modelo descentralizado, parecía el antídoto para ello. Pero ahora, los usuarios se dan cuenta de que la descentralización no les protege de que terceros hagan lo que quieran con sus datos públicos.

Comparte lo que descubriste en Pongara News