Basura artificial o comentarios humanos: un juego para distinguir las respuestas falsas de las reales

No es que sea una prueba de Turing, pero se le parece un poco: Slop or Not es un experimento planteado para separar el grano de la paja, las respuestas humanas del slop, ese estupendo nombre que se ha dado al «contenido basura generado por inteligencia artificial». Jugar es tan sencillo como leer las dos opciones y marcar la que te parezca slop basuriento. Aviso: lo que no es tan fácil como parece es acertar.

Este experimento online es una idea de Vignesh, que se preguntaba si la gente realmente distingue el slop de los contenidos auténticos en los textos que habitualmente aparecen en internet, no en «condiciones de laboratorio». Para ello utilizó preguntas y comentarios extraídos de Reddit, Hacker News y reseñas de Yelp (restaurantes, peluquerías, reseñas de películas…) En total son unas 13.000 pares de textos humanos+IA filtrados a partir de unos 126 millones de textos.

Los textos humanos ofrecen comparados con seis versiones diferentes generadas por modelos de Anthropic y OpenAI en 3 niveles de dificultad, usando LLMs cada vez más avanzados, desde Haiku 4.5 y GPT-4.1 Nano hasta Sonnet 4.6 y GPT-5.4. En su formato juego se empieza en modo fácil y se va avanzando de nivel cuando se aciertan tres veces seguidas. La partida termina si se falla 3 veces. Además de medir la precisión, los tiempos de respuesta y las rachas, el sistema busca analizar qué modelos «engañan mejor» y si el contexto en el que están planteados (el foro o sitio web) modifica la dificultad.

Yo me he esforzado y no he pasado del 80% de aciertos, que supongo que no está mal. Me pareció que un buen truco es buscar en los comentarios y reseñas un toque «personal» y anecdótico, pero no siempre hay algo apropiado. Y los argumentos y comentarios suelen ser bastante parecidos, además de que el estilo de escritura formal/informal adaptado a cada tema engaña bastante. El caso es que da bastante rabia ver cómo a veces te la cuelan miserablemente porque… son comentarios que parecen tan «humanos» como los de los humanos. Enséñale el juego a alguien que aborrezca los LLM y a ver qué opina.

Relacionado:

# Enlace Permanente

Related Posts

Esta es la edición más rara de Windows XP: características y qué podrías hacer con ella

Ethereum cae 1,17% ante volumen menguante el 14 de marzo de 2026

Trío de eclipses, la web oficial sobre los eclipses de Sol que serán visibles en España en 2026, 2027 y 2028