Curiosa visualización la de esta nube de anti-tags, que básicamente toma todas las palabras de un libro y las compara con la lista de palabras más usadas para extraer las palabras que menos se mencionan en el contenido del libro. Y los resultados son bastante interesantes.
Al hacer este tipo de procesamiento de los datos hay que tener en cuenta algunos factores. Por ejemplo, hay muchas palabras vacías (stopwords) que por irrelevantes y comunes deben ignorarse para no emponzoñar la lista («el», «la», «y», etcétera). También sucede que en inglés una misma palabra puede escribirse de dos formas (color/colour) según sea inglés americano o británico, así que esas listas requieren cierta «limpieza» manual.
Los ejemplos son todos en inglés, porque proceden de libros del dominio público del Proyecto Gutenberg y las palabras más frecuentes del Wiktionary. La lista no es muy grande, pero va creciendo poco a poco por lo que he podido ver. Estaría divertido ver el equivalente para algunos libros en castellano.
Relacionado: