ImageNet

/ El mal alumne

ImageNet es una base de datos de imágenes anotadas creada por la investigadora Fei-Fei Li con las universidades de Stanford y Princeton como un recurso para la investigación en visión artificial. Su corpus de palabras proviene de WordNet, una base de datos del léxico del inglés organizada jerárquicamente en función del significado de las palabras. ImageNet recopila una gran cantidad de imágenes para cada una de las categorías, con lo que WordNet se convierte en una especie de diccionario visual.

Pero que las palabras tengan un significado no quiere decir que tengan una equivalencia visual. Los límites de la relación entre imágenes y palabras se hacen evidentes para cualquiera que recorra las categorías de ImageNet relativas a personas: ¿se puede crear un dataset de imágenes para la categoría bad person?. ¿Los criterios morales son elementos que se pueden apreciar en las imágenes? En el caso del género, las imágenes de ImageNet también son elocuentes: por ejemplo en la categoría smasher, stunner, knockout […] (“una mujer muy atractiva o seductora”, según la definición del propio dataset), que no define el contenido de la imagen sino el tipo de mirada con la que se ha construido. Estos son ejemplos que de tan evidentes parecen absurdos, pero aún así forman parte de este dataset, que es uno de los estándares en visión artificial. Es imposible no ver en ellos un síntoma de las fantasías de la visión artificial, así como de los límites y los peligros de la definición visual.