YOLO9000 es una red neuronal de reconocimiento de objetos entrenada con un dataset de 9.418 palabras y millones de imágenes. Los experimentos que siguen están enfocados a investigar su funcionamiento: entender qué ve y cómo habla.
En la visión artificial, la elección de las palabras para describir la imagen es la tarea menos automática: corre a cargo de los humanos. En base a estos glosarios, la máquina actúa como nuestro mejor alumno: aprende lo que nosotros le hagamos ver. Conseguir que una visión artificial funcione implica educarla en un sistema particular de ver. Los siguientes experimentos se basan en la sustitución del vocabulario de YOLO9000 por otros listados de palabras.
Experimentos en los que se han entrenado redes neuronal de visión artificial. Las categorías de entrenamiento provienen del mundo del arte (estilos artísticos, colecciones de museos o artistas) o de conceptos relativos a la producción de las imágenes (herramientas o conceptos de composición).
Experimentos realizados con Pix2Pix; una red GAN (generative adversarial network), esto es, pensada para la generación de imágenes. Como se ha explicado antes, esta herramienta se ha ideado principalmente para transformar el estilo de una imagen, y funciona a partir de un entrenamiento con pares de imágenes –la red aprendería a hacer automáticamente el paso de un tipo de imagen del par al otro–. En nuestros experimentos hemos intentado producir una imaginación maquínica –la red neuronal después del entrenamiento– y jugar a estimularla para provocar resultados inesperados.
Experimentos iniciales con herramientas de visión artificial centradas en la descripción de las imágenes y el análisis facial.