YOLO9000 és una xarxa neuronal de reconeixement d’objectes entrenada amb un dataset de 9.418 paraules i milions d’imatges. Els experiments d'aquesta categoria estan enfocats a investigar-ne el funcionament: entendre què veu i com parla.
En la visió artificial, l’elecció de les paraules per descriure la imatge és la tasca menys automàtica: se n’encarreguen els humans. Sobre la base d’aquests glossaris, la màquina actua com el nostre millor alumne: aprèn el que nosaltres li fem veure. Aconseguir que una visió artificial funcioni implica educar-la en un sistema particular de veure. Els experiments que segueixen es basen en la substitució del vocabulari de YOLO9000 per altres llistes de paraules.
Experiments en els quals s'han entrenat xarxes neuronal de visió artificial. Les categories d'entrenament provenen del món de l'art (estils artístics, col·leccions de museus o artistes) o de conceptes relatius a la producció de les imatges (eines o conceptes de composició).
Experiments realitzats amb Pix2Pix; una xarxa GAN (generative adversarial network), és a dir, pensada per a la generació d’imatges. Aquesta eina s’ha ideat principalment per transformar l'estil d'una imatge i funciona a partir d'un entrenament amb parelles d'imatges –la xarxa aprendria a fer automàticament el pas d’un tipus d'imatge de la parella a l'altra. En els nostres experiments hem intentat produir una imaginació maquínica –la xarxa neuronal després de l’entrenament– i jugar a estimular-la per provocar resultats inesperats.
Experiments inicials amb eines de visió artificial centrades en la descripció de les imatges i l'anàlisi facial.