Espais latents

Les xarxes generatives adversàries –o GAN, segons l’acrònim anglès– utilitzen les possibilitats de les xarxes neuronals profundes –la capacitat d’autoconfigurar-se per a realitzar tasques concretes a partir d’un corpus d’exemples (l’anomenat dataset d’entrenament)— per a la generació d’imatges (també es poden aplicar a la generació de text o so). La seva arquitectura interna es compon de dues xarxes, una que produeix imatges (la xarxa generadora) i una que les valora com a pertanyents a la categoria del dataset d’entrenament o no (la xarxa discriminadora). Es tracta d’un joc en el qual totes dues xarxes van autoconfigurant-se una per aconseguir imatges que l’altra jutgi com a pertanyents a les imatges d’entrenament i l’altra per aconseguir discernir millor quines ho serien i quines no. En aquest procés la xarxa generadora produeix imatges cada cop més similars al corpus inicial.

Quan aquest procés d’autoconfiguració està acabat, el que tenim és una eina capaç de produir imatges molt semblants a les que li hem proporcionat, però que no es limiten a aquestes sinó que podria generar variacions infinites. Les imatges d’entrenament formen part, hipotèticament, de les imatges que pot generar la GAN entrenada, però entre cada una d’aquestes imatges hi ha un nombre infinit de variacions alhora semblants i diferents.

Si imaginem l’hipotètic corpus de totes les imatges possibles que podria generar la xarxa, podríem pensar-lo en un espai de dues dimensions on les imatges més similars estiguessin més pròximes entre elles i on, per tant, podríem anar transitant entre dues imatges qualsevol transformant-les lentament una en l’altra a partir de petites diferències. Una GAN entrenada conté, en certa manera, un espai com aquest, però no compost de dues dimensions sinó de moltes més (de l’ordre de les centenes). El conjunt d’aquestes dimensions forma un entramat multidimensional on cada imatge possible es pot entendre com un punt dins aquest sistema de coordenades complex; d’aquest entramat se’n diu “espai latent”.