Il 2022 è stato un grande anno per l'intelligenza artificiale generativa, con il rilascio di modelli per la sintesi di immagini altamente dettagliate e realistiche come DALL-E 2, Stable Diffusion, Imagen e Parti. Stanno diventando sempre più potenti per un'ampia gamma di settori e applicazioni e il 2023 sembra seguire questa strada poiché Google ha introdotto il suo ultimo modello text-to-image.
Stiamo parlando di Muse che, al pari degli altri modelli, rappresenta una rete neurale profonda che accetta un prompt di testo come input e genera un'immagine che si adatta alla descrizione. Ciò che lo distingue dai suoi predecessori è la maggiore efficienza e precisione.
Basandosi sull'esperienza di precedenti lavori sul campo e aggiungendo nuove tecniche, i ricercatori di Google sono riusciti a creare un modello generativo che richiede meno risorse computazionali e fa progressi su alcuni dei problemi di cui soffrono altri modelli generativi.
Muse e la generazione di immagini basata su token
Muse si basa su ricerche precedenti nel deep learning, come modelli di linguaggio di grandi dimensioni (LLM), reti generative quantizzate e trasformatori di immagini generative mascherate. Sfrutta il condizionamento su modelli linguistici pre-addestrati, così come l'idea di modelli a cascata, che prende in prestito da Imagen. Ma una delle differenze rispetto ad altri modelli simili è la generazione di token discreti invece di rappresentazioni a livello di pixel, il che rende l'output del modello molto più stabile.
La decodifica parallela nello spazio dei token è diversa sia dai modelli di diffusione che utilizzano il denoising progressivo sia da quelli auto-regressivi che si basano sulla decodifica seriale. La decodifica parallela in Muse consente un'ottima efficienza senza perdita di qualità visiva. Assomiglia al processo di pittura: l'artista inizia con uno schizzo della regione chiave, quindi riempie progressivamente la tela con il colore e perfeziona i risultati modificando i dettagli.
Risultati superiori da Google Muse
Google non ha ancora rilasciato Muse al pubblico a causa dei possibili rischi che il modello venga utilizzato "per disinformazione, molestie e vari tipi di pregiudizi sociali e culturali". Ma secondo i risultati del team di ricerca, eguaglia o supera altri modelli all'avanguardia nei punteggi CLIP e FID, due metriche che misurano la qualità e l'accuratezza delle immagini create dai modelli generativi.
Muse è anche più veloce di Stable Diffusion e Imagen grazie al suo utilizzo di token discreti e metodo di campionamento parallelo, che riducono il numero di iterazioni di campionamento necessarie per generare immagini di alta qualità.
Muse è un esempio di come l'unione di tecniche e architetture giuste possa portare a progressi impressionanti nell'IA. Sicuramente ha ancora margini di miglioramento.
È interessante notare che Muse migliora altri modelli in aree come la cardinalità (prompt che includono un numero specifico di oggetti), la composizionalità (prompt che descrivono scene con più oggetti correlati tra loro) e il rendering del testo. Tuttavia, non riesce ancora nei text prompt che richiedono il rendering di testi lunghi e un numero elevato di oggetti.
Uno dei vantaggi cruciali è la capacità di modificare e perfezionare i prompt senza la necessità di una messa a punto. Alcune di queste funzionalità includono l'inpainting (sostituzione di parte di un'immagine esistente con grafica generata), l'outpainting (aggiunta di dettagli attorno a un'immagine esistente) e l'editing mask-free (come la modifica dello sfondo o di oggetti specifici nell'immagine).