Google punta sull'AI per immagini, cos'è Muse e come funziona

Ascolta l'articolo

È il nuovo modello di intelligenza artificiale generativa text-to-image sviluppato dai ricercatori Google molto più preciso ed efficiente di altri

Shutterstock

mettiti alla prova con il quiz di mr. Plus su Intelligenza Artificiale

LinkedIn X Facebook WhatsApp Email

Crea una playlist
Condividi l'articolo

LinkedIn X Facebook WhatsApp Email

Il 2022 è stato un grande anno per l'intelligenza artificiale generativa, con il rilascio di modelli per la sintesi di immagini altamente dettagliate e realistiche come DALL-E 2, Stable Diffusion, Imagen e Parti. Stanno diventando sempre più potenti per un'ampia gamma di settori e applicazioni e il 2023 sembra seguire questa strada poiché Google ha introdotto il suo ultimo modello text-to-image.

Stiamo parlando di Muse che, al pari degli altri modelli, rappresenta una rete neurale profonda che accetta un prompt di testo come input e genera un'immagine che si adatta alla descrizione. Ciò che lo distingue dai suoi predecessori è la maggiore efficienza e precisione.

Basandosi sull'esperienza di precedenti lavori sul campo e aggiungendo nuove tecniche, i ricercatori di Google sono riusciti a creare un modello generativo che richiede meno risorse computazionali e fa progressi su alcuni dei problemi di cui soffrono altri modelli generativi.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Muse e la generazione di immagini basata su token

Muse si basa su ricerche precedenti nel deep learning, come modelli di linguaggio di grandi dimensioni (LLM), reti generative quantizzate e trasformatori di immagini generative mascherate. Sfrutta il condizionamento su modelli linguistici pre-addestrati, così come l'idea di modelli a cascata, che prende in prestito da Imagen. Ma una delle differenze rispetto ad altri modelli simili è la generazione di token discreti invece di rappresentazioni a livello di pixel, il che rende l'output del modello molto più stabile.

La decodifica parallela nello spazio dei token è diversa sia dai modelli di diffusione che utilizzano il denoising progressivo sia da quelli auto-regressivi che si basano sulla decodifica seriale. La decodifica parallela in Muse consente un'ottima efficienza senza perdita di qualità visiva. Assomiglia al processo di pittura: l'artista inizia con uno schizzo della regione chiave, quindi riempie progressivamente la tela con il colore e perfeziona i risultati modificando i dettagli.

Risultati superiori da Google Muse

Google non ha ancora rilasciato Muse al pubblico a causa dei possibili rischi che il modello venga utilizzato "per disinformazione, molestie e vari tipi di pregiudizi sociali e culturali". Ma secondo i risultati del team di ricerca, eguaglia o supera altri modelli all'avanguardia nei punteggi CLIP e FID, due metriche che misurano la qualità e l'accuratezza delle immagini create dai modelli generativi.

Muse è anche più veloce di Stable Diffusion e Imagen grazie al suo utilizzo di token discreti e metodo di campionamento parallelo, che riducono il numero di iterazioni di campionamento necessarie per generare immagini di alta qualità.

Muse è un esempio di come l'unione di tecniche e architetture giuste possa portare a progressi impressionanti nell'IA. Sicuramente ha ancora margini di miglioramento.

È interessante notare che Muse migliora altri modelli in aree come la cardinalità (prompt che includono un numero specifico di oggetti), la composizionalità (prompt che descrivono scene con più oggetti correlati tra loro) e il rendering del testo. Tuttavia, non riesce ancora nei text prompt che richiedono il rendering di testi lunghi e un numero elevato di oggetti.

Uno dei vantaggi cruciali è la capacità di modificare e perfezionare i prompt senza la necessità di una messa a punto. Alcune di queste funzionalità includono l'inpainting (sostituzione di parte di un'immagine esistente con grafica generata), l'outpainting (aggiunta di dettagli attorno a un'immagine esistente) e l'editing mask-free (come la modifica dello sfondo o di oggetti specifici nell'immagine).

A cura di Cultur-e

Topic:

Intelligenza Artificiale

#CuriositaTech

#DigitalDevelopment

#NuoveTecnologie

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Segui le ultime notizie sul nostro canale Whatsapp

Segui le ultime notizie sul nostro canale Whatsapp

Iscriviti al canale gratuito

LinkedIn X Facebook WhatsApp Email

Con Samsung Ballie Gemini arriva a bordo di un robot

Samsung ha presentato Ballie, il primo robot/assistente domestico con a bordo Gemini, la potente intelligenza artificiale di Google. Che sappiamo al riguardo

Dev & Security

ChatGPT ora ricorda tutto ciò che dici, come cambiano le interazioni

ChatGPT diventa sempre più efficace poiché ora è in grado di ricordare tutto ciò che gli viene detto. Scopriamo come cambiano le interazioni con questa novità

Dev & Security

Perché Open AI vuole acquistare Google Chrome

Nel corso del processo antitrust ai danni di Google, una delle ipotesi è la vendita di Chrome. OpenAI coglie la palla al balzo e punta a comprare il browser

Scopri i corsi gratuiti della Fastweb Digital Academy

Agenti AI: cosa sono e come funzionano

Questo corso è progettato per introdurre i partecipanti al mondo degli Agenti AI, strumenti intelligenti capaci di supportare aziende e…

Introduzione agli NFT

Abbiamo sentito parlare degli NFT per merito delle famose scimmie milionarie, le Bored Apes, e per molti sono delle immagini con dei costi…

Introduzione alla programmazione in Python

Il Deep Learning è una tecnologia che comprende diverse discipline e le principali sono l’informatica e la programmazione. Il Deep Learning, infatti…