Al giorno d'oggi Internet è letteralmente invaso da piattaforme di intelligenza artificiale che offrono la qualunque: da una replica perfetta della voce fino a lunghe poesie create in pochi secondi. Ma tutto è iniziato con le immagini.
Dopo l'enorme successo di DALL-E di OpenAI, c'è stata un'improvvisa ondata di modelli text-to-image capaci di trasformare, grazie ad algoritmi di deep learning, un semplice prompt di testo in un'immagine plausibile. Le immagini generate possono variare da realistiche ad astratte in base ai dati che alimentano il modello e agli algoritmi utilizzati.
Questa tecnologia ha il potenziale per rivoluzionare il modo in cui i contenuti vengono generati online, rendendo più facile e veloce fornire sostegni visivi ad articoli, blog e post sui social media. Ma anche per cambiare il modo in cui comunichiamo con i computer, permettendoci di generare immagini direttamente dai nostri pensieri.
Sebbene ci siano molte aziende tra cui scegliere, uno dei generatori di immagini più popolari è noto come Midjourney. A differenza dei suoi concorrenti come DALL-E di OpenAI o Stable Diffusion di Stability AI o ancora Imagen di Google, Midjourney aggiunge uno stile artistico più onirico ai suggerimenti che gli utenti danno in pasto all’intelligenza artificiale. Ma scopriamo meglio cos’è e come funziona.
Le caratteristiche di Midjourney
Credits Moon Safari Photos / Shutterstock.com
Fondato da David Holz, che è anche co-fondatore di Leap Motion, Midjourney è il laboratorio di ricerca indipendente che ha creato l’omonimo generatore di immagini in grado di recepire le istruzioni scritte degli utenti e poi prendere ispirazione da milioni di fotografie e disegni dei soggetti più diversi per restituire una immagine che sia quanto più fedele al comando in input.
Il servizio è entrato nella sua beta aperta nel luglio del 2022. Da allora, ha attirato un numero crescente di utenti affascinati dalle sue capacità.
Simile a i tanti AI image generator emersi di recente, Midjourney è maggiormente appetibile a coloro che lavorano nell'ambito della letteratura di fantascienza o di opere d'arte che richiedono un tocco gotico. Laddove altri generatori di intelligenza artificiale pendono maggiormente verso le foto, Midjourney è più uno strumento di pittura.
Come afferma il sito Web del marchio, mira a "esplorare nuovi mezzi di pensiero ed espandere i poteri immaginativi della specie umana"
A livello pratico, il modello chiede all’utente di inserire un prompt scritto per un'immagine, ad esempio "una volpe che indossa un cappello a cilindro nello stile di Picasso" per restituire in pochi secondi diversi tentativi di immagine.
Le cose possono andare storte e il modello non è perfetto. Ad esempio, può avere difficoltà a generare mani o altri oggetti complicati e gli sfondi possono spesso essere sfocati o confusi, ma questi sono problemi che si riscontrano con uno qualsiasi di questi modelli.
Come funziona un generatore di immagini
Credits salarko / Shutterstock.com
Se i creatori dei generatori di immagini hanno spesso offerto ogni sorta di informazioni su come funzionano, oltre a pubblicare il loro codice sorgente, non è il caso di Midjourney. Il team ha mantenuto un po’ di riserbo su background e formazione.
Tuttavia, è probabile che Midjourney utilizzi un sistema text-to-image simile sia a DALL-E 2 che a Stable Diffusion. A questi modelli è stato insegnato il rapporto condiviso tra un'immagine e il testo utilizzato per descriverla. A tal fine, sono state utilizzate milioni di coppie immagine-testo presenti su Internet.
La maggior parte dei generatori di immagini genera queste immagini attraverso un processo noto come “diffusione”. In sostanza, aggiungono rumore a un'immagine, riducendola a un “pasticcio pixelato”. Quindi imparano a recuperare questi dati invertendo il processo di rumorosità.
Questo viene ripetuto più e più volte, addestrando il modello ad aggiungere e rimuovere rumore continuamente. Il modello può quindi applicare anche il processo di “denoising” per creare immagini realistiche apportando piccole variazioni all'immagine esistente.
Come utilizzare Midjourney
Credits Ascannio / Shutterstock.com
Midjourney funziona in modo leggermente diverso dalla maggior parte generatori di immagini. Sebbene sia possibile partecipare alla beta tramite il sito Web dell'azienda, l'utilizzo del software richiede un account Discord, un servizio di chat vocale e di testo online gratuito che consente a migliaia di utenti di incontrarsi e parlare.
Dopo l’ingresso nella beta di Midjourney, si otterrà un invito a partecipare al server Discord dove si potrà comunicare con il bot per creare immagini. Basta utilizzare comandi semplici e non è richiesta alcuna esperienza di codifica.
Il fondatore David Holz ha precisato: "Vogliamo solo che sia facile da usare e vogliamo che le immagini abbiano un bell'aspetto"
A partire da aprile 2023, il laboratorio ha temporaneamente chiuso l’accesso di prova gratuito a causa dell'elevata domanda e dell'abuso di prova. Quindi, ora offre solo un servizio di abbonamento a pagamento.
Per creare immagini usando Midjourney, basta digitare il comando "/imagine" seguito dal prompt desiderato. Il bot risponderà con quattro versioni del prompt entro un minuto. Si può scegliere di ottenere versioni alternative di una qualsiasi di queste immagini o di eseguire l'upscaling di una di esse in un'immagine più grande e di qualità superiore.
Per fare pratica, è disponibile anche una minuziosa guida online (https://docs.midjourney.com/docs/quick-start).
AI Art generator al centro della bufera sul copyright
Credits salarko / Shutterstock.com
Come i suoi concorrenti, Midjourney non è esente da critiche. Anzitutto ha meno limitazioni, quindi impedisce agli utenti di creare immagini cruente o contenuti sessuali, ma non ha regole contro le immagini che mostrano malattie e disturbi, contenuti politici o immagini di personaggi pubblici.
Molto sentite ultimamente sono le preoccupazioni sul copyright, soprattutto perché il fondatore ha ammesso di non aver chiesto il consenso degli artisti sulle cui opere il modello è stato allenato.
Con milioni di immagini necessarie per un modello di queste dimensioni, ciò significherebbe milioni di violazioni del copyright. Ciò ha portato sia Midjourney che Stability AI che DeviantArt ad essere coinvolte in una causa intentata da un team di artisti.
In futuro, il generatore di immagini spera di poter offrire agli artisti la possibilità di scegliere di non utilizzare le loro immagini. La sfida ora è scoprire quali sono le regole e come capire se una persona è davvero l'artista di un'opera o semplicemente ci ha messo il proprio nome.
Recentemente il team ha annunciato che è in procinto di lanciare una rivista che conterrà una selezione di opere d'arte curate dalle 10.000 immagini più apprezzate. Ci saranno anche interviste con i membri della comunità, con tanto di suggerimenti su come usare il generatore di immagini.
Per saperne di più: Intelligenza Artificiale: cos'è e cosa può fare per noi