Di cosa è composto DALL·E 3? (Il MIGLIORE modello di testo-immagine di OpenAI)

La composizione della rete neurale di DALL·E 3 Il miglior modello di testo-immagine di OpenAI

Migliorare la generazione di immagini con migliori didascalie

Originariamente pubblicato su louisbouchard.ai, leggilo 2 giorni prima sul mio blog!

Guarda il video:

L’anno scorso siamo rimasti sbalorditi da DALL·E 2, il primo modello di generazione di immagini da testo di OpenAI che ha impressionato molto. Ma oggi preparatevi a entrare in un mondo in cui l’arte e la tecnologia si fondono come mai prima d’ora con la sua terza versione!

Scopriamo DALL·E 3 con un nuovo articolo rilasciato da OpenAI e scopriamo gli sviluppi che lo pongono molto avanti rispetto a DALL·E 2!

In un ambiente fantastico, un'elegante puzzola umanoide con pelliccia dettagliatissima e sguardo penetrante si pone con sicurezza in posa per una foto VoAGI, indossando una giacca di pelli animali. L'artista ha reso il personaggio in maniera magistrale nell'arte digitale, catturando i dettagli intricati della pelliccia e la texture dei vestiti. Immagine e didascalia tratte dall'articolo.

Addestrato su didascalie di immagini generate altamente descrittive, DALL·E 3 non si limita a seguire gli input, ma dà loro vita. I risultati sono incredibili, e non solo capisce gli input, ma comprende anche la storia che si nasconde dietro ad essi. Il progresso rispetto al 2020 è semplicemente incredibile.

Risultati di DALLE 1. Immagine tratta dall'articolo di OpenAI: A. Ramesh et al., Generazione di immagini da testo senza supervisione, 2021. arXiv:2102.12092.

Al cuore dell’abilità di DALL·E 3 c’è un robusto software di didascalie per immagini. Tutto ruota attorno alle didascalie delle immagini, quindi il testo viene inserito durante l’addestramento insieme all’immagine che dovrebbe essere in grado di generare. Questo nuovo software di didascalie per immagini è il principale fattore che rende DALLE 3 molto migliore di DALLE 2. Modelli precedenti venivano addestrati inizialmente in modo auto-supervisionato con coppie di immagini e testo prese da internet. Immagina una foto su Instagram e la sua didascalia o hashtag. Non sempre sono informative o addirittura correlate. Gli autori dell’articolo descrivono principalmente il soggetto principale nella foto, non l’intera storia dietro di essa o l’ambiente e il testo che appare nell’immagine insieme al soggetto principale. Inoltre, non specificano dove si trova tutto nell’immagine, informazione utile per garantire la ricreazione accurata di un’immagine simile. Ancora peggio, molte didascalie sono solo battute o pensieri non correlati o poesie condivise insieme alle immagini. A questo punto, addestrarsi con tali…