Incontra Prompt Diffusion Un framework di intelligenza artificiale per consentire l’apprendimento contestuale nei modelli generativi basati sulla diffusione

Prompt Diffusion è un framework di intelligenza artificiale per l'apprendimento contestuale nei modelli generativi basati sulla diffusione.

I modelli di linguaggio di grandi dimensioni (LLM) all’avanguardia, tra cui BERT, GPT-2, BART, T5, GPT-3 e GPT-4, sono stati sviluppati come risultato dei recenti progressi nell’apprendimento automatico, in particolare nell’ambito dell’elaborazione del linguaggio naturale (NLP). Questi modelli sono stati utilizzati efficacemente per varie attività, tra cui la produzione di testi, la traduzione automatica, l’analisi dei sentimenti e la risposta alle domande. La loro capacità di apprendere dal contesto, spesso nota come apprendimento in contesto, è uno dei comportamenti emergenti di questi LLM. Senza ottimizzare i parametri del modello, LLM con capacità di apprendimento in contesto, come GPT-3, possono completare un lavoro condizionandosi su campioni di input-output e nuovi input di query.

La pre-formazione di numerosi compiti linguistici può essere combinata con l’apprendimento in contesto e una struttura di prompt ben progettata, consentendo a LLM di generalizzare con successo a attività che non hanno mai incontrato. Sebbene l’apprendimento in contesto sia stato ampiamente studiato in NLP, esistono poche applicazioni nella visione artificiale. Ci sono due difficoltà significative nel dimostrare la praticità e la promessa dell’apprendimento in contesto come tecnica standard per le grandi applicazioni di visione: 1) Creare un prompt di visione efficace è più difficile rispetto alla creazione di prompt per attività linguistiche perché richiede sia coppie di input-output specifiche del dominio come esempi che ricerche di immagini come criteri. 2) Nella visione artificiale, spesso si addestrano modelli di grandi dimensioni per compiti specializzati, tra cui la generazione di testo-immagine, la creazione condizionale di classi, la segmentazione, la rilevazione e la classificazione.

Questi enormi modelli di visione devono essere più flessibili per adattarsi a nuovi compiti e non sono stati progettati per l’apprendimento in contesto. Diversi recenti tentativi affrontano queste questioni utilizzando le risposte del NLP. In particolare, quando viene creato un segnale visivo fondamentale unendo fotografie campione, immagini di query e immagini di output in un unico grande insieme, viene addestrato un modello di riempimento immagine basato su Transformer per anticipare le immagini di output mascherate. Tuttavia, l’unione di immagini di grandi dimensioni comporterà un aumento significativo del costo computazionale, soprattutto in scenari ad alta risoluzione. Questo lavoro affronta il potenziale apprendimento in contesto di modelli generativi basati sulla diffusione guidata dal testo affrontando queste due questioni.

Per eseguire l’apprendimento in contesto tramite un prompt visione-linguaggio in grado di gestire una vasta gamma di attività visione-linguaggio, i ricercatori di Microsoft e UT Austin presentano un’architettura di modello innovativa chiamata Prompt Diffusion. Prompt Diffusion viene sottoposto a sei compiti visione-linguaggio separati in tandem. In particolare, utilizzano il loro prompt visione-linguaggio per descrivere un compito visione-linguaggio generico. Quindi, utilizzando i design Stable Diffusion e ControlNet come ispirazione, costruiscono Prompt Diffusion, che può utilizzare il loro prompt visione-linguaggio come input. Suggeriscono Prompt Diffusion come primo passo per abilitare la capacità di apprendimento in contesto dei modelli di diffusione guidati dal testo. Può quindi utilizzare questa conoscenza per creare l’immagine di output ri-mappando la connessione sull’immagine di query e includendo le istruzioni del linguaggio. In modo più importante, l’apprendimento su molti compiti dota il modello della capacità di apprendimento in contesto. Prompt Diffusion può generalizzare con successo su diverse nuove funzioni che non sono ancora state osservate. Questo, oltre a svolgere bene i sei compiti visti durante l’addestramento.

Empiricamente, Prompt Diffusion si comporta bene su compiti familiari e nuovi, non visti, riguardanti l’apprendimento in contesto. Si prevede che l’efficacia di Prompt Diffusion ispirerà e stimolerà ulteriori studi sull’apprendimento visivo in contesto basato sulla diffusione. Di seguito è riportato un riassunto dei loro principali contributi:

• Un design all’avanguardia per i prompt visione-linguaggio che consente efficacemente la fusione di molte attività visione-linguaggio.

• Generazione di alta qualità in contesto sui compiti appresi e nuovi, non visti, utilizzando il modello di diffusione del prompt, il primo modello di base visione-linguaggio adattabile basato sulla diffusione capace di apprendimento in contesto.

• L’implementazione del codice Pytorch può essere trovata su GitHub.