Ricercatori dell’Università di Nankai e ByteDance presentano ‘ChatAnything’ un nuovo framework di intelligenza artificiale dedicato alla generazione di personalità migliorata da LLM.

Ricercatori dell'Università di Nankai e ByteDance presentano 'ChatAnything' un nuovo framework di intelligenza artificiale per una personalità migliorata grazie a LLM.

Un team di ricercatori dell’Università di Nankai e ByteDance ha presentato un nuovo framework chiamato ChatAnything, progettato per generare personaggi antropomorfi basati su modelli di linguaggio (LLM) in modo online. L’obiettivo è creare personaggi con aspetto visuale, personalità e toni personalizzati basati esclusivamente su descrizioni testuali. I ricercatori sfruttano la capacità di apprendimento in contesto dei LLM per generare personalità utilizzando prompt di sistema appositamente progettati. Proposono due concetti innovativi: la miscela di voci (MoV) e la miscela di diffusori (MoD) per la generazione di voci diverse e l’aspetto.

MoV utilizza algoritmi di sintesi vocale (TTS) con toni predefiniti, selezionando quello più adatto in base alle descrizioni testuali fornite dall’utente. MoD combina tecniche di generazione di testo-immagine e algoritmi di talking head per semplificare il processo di generazione di oggetti parlanti. Tuttavia, i ricercatori hanno riscontrato una sfida in cui gli oggetti antropomorfi generati dai modelli attuali sono spesso indistinguibili dai rilevatori di punti di riferimento del viso pre-addestrati, portando a un fallimento nella generazione del movimento del viso. Per affrontare questo problema, incorporano una guida a livello di pixel durante la generazione dell’immagine per infondere i punti di riferimento del viso umano. Questa iniezione a livello di pixel aumenta significativamente il tasso di rilevamento dei punti di riferimento del viso, consentendo l’animazione automatica in base al contenuto vocale generato.

Nel documento vengono discusse le recenti innovazioni nei modelli di linguaggio (LLM) e le loro capacità di apprendimento in contesto, posizionandoli al centro delle discussioni accademiche. I ricercatori sottolineano la necessità di un framework che generi persone migliorare con personalità, voci e aspetto visivo personalizzati. Per la generazione della personalità, sfruttano la capacità di apprendimento in contesto dei LLM, creando un pool di moduli vocali utilizzando API di sintesi vocale (TTS). Il modulo di miscela di voci (MoV) seleziona i toni in base agli input testuali dell’utente.

L’aspetto visuale dei movimenti e delle espressioni basate sulla voce viene affrontato utilizzando algoritmi recenti di talking head. Tuttavia, i ricercatori affrontano sfide nell’utilizzo di immagini generate da modelli di diffusione come input per i modelli di talking head. Solo il 30% delle immagini è rilevabile dai modelli di talking head all’avanguardia, indicando un’errata distribuzione. Per colmare questa lacuna, i ricercatori propongono un metodo di generazione con zero-shot, iniettando punti di riferimento del viso durante la fase di generazione dell’immagine.

Il framework proposto ChatAnything comprende quattro blocchi principali: modulo di controllo basato su LLM, inizializzatore di ritratti, miscela di moduli di sintesi vocale e modulo di generazione del movimento. I ricercatori hanno incorporato modelli di diffusione, cambiatori di voce e controllo strutturale per creare un sistema modulare e flessibile. Per validare l’efficacia della diffusione guidata, i ricercatori hanno creato un dataset di validazione con prompt di diverse categorie. Utilizzano un rilevatore di punti chiave del viso pre-addestrato per valutare i tassi di rilevamento dei punti di riferimento del viso, dimostrando l’impatto del loro metodo proposto.

I ricercatori presentano un framework completo, ChatAnything, per la generazione di personaggi migliorati con LLM con caratteristiche antropomorfe. Affrontano le sfide nella rilevazione dei punti di riferimento del viso e propongono soluzioni innovative, presentando risultati promettenti nel loro dataset di validazione. Questo lavoro apre possibilità per future ricerche nell’integrazione di modelli generativi con algoritmi di talking head e nel miglioramento dell’allineamento delle distribuzioni dei dati.