Prossima generazione di reti neurali la ricerca di NVIDIA annuncia una serie di progressi nell’IA a NeurIPS

La prossima generazione di reti neurali la ricerca di NVIDIA annuncia importanti progressi nell'IA a NeurIPS

I ricercatori di NVIDIA collaborano con centri accademici in tutto il mondo per sviluppare l’AI generativa, la robotica e le scienze naturali – e più di una dozzina di questi progetti saranno condivisi a NeurIPS, una delle principali conferenze mondiali sull’AI.

In programma dal 10 al 16 dicembre a New Orleans, NeurIPS riunisce esperti di AI generativa, apprendimento automatico, visione artificiale e altro ancora. Tra le innovazioni che NVIDIA Research presenterà ci sono nuove tecniche per trasformare il testo in immagini, le foto in avatar 3D e i robot specializzati in macchine polifunzionali.

“La ricerca di NVIDIA continua a fare progressi in tutti i settori – compresi i modelli di AI generativa che trasformano il testo in immagini o in discorsi, gli agenti autonomi che imparano nuovi compiti più velocemente e le reti neurali che calcolano la fisica complessa”, ha dichiarato Jan Kautz, vicepresidente della ricerca sull’apprendimento e la percezione presso NVIDIA. “Questi progetti, spesso realizzati in collaborazione con le migliori menti del mondo accademico, contribuiranno ad accelerare lo sviluppo di mondi virtuali, simulazioni e macchine autonome.”

Immagina Questo: Miglioramento dei Modelli di Diffusione Testo-Immagine

I modelli di diffusione sono diventati il tipo più popolare di modelli di AI generativa per trasformare il testo in immagini realistiche. I ricercatori di NVIDIA hanno collaborato con università su vari progetti di miglioramento dei modelli di diffusione che saranno presentati a NeurIPS.

  • Un articolo accettato come presentazione orale si concentra sul miglioramento della capacità dei modelli di AI generativa di comprendere il legame tra le parole modificate e le entità principali nei suggerimenti di testo. Mentre i modelli di testo-immagine esistenti chiedono di raffigurare un pomodoro giallo e un limone rosso, potrebbero generare erroneamente immagini di limoni gialli e pomodori rossi. Il nuovo modello analizza la sintassi del suggerimento dell’utente, incoraggiando un legame tra un’entità e i suoi modificatori per fornire una rappresentazione visiva più fedele del suggerimento.
  • SceneScape, un nuovo framework che utilizza modelli di diffusione per creare lunghi video di scene 3D da suggerimenti di testo, sarà presentato come poster. Il progetto combina un modello di testo-immagine con un modello di previsione della profondità che aiuta i video a mantenere scene plausibili e una coerenza tra i fotogrammi, generando video di musei d’arte, case stregate e castelli di ghiaccio (rappresentati sopra).
  • Un altro poster descrive un lavoro che migliora il modo in cui i modelli di testo-immagine generano concetti raramente presenti nei dati di addestramento. I tentativi di generare tali immagini di solito producono visualizzazioni di bassa qualità che non corrispondono esattamente ai suggerimenti dell’utente. Il nuovo metodo utilizza un piccolo insieme di immagini di esempio che aiutano il modello a identificare buoni semi, sequenze di numeri casuali che guidano l’AI nella generazione di immagini delle classi rare specificate.
  • Un terzo poster mostra come un modello di diffusione testo-immagine possa utilizzare la descrizione testuale di una nuvola di punti incompleta per generare le parti mancanti e creare un modello 3D completo dell’oggetto. Questo potrebbe aiutare a completare i dati di nuvole di punti raccolti da scanner lidar e altri sensori di profondità per applicazioni di robotica e AI per veicoli autonomi. Le immagini raccolte sono spesso incomplete perché gli oggetti vengono acquisiti da un angolo specifico, ad esempio un sensore lidar montato su un veicolo acquisirebbe solo un lato di ogni edificio mentre l’auto percorre una strada.

Sviluppo del Personaggio: Progressi negli Avatar di AI

Gli avatar di AI combinano più modelli di AI generativa per creare e animare personaggi virtuali, produrre testi e convertirli in discorsi. Due poster di NVIDIA a NeurIPS presentano nuovi modi per rendere queste operazioni più efficienti.

  • Un poster descrive un nuovo metodo per trasformare un’unica immagine di ritratto in un avatar di testa 3D catturando dettagli come acconciature e accessori. A differenza dei metodi attuali che richiedono più immagini e un processo di ottimizzazione che richiede tempo, questo modello ottiene una ricostruzione 3D di alta fedeltà senza ulteriori ottimizzazioni durante l’inferenza. Gli avatar possono essere animati sia con blendshapes, che sono rappresentazioni di mesh 3D utilizzate per rappresentare diverse espressioni facciali, sia con un video di riferimento in cui le espressioni facciali e il movimento di una persona vengono applicati all’avatar.
  • Un altro poster dei ricercatori di NVIDIA e dei collaboratori universitari sviluppa la sintesi del testo in discorso senza supervisione con P-Flow, un modello di AI generativa che può sintetizzare rapidamente un discorso personalizzato di alta qualità dato un prompt di riferimento di tre secondi. P-Flow offre una migliore pronuncia, una somiglianza umana e una similarità dello speaker rispetto ai suoi concorrenti di punta attuali. Il modello può convertire quasi istantaneamente il testo in discorso su un singolo GPU Tensor Core NVIDIA A100.

Scoperte innovative nella Reinforcement Learning, Robotica

Nel campo del reinforcement learning e della robotica, i ricercatori di NVIDIA presenteranno due poster che evidenziano innovazioni in grado di migliorare la generalizzabilità dell’IA in diversi compiti e ambienti.

  • Il primo propone un framework per lo sviluppo di algoritmi di reinforcement learning in grado di adattarsi a nuovi compiti evitando i comuni problemi di polarizzazione del gradiente e inefficienza dei dati. I ricercatori hanno dimostrato che il loro metodo, che presenta un nuovo meta-algoritmo in grado di creare una versione robusta di qualsiasi modello di meta-reinforcement learning, si è comportato bene su più compiti di benchmark.
  • Un altro poster presentato da un ricercatore di NVIDIA e collaboratori universitari affronta la sfida della manipolazione degli oggetti nella robotica. I modelli di intelligenza artificiale precedentemente sviluppati per aiutare le mani robotiche a prendere e interagire con gli oggetti erano in grado di gestire forme specifiche, ma avevano difficoltà con gli oggetti non presenti nei dati di allenamento. I ricercatori hanno introdotto un nuovo framework che stima la somiglianza geometrica tra oggetti di diverse categorie, come i maniglioni delle cassettiere e dei coperchi delle pentole, permettendo al modello di generalizzare più rapidamente a nuove forme.

Potenziamento della Scienza: Fisica Accelerata dall’IA, Climatologia, Cura della Salute

I ricercatori di NVIDIA alla conferenza NeurIPS presenteranno anche articoli riguardanti le scienze naturali, che copriranno simulazioni fisiche, modelli climatici e IA per la cura della salute.

  • Per accelerare la dinamica dei fluidi computazionale per simulazioni 3D su larga scala, un team di ricercatori di NVIDIA ha proposto un’architettura operatore neurale che combina precisione ed efficienza computazionale per stimare il campo di pressione intorno ai veicoli: è il primo metodo di dinamica dei fluidi basato su deep learning su un benchmark automobilistico di larga scala a livello industriale. Il metodo ha ottenuto un’accelerazione di 100.000 volte su una singola GPU NVIDIA Tensor Core rispetto a un altro solutore basato su GPU, riducendo al contempo il tasso di errore. I ricercatori possono incorporare il modello nelle proprie applicazioni utilizzando la libreria open-source neuraloperator.

 

  • Un consorzio di scienziati del clima e ricercatori di apprendimento automatico provenienti da università, laboratori nazionali, istituti di ricerca, Allen AI e NVIDIA hanno collaborato a ClimSim, un enorme dataset per la ricerca climatica basata su fisica e machine learning, che sarà condiviso in una presentazione orale a NeurIPS. Il dataset copre il globo su diversi anni con alta risoluzione – gli emulatori di machine learning costruiti utilizzando questi dati possono essere collegati a simulatori climatici operativi esistenti per migliorarne la fedeltà, l’accuratezza e la precisione. Questo può aiutare gli scienziati a produrre previsioni migliori su tempeste ed altri eventi estremi.
  • Gli stagisti della ricerca NVIDIA presenteranno un poster che introduce un algoritmo di IA che fornisce previsioni personalizzate sugli effetti della dosaggio dei farmaci sui pazienti. Utilizzando dati del mondo reale, i ricercatori hanno testato le previsioni del modello sulla coagulazione del sangue per pazienti sottoposti a dosaggi diversi di un trattamento. Hanno anche analizzato le previsioni del nuovo algoritmo sui livelli di vancomicina, antibiotico somministrato ai pazienti, e hanno riscontrato un significativo miglioramento dell’accuratezza rispetto ai metodi precedenti.

La ricerca di NVIDIA comprende centinaia di scienziati e ingegneri in tutto il mondo, con team focalizzati su argomenti come l’IA, la grafica computerizzata, la visione artificiale, le auto a guida autonoma e la robotica.