Avremo presto il nostro personale AI Movie Buddy?

Avremo presto il nostro AI Movie Buddy?

Video-LLaMA 🦙 spiegato nel paper.

Se stiamo chattando durante o dopo un film, sappiamo entrambi che ci piace parlare dei film che amiamo. Ma quanto siamo lontani dal farlo con l’intelligenza artificiale? Sfruttando potenti LLM come LLaMA [1], Video-LLaMA [2] ci sta avvicinando un passo alla realtà di parlare dei contenuti video. Alla fine di questo post del blog, saprai come Video-LLaMA gestisce il contenuto visivo e uditivo dei video e quali trucchi gli autori hanno usato per addestrare il modello. Ma imparerai anche le sfide nel trattare i dati video.

Risultati

Quindi, cosa riesce a fare nello specifico Video-LLaMA?

Riesce con successo a permetterti di inserire un video e non solo chiedere del suo contenuto visivo ma anche di ciò che il modello può udire nel video!

Grazie alla sua architettura, il modello può anche gestire immagini statiche, ad esempio descrivendole in modo dettagliato o comprendendo il concetto di “insolito” e descrivendo ciò che specificamente è insolito nella scena corrispondente. Questa capacità viene notevolmente potenziata dalle già esistenti capacità di ragionamento dei moderni LLM utilizzati, come LLaMA.

Architettura

La descrizione delle immagini, o più in generale, i modelli Immagine-testo come Flamingo [3], LLaVa [4], BLIP2 [5], Kosmos-1 [6] e -2 [7], utilizzano tutti generalmente un codificatore di visione come un ViT per incorporare un’immagine singola in una sequenza di embedding e quindi cercano di allineare questi con un LLM. Ma con i video, non abbiamo un’unica immagine ma una sequenza di immagini e abbiamo una sequenza audio corrispondente. Quindi, come possiamo incorporare un intero video? Beh, onestamente, più o meno allo stesso modo.

Avremo presto il nostro personale AI Movie Buddy?

Avremo presto il nostro AI Movie Buddy?

Video-LLaMA 🦙 spiegato nel paper.

Risultati

Architettura

Tutto ciò di cui hai bisogno per diventare un Data Scientist certificato SAS

Annunciamo il nuovo Certificato Fondamentale di IA Generativa

Comprensione degli algoritmi di Machine Lea...

Chatbot AI costruiscono software in pochi m...

4 Modi per Codificare le Caratteristiche Ca...

Machine Learning ispirato agli Indigos come...

3 Migliori (Spesso Migliori) Alternative ag...

Una guida completa ai database di vettori P...

AI