Questo articolo sull’Intelligenza Artificiale (AI) dalla Corea del Sud propone FFNeRV una nuova rappresentazione dei video frame-per-frame utilizzando mappe di flusso frame-per-frame e griglie temporali a multi-risoluzione.
Questo articolo presenta FFNeRV, una nuova rappresentazione dei video frame-per-frame utilizzando mappe di flusso e griglie temporali a multi-risoluzione.
La ricerca sui campi neurali, che rappresentano segnali mappando coordinate alle loro quantità (ad esempio, scalari o vettori) con reti neurali, è recentemente esplosa. Ciò ha suscitato un interesse crescente nell’utilizzare questa tecnologia per gestire una varietà di segnali, tra cui audio, immagini, forme 3D e video. Il teorema di approssimazione universale e le tecniche di codifica delle coordinate forniscono le basi teoriche per una rappresentazione accurata dei segnali dei campi cerebrali. Indagini recenti ne hanno dimostrato l’adattabilità nella compressione dei dati, nei modelli generativi, nella manipolazione dei segnali e nella rappresentazione di base dei segnali.
La ricerca sui campi neurali, che rappresentano segnali mappando coordinate alle loro quantità (ad esempio, scalari o vettori) con reti neurali, è recentemente esplosa. Ciò ha suscitato un interesse crescente nell’utilizzare questa tecnologia per gestire una varietà di segnali, tra cui audio, immagini, forme 3D e video. Il teorema di approssimazione universale e le tecniche di codifica delle coordinate forniscono le basi teoriche per una rappresentazione accurata dei segnali dei campi cerebrali. Indagini recenti ne hanno dimostrato l’adattabilità nella compressione dei dati, nei modelli generativi, nella manipolazione dei segnali e nella rappresentazione di base dei segnali.
Ogni coordinata temporale è rappresentata da un frame video creato da una serie di strati MLP e convoluzionali. Rispetto alla progettazione di base dei campi neurali, il nostro metodo riduce considerevolmente il tempo di codifica e supera le tecniche comuni di compressione video. Questo paradigma è seguito dall’E-NeRV recentemente suggerito, migliorando anche la qualità dei video. Come mostrato nella figura 1, offrono rappresentazioni neurali guidate dal flusso frame-wise per i film (FFNeRV). Incorporano flussi ottici nella rappresentazione frame-wise per utilizzare la ridondanza temporale, prendendo ispirazione dai comuni codec video. Combinando i frame vicini guidati dai flussi, FFNeRV crea un frame video che impone il riutilizzo dei pixel dei frame precedenti. Incentivando la rete a evitare di ricordare nuovamente gli stessi valori dei pixel attraverso i frame, si migliora notevolmente l’efficienza dei parametri.
- Incontra Rodin un nuovo framework di intelligenza artificiale (AI) per generare avatar digitali 3D da diverse fonti di input
- Dove sono tutte le donne?
- Potenziare l’IA su dispositivo Qualcomm e Meta collaborano con la tecnologia Llama 2
FFNeRV supera gli algoritmi alternativi frame-wise nella compressione video e nell’interpolazione dei frame, secondo i risultati sperimentali sul dataset UVG. Suggeriscono di utilizzare griglie temporali a risoluzione multipla con una risoluzione spaziale fissa al posto dei MLP per mappare le coordinate temporali continue alle corrispondenti caratteristiche latenti per migliorare ulteriormente le prestazioni di compressione. Questo è motivato dalle rappresentazioni neurali basate su griglia. Inoltre, suggeriscono di utilizzare un’architettura convoluzionale più condensata. Utilizzano convoluzioni di gruppo e punto in rappresentazioni di flusso frame-wise raccomandate, guidate da modelli generativi che producono immagini di alta qualità e reti neurali leggere. FFNeRV supera i popolari codec video (H.264 e HEVC) e si comporta allo stesso livello degli algoritmi di compressione video all’avanguardia utilizzando l’addestramento consapevole della quantizzazione e la codifica di entropia. L’implementazione del codice si basa su NeRV ed è disponibile su GitHub.