Le metriche possono ingannare, ma gli occhi no questo metodo di intelligenza artificiale propone una metrica di qualità percettiva per l’interpolazione dei fotogrammi video

Le metriche possono ingannare, ma non gli occhi. Questo metodo di intelligenza artificiale propone una metrica percettiva per l'interpolazione dei fotogrammi video.

Il progresso nella tecnologia degli schermi ha reso la nostra esperienza visiva più intensa e piacevole. Guardare qualcosa in 4K 60FPS è estremamente soddisfacente rispetto a 1080P 30FPS. Il primo ti immerge nel contenuto come se lo stessi vivendo. Tuttavia, non tutti possono godere di questo contenuto in quanto non è facilmente accessibile. Un minuto di video 4K 60FPS costa circa 6 volte di più rispetto a 1080P 30FPS in termini di dati, il che non è accessibile a molti utenti.

Tuttavia, è possibile affrontare questo problema aumentando la risoluzione e/o il frame rate del video trasmesso. I metodi di super risoluzione affrontano l’aumento della risoluzione del video, mentre i metodi di interpolazione video si concentrano sull’aumento del numero di fotogrammi all’interno del video.

L’interpolazione dei fotogrammi video viene utilizzata per aggiungere nuovi fotogrammi in una sequenza video stimando il movimento tra i fotogrammi esistenti. Questa tecnica è stata ampiamente utilizzata in diverse applicazioni, come video in slow motion, conversione del frame rate e compressione video. Il video risultante di solito appare più piacevole.

Negli ultimi anni, la ricerca sull’interpolazione dei fotogrammi video ha fatto progressi significativi. Possono generare fotogrammi intermedi in modo abbastanza accurato e offrire un’esperienza visiva piacevole.

Tuttavia, misurare la qualità dei risultati di interpolazione è stata una sfida difficile per anni. I metodi esistenti utilizzano principalmente metriche standard per misurare la qualità dei risultati di interpolazione. Poiché i risultati di interpolazione dei fotogrammi video spesso presentano artefatti unici, le metriche di qualità esistenti talvolta non sono coerenti con la percezione umana nella misurazione dei risultati di interpolazione.

Alcuni metodi hanno condotto test soggettivi per ottenere misurazioni più accurate, ma ciò richiede molto tempo, ad eccezione di alcuni metodi che utilizzano studi degli utenti. Quindi, come possiamo misurare accuratamente la qualità del nostro metodo di interpolazione video? È ora di rispondere a questa domanda.

Artefatti unici causati dall’interpolazione video. Fonte: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

Un gruppo di ricercatori ha presentato una metrica di qualità percettiva dedicata per misurare i risultati di interpolazione dei fotogrammi video. Hanno progettato un’architettura di rete neurale innovativa per la valutazione della qualità percettiva dei video basata sui Swin Transformers.

La rete prende in input una coppia di fotogrammi, uno dalla sequenza video originale e uno fotogramma interpolato. Restituisce uno score che rappresenta la similarità percettiva tra i due fotogrammi. Il primo passo per ottenere questo tipo di rete è stato preparare un dataset, ed è da lì che hanno iniziato. Hanno creato un ampio dataset di similarità percettiva di interpolazione dei fotogrammi video. Questo dataset contiene coppie di fotogrammi da vari video, insieme a giudizi umani sulla loro similarità percettiva. Questo dataset viene utilizzato per addestrare la rete utilizzando una combinazione di metriche di obiettività L1 e SSIM.

Struttura di rete proposta. Fonte: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

La perdita L1 misura la differenza assoluta tra lo score previsto e lo score di ground truth, mentre la perdita SSIM misura la similarità strutturale tra due immagini. Combinando queste due perdite, la rete viene addestrata a predire punteggi che sono accurati e coerenti con la percezione umana. Un vantaggio principale del metodo proposto è che non si basa su fotogrammi di riferimento; quindi, può essere eseguito su dispositivi client dove di solito non abbiamo queste informazioni disponibili.