L’IA di Deblur di Google Rendi nitide le tue immagini

L'IA di Deblur di Google rende nitide le immagini

Dì addio alle immagini sfocate. La nuova tecnica di Google sblocca il vero potenziale della fotocamera del tuo telefono.

Immagine di Autore

Introduzione

Nella nostra epoca digitale in continua evoluzione, in cui catturare e condividere momenti attraverso la fotografia è diventato parte integrante delle nostre vite, la frustrazione di ottenere immagini sfocate può essere sconcertante. Che si tratti di una foto di famiglia preziosa, di un paesaggio mozzafiato o di un istante speciale, le immagini sfocate possono ridurre l’impatto visivo e privarci della chiarezza desiderata.

Ma non temere. La nuova metodologia di Google offre un modo per catturare immagini nitide direttamente dal tuo telefono. La maggior parte dei telefoni di oggi è dotata di telecamere multiple. Utilizzando una singola cattura da due telecamere diverse, Google utilizza un post-processing apprendibile per mettere a fuoco le immagini sfocate. Utilizzando la stessa scena catturata contemporaneamente utilizzando una telecamera grandangolare (W) e una telecamera ultra-grandangolare (UW), il metodo mira a combinare entrambe per ottenere risultati più nitidi.

Architettura

Immagine da Paper

Il modello DFNet riceve gli scatti grandangolari e ultra-grandangolari della stessa scena come input, insieme alle loro mappe di sfocatura. L’input e la mappa di sfocatura target rappresentano l’offuscamento dell’immagine originale e di quella di output, in cui il valore di ogni pixel è proporzionale alla sfocatura del pixel corrispondente dell’immagine.

Dato che le immagini ultra-grandangolari e ultra-grandangolari sono estremamente diverse, con profondità di campo, simmetria, messa a fuoco e colori variabili, combinare queste immagini non è un compito banale. Pertanto, Google introduce una metodologia basata sull’apprendimento per unire queste immagini.

Il modello utilizza l’immagine grandangolare come immagine di base, dove l’immagine ultra-grandangolare viene utilizzata come riferimento per i dettagli ad alta frequenza. Il modello mira a mescolare entrambe le immagini, seguendo le mappe di sfocatura fornite, in modo che l’output sia un’immagine non sfocata.

Al momento del test, è possibile modificare facilmente la mappa di sfocatura target per sfocare diverse parti dell’immagine come richiesto.

Immagine da Paper

Come mostrato, per generare immagini completamente nitide, è possibile impostare la mappa di sfocatura su tutti zeri. Questo motiva il modello a mettere a fuoco tutte le parti dell’immagine. In altri casi, porzioni specifiche dell’immagine possono essere messe a fuoco in base alla mappa di sfocatura fornita al momento del test.

Risultati

Raggiungendo un punteggio PSNR e SSIM rispettivamente di 29,78 e 0,898, il metodo di post-processing supera i metodi precedenti sia nell’analisi qualitativa che quantitativa.

Immagine da Paper
Immagine da Paper

I risultati mostrano i risultati all’avanguardia dei metodi precedenti e il DFNet di Google, che ottiene una maggiore nitidezza e dettagli rispetto ai suoi predecessori.

Il modello ha potenziali utilizzi nei domini del refocus delle immagini, nel controllo della profondità di campo (DoF) e nel re-rendering e sgranatura dell’immagine.

Limitazioni

Necessità di telecamere multiple

Il modello utilizza telecamere grandangolari e ultra-grandangolari che forniscono riferimenti per dettagli ad alta frequenza. Entrambe le immagini devono avere diverse profondità di campo, concentrandosi su diverse parti della scena. Le immagini catturate da telecamere identiche non saranno in grado di replicare tali risultati. Inoltre, esiste una dipendenza significativa dai telefoni con doppia telecamera e il ripristino dell’immagine non è possibile con un singolo input di immagine.

Generazione del dataset

È difficile avere un dataset di immagini catturate utilizzando angoli ampi e ultra-ampi che siano ampiamente disponibili. È anche impossibile generare sinteticamente tali dataset aggiungendo una sfocatura gaussiana alle immagini che possa replicare il rumore in scenari reali. Per ridurre la differenza di dominio, gli autori hanno catturato 100 pile di immagini per questo metodo.

Dipendenza da metodi preesistenti

La parte di preelaborazione dei dati è una necessità per generare mappe di defocus, insieme a maschere di profondità e occlusione. La preelaborazione utilizza algoritmi preesistenti di flusso ottico e profondità stereo che sono noti per generare artefatti gravi, con conseguente degrado delle immagini di output.

Conclusioni

Addio sfocature. Metti fine alle immagini sfocate con il recente avanzamento di Google nella ripristinazione delle immagini. Se incorporato nell’intelligenza artificiale dietro le fotocamere dei telefoni, possiamo vedere un mondo perfetto ogni giorno, attraverso i nostri telefoni.

Considera la lettura del paper per una comprensione dettagliata.

Paper: https://defocus-control.github.io/static/dc2_paper.pdf

Seguimi se ti è piaciuto questo articolo e vuoi saperne di più sull’apprendimento automatico e sugli ultimi avanzamenti nella comunità di ricerca.