Google Deblur AI Rendi nitide le tue immagini

Google Deblur AI rendi nitide le immagini

Dì addio alle immagini sfocate. La nuova tecnica di Google sblocca il vero potenziale della fotocamera del tuo telefono.

Immagine di autore

Introduzione

Nella nostra sempre più evoluta era digitale, in cui catturare e condividere momenti attraverso la fotografia è diventato una parte integrante delle nostre vite, la frustrazione di ottenere immagini sfocate può essere sconcertante. Che si tratti di una foto di famiglia preziosa, di un paesaggio mozzafiato o di un’istantanea di un’occasione speciale, le immagini sfocate possono ridurre l’impatto visivo e privarci della chiarezza desiderata.

Ma non temere. La nuova metodologia di Google offre un modo per ottenere immagini nitide direttamente dal tuo telefono. La maggior parte dei telefoni di oggi è dotata di fotocamere multiple. Utilizzando una singola cattura da due fotocamere diverse, Google utilizza un post-processing apprendibile per mettere a fuoco le immagini sfocate. Utilizzando la stessa scena catturata utilizzando una fotocamera grandangolare (W) e ultra-grandangolare (UW) contemporaneamente, il metodo mira a combinare entrambe per ottenere risultati più nitidi.

Architettura

Immagine da Paper

Il modello DFNet riceve gli scatti grandangolari e ultra-grandangolari della stessa scena in input, insieme alle mappe di sfocatura. L’input e la mappa di sfocatura di destinazione rappresentano la sfocatura dell’immagine originale e di quella in output, in cui ogni valore di pixel è proporzionale alla sfocatura del pixel dell’immagine corrispondente.

Dato che le immagini ultra-grandangolari e ultra-grandangolari sono estremamente diverse, con profondità di campo, simmetrie, messa a fuoco e colori variabili, combinare queste immagini non è un compito banale. Pertanto, Google introduce una metodologia basata sull’apprendimento per unire queste immagini.

Il modello prende l’immagine grandangolare come immagine di base, dove l’immagine ultra-grandangolare viene utilizzata come riferimento per i dettagli ad alta frequenza. Il modello mira a mescolare entrambe le immagini, seguendo le mappe di sfocatura fornite, in modo che l’output sia un’immagine sgranata.

Nel momento del test, è possibile cambiare facilmente la mappa di sfocatura di destinazione, per sgranare diverse parti dell’immagine come richiesto.

Immagine da Paper

Come mostrato, per generare immagini completamente nitide, possiamo impostare la mappa di sfocatura su tutti zeri. Ciò motiva il modello a sgranare tutte le parti dell’immagine. In altri casi, porzioni specifiche dell’immagine possono essere sgranate in base alla mappa di sfocatura fornita al momento del test.

Risultati

Raggiungendo un punteggio PSNR e SSIM rispettivamente di 29,78 e 0,898, il metodo di post-processing supera i metodi precedenti sia nell’analisi qualitativa che quantitativa.

Immagine da Paper
Immagine da Paper

I risultati mostrano i risultati all’avanguardia dei metodi precedenti e di DFNet di Google, che ottiene una maggiore nitidezza e dettagli rispetto ai suoi predecessori.

Il modello ha potenziali utilizzi nei domini del refocus dell’immagine, del controllo della profondità di campo (DoF) e del rerendering, e della sgranatura.

Limitazioni

Necessità di Fotocamere Multiple

Il modello utilizza fotocamere grandangolari e ultra-grandangolari che forniscono riferimenti per i dettagli ad alta frequenza. Entrambe le immagini devono avere diverse profondità di campo, mettendo a fuoco diverse parti della scena. Le immagini catturate da fotocamere identiche non saranno in grado di replicare tali risultati. Inoltre, c’è una dipendenza significativa dai telefoni con doppia fotocamera e il ripristino dell’immagine non è possibile con un solo input di immagine.

Generazione del Dataset

È difficile avere un dataset di immagini catturate utilizzando angoli ampi e ultra-ampi che siano ampiamente disponibili. È anche impossibile generare in modo sintetico tali dataset aggiungendo una sfocatura gaussiana alle immagini che possa replicare il rumore in scenari del mondo reale. Per ridurre il divario di dominio, gli autori hanno catturato 100 stack di immagini per questo metodo.

Dipendenza da Metodi Preesistenti

La parte di preelaborazione dei dati è una necessità per generare mappe di defocus, insieme a maschere di profondità e occlusione. La preelaborazione utilizza algoritmi di Optical Flow e Stereo Depth preesistenti che sono noti per generare gravi artefatti, con conseguente degrado delle immagini di output.

Conclusioni

Addio alla sfocatura. Metti fine alle immagini sfocate con il recente avanzamento di Google nella ripristinazione delle immagini. Se incorporato nell’IA delle fotocamere dei telefoni, possiamo vedere un mondo perfetto ogni giorno, proprio attraverso i nostri telefoni.

Considera di leggere l’articolo per una comprensione dettagliata.

Articolo: https://defocus-control.github.io/static/dc2_paper.pdf

Seguimi se hai apprezzato questo articolo e vuoi saperne di più sull’apprendimento automatico e sui recenti progressi nella comunità di ricerca.