Oltre Photoshop Come Inst-Inpaint sta rivoluzionando la rimozione degli oggetti con modelli di diffusione

Inst-Inpaint rivoluziona la rimozione degli oggetti con modelli di diffusione, andando oltre Photoshop.

L’inpainting delle immagini è un’arte antica. È il processo di rimozione degli oggetti indesiderati e di riempimento dei pixel mancanti in un’immagine in modo che l’immagine completata abbia un aspetto realistico e segua il contesto originale. Le applicazioni dell’inpainting delle immagini sono diverse, tra cui migliorare l’estetica o la privacy eliminando oggetti indesiderati dalle immagini, migliorare la qualità e la chiarezza delle foto vecchie o danneggiate, completare le informazioni mancanti riempiendo spazi o buchi nelle immagini e esprimere creatività o stato d’animo attraverso la generazione di effetti artistici.

È stato introdotto l’Inst-Inpaint o inpaint delle immagini basato su istruzioni, un metodo che prende un’immagine e un’istruzione testuale come input per rimuovere automaticamente l’oggetto indesiderato menzionato. L’immagine sopra mostra l’input e l’output nei risultati di esempio con Inst-Inpaint. Qui, ciò viene fatto utilizzando modelli di diffusione all’avanguardia. I modelli di diffusione sono una classe di modelli generativi probabilistici che trasformano il rumore in un campione di dati rappresentativo e sono stati ampiamente utilizzati nella visione artificiale per ottenere immagini di alta qualità nell’ambito dell’intelligenza artificiale generativa.

  • I ricercatori hanno prima costruito il GQA-Inpaint, un dataset di immagini del mondo reale, per addestrare e testare modelli per il lavoro proposto di inpaint delle immagini basato su istruzioni. Per creare coppie di input/output, hanno utilizzato le immagini e i loro grafi di scena nel dataset GQA. Questo metodo proposto viene affrontato nei seguenti passaggi:
  • Selezionare un oggetto di interesse (oggetto da rimuovere).
  • Eseguire la segmentazione dell’istanza per individuare l’oggetto nell’immagine.
  • Quindi, applicare un metodo di inpaint delle immagini all’avanguardia per cancellare l’oggetto.
  • Infine, creare un prompt testuale basato su un modello di template per descrivere l’operazione di rimozione. Di conseguenza, il dataset GQA-Inpaint include 147165 immagini uniche e 41407 istruzioni diverse. Addestrato su questo dataset, il modello Inst-Inpaint è un metodo di inpaint delle immagini basato su testo, basato su un modello di diffusione latente condizionato, che non richiede alcuna maschera binaria specificata dall’utente e rimuove gli oggetti in un singolo passaggio senza prevedere una maschera.

Un dettaglio da notare è che l’immagine è divisa in tre sezioni uguali lungo l’asse x e denominate “sinistra”, “centro” e “destra”, seguendo la denominazione naturale e la ‘posizione’ come “sul tavolo” viene utilizzata per identificare gli oggetti nell’immagine. Per confrontare i risultati degli esperimenti, i ricercatori hanno utilizzato numerose misure, tra cui un punteggio di inpaint basato su CLIP, per valutare le basi GAN e basate sulla diffusione e dimostrare significativi miglioramenti quantitativi e qualitativi.

In un panorama digitale in rapida evoluzione, in cui i confini tra la creatività umana e l’intelligenza artificiale si confondono costantemente, Inst-Inpaint è una testimonianza del potere trasformativo dell’IA nella manipolazione delle immagini. Ha aperto numerose opportunità per utilizzare istruzioni testuali per l’inpaint delle immagini e avvicina ancora una volta l’IA al cervello umano.