Learn more about Computer Vision - Section 3

Una nuova ricerca sull’AI da CMU e Meta introduce PyNeRF un balzo in avanti nei Neural Radiance Fields con rendering basato su griglia consapevole della scala

Come possono essere migliorati i Neural Radiance Fields (NeRF) per gestire variazioni di scala e ridurre gli artefatt...

Incontra VideoSwap un framework di intelligenza artificiale che personalizza lo scambio di soggetti nei video con una corrispondenza interattiva dei punti semantici.

Recentemente, ci sono stati progressi significativi nel campo del montaggio video, con il montaggio utilizzando lR...

Questo articolo sull’IA introduce il framework Segment Anything for NeRF in High Quality (SANeRF-HQ) per ottenere una segmentazione tridimensionale di alta qualità di qualsiasi oggetto in una scena data.

Ricercatori dell’Università di Scienza e Tecnologia di Hong Kong, della Carnegie Mellon University e del Dartmo...

Ricercatori di Microsoft e dell’Università di Tsinghua propongono SCA (Segment and Caption Anything) per dotare in modo efficiente il modello SAM della capacità di generare didascalie regionali

L’intersezione tra computer vision e natural language processing ha a lungo affrontato la sfida di generare did...

Incontra il GPS-Gaussian un nuovo approccio all’intelligenza artificiale per sintetizzare in modo rapido visioni inedite di un personaggio.

Una funzione essenziale dei sistemi di telecamere multi-view è la sintesi di nuove visualizzazioni (NVS), che cerca d...

Ricercatori di Adobe propongono DMV3D un nuovo approccio di generazione 3D che utilizza un modello di ricostruzione 3D basato su Transformer per eliminare il rumore della diffusione multi-vista

Una sfida comune nella creazione di asset 3D per la Realtà Aumentata (AR), la Realtà Virtuale (VR), la robotica e il ...

Incontra Vchitect un sistema di creazione di video generalista open source su larga scala per le applicazioni di convertitore di testo in video (T2V) e convertitore di immagini in video (I2V).

La crescita esponenziale della popolarità dell’Intelligenza Artificiale (IA) negli ultimi tempi ha portato a gr...

L’intelligenza artificiale visiva decolla presso l’aeroporto più grande e trafficato del Canada

Toronto Pearson International Airport, in Ontario, Canada, is the country’s largest and busiest airport, serving some...

Ricercatori del MIT e Adobe presentano Distribution Matching Distillation (DMD) un metodo di intelligenza artificiale per trasformare un modello di diffusione in un generatore di immagini in un solo passaggio.

“`html Con un processo di formazione costante, i modelli di diffusione hanno rivoluzionato la produzione di imm...

Questa ricerca sull’IA presenta CoDi-2 un rivoluzionario modello di lingua multimodale che trasforma il panorama dell’elaborazione istruzioni interleaved e della generazione di output multimodale.

I ricercatori hanno sviluppato il CoDi-2 Multimodal Large Language Model (MLLM) dell’Università di Berkeley, Mi...

Tencent AI Lab presenta GPT4Video un modello linguistico multilingue multimodale unificato per la comprensione delle istruzioni e la generazione consapevole della sicurezza.

Il problema della comprensione dei video e dei casi di generazione è stato affrontato dai ricercatori di Tencent AI L...

Ricercatori di Max Planck presentano PoseGPT un framework di intelligenza artificiale che utilizza grandi modelli di linguaggio (LLM) per comprendere e ragionare sulle pose umane tridimensionali da immagini o descrizioni testuali.

La postura umana è fondamentale per la salute generale, il benessere e vari aspetti della vita. Essa comprende l̵...

Rilevamento oggetti usando RetinaNet e KerasCV

Dopo aver completato un mini-progetto basato sulla segmentazione dell'immagine (vedi qui), ero pronto per passare a u...

Questa ricerca sull’IA svela Photo-SLAM Elevare la mappatura fotorealistica in tempo reale su dispositivi portatili

Nella visione artificiale e nella robotica, la localizzazione simultanea e la mappatura (SLAM) con telecamere è un ar...

I Ricercatori della CMU Svelano la Diffusion-TTA Elevariscono i Modelli di Intelligenza Artificiale Discriminativa con un Feedback Generativo per un’Adattabilità Senza Paragoni nel Test-Time

I modelli di diffusione vengono utilizzati per generare campioni di alta qualità da distribuzioni di dati complesse. ...

Image Description

Seu parceiro de AI

Image Description

Explorando o futuro com IA (Inteligência Artificial)

Web Analytics Made Easy - Statcounter