Learn more about Computer Vision
Google AI propone PixelLLM un modello di visione-linguaggio in grado di localizzazione dettagliata e allineamento visione-linguaggio.
I modelli linguistici di grande dimensione (LLMs) hanno utilizzato con successo il potere dei sottocampi dell’I...
Questo articolo di intelligenza artificiale propone la tecnica COLMAP-Free 3D Gaussian Splatting (CF3DGS) per la sintesi di nuove visualizzazioni senza parametri della fotocamera noti.
I progressi nella rendering neurale hanno portato a significativi progressi nella ricostruzione delle scene e nella g...
Come Possiamo Avanzare nel Riconoscimento degli Oggetti nell’Intelligenza Artificiale? Questo Articolo sull’Intelligenza Artificiale Presenta GLEE un Modello Fondamentale a Livello di Oggetti Universale per un’Analisi Migliorata di Immagini e Video
La percezione degli oggetti nelle immagini e nei video libera il potere delle macchine nel decifrare il mondo visivo....
Ricercatori del NTU svelano Upscale-A-Video Pionieristica Diffusione Latente Guidata da Testo per una Super-Risoluzione Video Potenziata
La sovra-risoluzione video, che mira a elevare la qualità dei video a bassa risoluzione ad alta fedeltà, affronta la ...
Questo articolo sull’IA presenta un metodo rivoluzionario per modellare la dinamica delle scene 3D utilizzando video multi-vista
NVFi affronta la sfida intricata di comprendere e prevedere la dinamica all’interno di scenari 3D che si evolvo...
Questo articolo su IA presenta RTMO una svolta nella stima in tempo reale della posa multi-persona utilizzando mappe termiche duali a 1D.
Il campo della stima della posa, che consiste nel determinare la posizione e l’orientamento di un oggetto nello...
Questo articolo AI presenta EdgeSAM avanzare l’apprendimento automatico per la segmentazione efficiente ad alta velocità delle immagini su dispositivi Edge
Il Segment Anything Model (SAM) è un modello basato su intelligenza artificiale che segmenta le immagini per la rilev...
Ricercatori della CMU presentano RoboTool un sistema di intelligenza artificiale che accetta istruzioni in linguaggio naturale e produce codice eseguibile per il controllo di robot sia in ambienti simulati che in quelli reali.
Ricercatori della Carnegie Mellon University e Google DeepMind hanno collaborato per sviluppare RoboTool, un sistema ...
I ricercatori del CMU e del Max Planck Institute svelano WHAM un approccio rivoluzionario dell’IA per una precisa ed efficiente stima del movimento umano in 3D dai video
La ricostruzione del movimento umano in 3D è un processo complesso che prevede la cattura accurata e la modellazione ...
Ricercatori di Stanford e Salesforce AI svelano UniControl un modello di diffusione unificato per il controllo avanzato nella generazione di immagini AI.
I modelli fondamentali generativi sono una classe di modelli di intelligenza artificiale progettati per generare nuov...
Questo articolo sull’IA presenta BioCLIP sfruttare il dataset TreeOfLife-10M per trasformare la visione del computer in biologia e conservazione
Molte branche della biologia, inclusa l’ecologia, la biologia evolutiva e la biodiversità, stanno sempre più ut...
Una guida completa sull’atrous convolution nelle CNN
Introduzione Nel campo della visione artificiale, le Reti Neurali Convoluzionali (CNN) hanno ridefinito il panorama d...
Questa tesi sull’IA svela ‘Vary’ un nuovo approccio per ampliare il vocabolario visivo nei modelli di visione-linguaggio grandi per avanzate attività di percezione multilingue
I modelli Large Vision-Language (LVLM) combinano computer vision e natural language processing per generare descrizio...
Questa ricerca sull’IA dell’Università di Arizona State svela ECLIPSE una nuova strategia di apprendimento contrastivo per migliorare la priorità non diffusiva testo-immagine.
I modelli di diffusione hanno dimostrato di essere molto efficaci nella produzione di fotografie di alta qualità quan...
Questo articolo sull’IA svela HyperDreamer un avanzamento nella creazione di contenuti 3D con avanzate tecniche di texturing, modellazione a 360 gradi e editing interattivo.
Non è facile generare modelli 3D dettagliati e realistici a partire da un’unica immagine RGB. I ricercatori del...
- You may be interested
- ANPR con YOLOV8
- Padroneggiare Elasticsearch Una guida p...
- L’intelligenza artificiale nell...
- Un progetto di previsione dell’ab...
- Esplorazione dei servizi di intelligenz...
- Amir Haramaty, CEO e Co-fondatore di ai...
- Come 25.000 computer hanno addestrato C...
- Da provare assolutamente Gen AI Prompts...
- SQL in Pandas con Pandasql
- ChatGPT ora può rispondere con parole p...
- Questo articolo sull’IA propone u...
- LangChain + Streamlit + Llama Portare l...
- Un unico punto di riferimento per la cl...
- Tecniche di Apprendimento Ensemble Una ...
- Approfondimento sul modalità Copy-on-Wr...