Google a CVPR 2023

Search for CVPR 2023 on Google.

Pubblicato da Shaina Mehta, Program Manager, Google

Questa settimana segna l’inizio della conferenza annuale di Computer Vision e Pattern Recognition (CVPR 2023), tenuta di persona a Vancouver, BC (con ulteriore contenuto virtuale). In quanto leader nella ricerca di computer vision e sponsor Platinum, Google Research avrà una forte presenza in CVPR 2023 con ~ 90 articoli presentati alla conferenza principale e un’attiva partecipazione in oltre 40 workshop e tutorial della conferenza.

Se parteciperai a CVPR quest’anno, fermati al nostro stand per parlare con i nostri ricercatori che stanno esplorando attivamente le ultime tecniche per l’applicazione in vari settori della percezione delle macchine. I nostri ricercatori saranno anche disponibili per parlare e presentare diversi sforzi recenti, tra cui applicazioni ML su dispositivo con MediaPipe, strategie per la privacy differenziale, tecnologie di campo di radianza neurale e molto altro.

Puoi anche conoscere meglio le nostre ricerche presentate a CVPR 2023 nell’elenco qui sotto (affiliazioni Google in grassetto).

Comitato direttivo e organizzativo

I responsabili senior dell’area includono: Cordelia Schmid, Ming-Hsuan Yang

I responsabili dell’area includono: Andre Araujo, Anurag Arnab, Rodrigo Benenson, Ayan Chakrabarti, Huiwen Chang, Alireza Fathi, Vittorio Ferrari, Golnaz Ghiasi, Boqing Gong, Yedid Hoshen, Varun Jampani, Lu Jiang, Da-Cheng Jua, Dahun Kim, Stephen Lombardi, Peyman Milanfar, Ben Mildenhall, Arsha Nagrani, Jordi Pont-Tuset, Paul Hongsuck Seo, Fei Sha, Saurabh Singh, Noah Snavely, Kihyuk Sohn, Chen Sun, Pratul P. Srinivasan, Deqing Sun, Andrea Tagliasacchi, Federico Tombari, Jasper Uijlings

Responsabile della pubblicità: Boqing Gong

Responsabile della dimostrazione: Jonathan T. Barron

Il consiglio consultivo del programma include: Cordelia Schmid, Richard Szeliski

Pannelli

Storia e futuro dell’intelligenza artificiale e della computer vision. Tra i relatori: Chelsea Finn

Scoperta scientifica e ambiente. Tra i relatori: Sara Beery

Candidati al premio per il miglior paper

MobileNeRF: sfruttare la pipeline di rasterizzazione dei poligoni per il rendering di campi neurali efficiente su architetture mobili. Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi

DynIBaR: rendering di immagini dinamiche neurali. Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely

DreamBooth: affinare i modelli di diffusione testo-immagine per la generazione guidata dal soggetto. Nataniel Ruiz*, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman

Sulla distillazione dei modelli di diffusione guidata. Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans

Articoli in evidenza

Connettere Visione e Linguaggio con Narrazioni Localizzate di Video Paul Voigtlaender, Soravit Changpinyo, Jordi Pont-Tuset, Radu Soricut, Vittorio Ferrari

MaskSketch: Generazione di Immagini Mascherate Guidata dalla Struttura non Accoppiata Dina Bashkirova*, Jose Lezama, Kihyuk Sohn, Kate Saenko, Irfan Essa

SPARF: Campi di Radiazione Neuronale da Pose Sparse e Rumorose Prune Truong*, Marie-Julie Rakotosaona, Fabian Manhardt, Federico Tombari

MAGVIT: Transformer Generativo Video Mascherato Lijun Yu*, Yong Cheng, Kihyuk Sohn, Jose Lezama, Han Zhang, Huiwen Chang, Alexander Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang

Preformazione Consapevole della Regione per la Rilevazione di Oggetti a Vocabolario Aperto con Transformer di Visione Dahun Kim, Anelia Angelova, Weicheng Kuo

I2MVFormer: Supervisione di Documenti Multi-View Generati da Modelli di Lingua per la Classificazione di Immagini a Zero-Shot Muhammad Ferjad Naeem, Gul Zain Khan, Yongqin Xian, Muhammad Zeshan Afzal, Didier Stricker, Luc Van Gool, Federico Tombari

Migliorare la Generalizzazione Robusta tramite la Minimizzazione Diretta del Limite PAC-Bayesian Zifan Wang*, Nan Ding, Tomer Levinboim, Xi Chen, Radu Soricut

Imagen Editor e EditBench: Avanzare ed Valutare il Riempimento d’Immagine Guidato dal Testo (vedere il post del blog) Su Wang, Chitwan Saharia, Ceslee Montgomery, Jordi Pont-Tuset, Shai Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu Soricut, Jason Baldridge, Mohammad Norouzi, Peter Anderson, William Cha

RUST: Rappresentazioni Latenti di Scene Neurali da Immagini Non Posate Mehdi S. M. Sajjadi, Aravindh Mahendran, Thomas Kipf, Etienne Pot, Daniel Duckworth, Mario Lučić, Klaus Greff

REVEAL: Pre-formazione Visual-Language Potenziata dalla Recuperazione con Memoria di Conoscenze Multimodali da Multi-Fonte (vedere il post del blog) Ziniu Hu*, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David Ross, Alireza Fathi

RobustNeRF: Ignorare i Disturbi con Perdite Robuste Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi

Pubblicazioni

AligNeRF: Neural Radiance Fields ad alta fedeltà tramite formazione consapevole dell’allineamento Yifan Jiang*, Peter Hedman, Ben Mildenhall, Dejia Xu, Jonathan T. Barron, Zhangyang Wang, Tianfan Xue*

BlendFields: Modellazione facciale basata su esempi a pochi scatti Kacper Kania, Stephan Garbin, Andrea Tagliasacchi, Virginia Estellers, Kwang Moo Yi, Tomasz Trzcinski, Julien Valentin, Marek Kowalski

Miglioramento delle caratteristiche locali deformabili mediante apprendimento congiunto per la rilevazione e la descrizione dei punti chiave Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson Nascimento

Come gli oggetti possono aiutare il riconoscimento delle azioni? Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid

Rendering neurale ibrido per scene su larga scala con sfocatura di movimento Peng Dai, Yinda Zhang, Xin Yu, Xiaoyang Lyu, Xiaojuan Qi

IFSeg: segmentazione semantica senza immagini tramite modello visione-linguaggio Sukmin Yun, Seong Park, Paul Hongsuck Seo, Jinwoo Shin

Apprendimento da prospettive uniche: modellizzazione della salienza consapevole dell’utente (vedi post del blog) Shi Chen*, Nachiappan Valliappan, Shaolei Shen, Xinyu Ye, Kai Kohlhoff, Junfeng He

MAGE: codificatore generativo mascherato per unificare l’apprendimento della rappresentazione e la sintesi delle immagini Tianhong Li*, Huiwen Chang, Shlok Kumar Mishra, Han Zhang, Dina Katabi, Dilip Krishnan

NeRF-Supervised Deep Stereo Fabio Tosi, Alessio Tonioni, Daniele Gregorio, Matteo Poggi

Omnimatte3D: associazione di oggetti e dei loro effetti in video monoculare non vincolato Mohammed Suhail, Erika Lu, Zhengqi Li, Noah Snavely, Leon Sigal, Forrester Cole

OpenScene: comprensione della scena 3D con vocabolari aperti Songyou Peng, Kyle Genova, Chiyu Jiang, Andrea Tagliasacchi, Marc Pollefeys, Thomas Funkhouser

PersonNeRF: ricostruzione personalizzata da collezioni di foto Chung-Yi Weng, Pratul Srinivasan, Brian Curless, Ira Kemelmacher-Shlizerman

Condizionamento del prefisso per unificare la supervisione del linguaggio e dell’etichetta Kuniaki Saito*, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister

Ripensare i Video ViTs: Tube video sparso per l’apprendimento congiunto di immagini e video (vedi post del blog) AJ Piergiovanni, Weicheng Kuo, Anelia Angelova

Burstormer: ripristino e miglioramento delle immagini a raffica tramite un trasformatore Akshay Dudhane, Syed Waqas Zamir, Salman Khan, Fahad Shahbaz Khan, Ming-Hsuan Yang

Apprendimento decentralizzato con distillazione multi-testa Andrey Zhmoginov, Mark Sandler, Nolan Miller, Gus Kristiansen, Max Vladymyrov

GINA-3D: apprendimento per generare asset neurali impliciti in natura Bokui Shen, Xinchen Yan, Charles R. Qi, Mahyar Najibi, Boyang Deng, Leonidas Guibas, Yin Zhou, Dragomir Anguelov

Grad-PU: Upsampling di punti cloud a scala arbitraria tramite discesa del gradiente con funzioni di distanza apprese Yun He, Danhang Tang, Yinda Zhang, Xiangyang Xue, Yanwei Fu

Hi-LASSIE: Scoperta di forme articolate e scheletri ad alta fedeltà da un insieme sparso di immagini Chun-Han Yao*, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani

Hyperbolic Contrastive Learning per rappresentazioni visive oltre gli oggetti Songwei Ge, Shlok Mishra, Simon Kornblith, Chun-Liang Li, David Jacobs

Imagic: editing di immagini reali basato su testo con modelli di diffusione Bahjat Kawar*, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani

Predizione incrementale del grafo semantico della scena 3D da sequenze RGB Shun-Cheng Wu, Keisuke Tateno, Nassir Navab, Federico Tombari

IPCC-TP: Utilizzo del coefficiente di correlazione di Pearson incrementale per la previsione congiunta della traiettoria multi-agente Dekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt, Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari, Benjamin Busam

Apprendimento per generare embedding di immagini con privacy differenziale a livello utente Zheng Xu, Maxwell Collins, Yuxiao Wang, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu, Florian Schroff, H. Brendan McMahan

NoisyTwins: Generazione di immagini coerenti e diverse attraverso StyleGANs Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, Venkatesh Babu Radhakrishnan

Inversione del testo NULL per modificare le immagini reali utilizzando modelli di diffusione guidata Ron Mokady*, Amir Hertz*, Kfir Aberman, Yael Pritch, Daniel Cohen-Or*

SCOOP: Corrispondenza auto-supervisionata e flusso di scena basato sull’ottimizzazione Itai Lang*, Dror Aiger, Forrester Cole, Shai Avidan, Michael Rubinstein

Forma, posa e aspetto da un’unica immagine tramite inversione del campo di radianza avviato Dario Pavllo*, David Joseph Tan, Marie-Julie Rakotosaona, Federico Tombari

TexPose: apprendimento di texture neurale per l’autostima della posa dell’oggetto 6D Hanzhi Chen, Fabian Manhardt, Nassir Navab, Benjamin Busam

TryOnDiffusion: una storia di due UNet Luyang Zhu*, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman

Un nuovo percorso: scalare la navigazione visione-e-linguaggio con istruzioni sintetiche e apprendimento per imitazione Aishwarya Kamath*, Peter Anderson, Su Wang, Jing Yu Koh*, Alexander Ku, Austin Waters, Yinfei Yang*, Jason Baldridge, Zarana Parekh

CLIPPO: comprensione di immagini e linguaggio solo dai pixel Michael Tschannen, Basil Mustafa, Neil Houlsby

Distribuzione controllabile della luce per i ritratti David Futschik, Kelvin Ritland, James Vecore, Sean Fanello, Sergio Orts-Escolano, Brian Curless, Daniel Sýkora, Rohit Pandey

CUF: Filtro di campionamento continuo Cristina Vasconcelos, Cengiz Oztireli, Mark Matthews, Milad Hashemi, Kevin Swersky, Andrea Tagliasacchi

Miglioramento della generalizzazione e della robustezza a zero-shot dei modelli multi-modalità Yunhao Ge*, Jie Ren, Andrew Gallagher, Yuxiao Wang, Ming-Hsuan Yang, Hartwig Adam, Laurent Itti, Balaji Lakshminarayanan, Jiaping Zhao

LOCATE: Localizza e trasferisce le parti degli oggetti per l’ancoraggio delle affordance debole Gen Li, Varun Jampani, Deqing Sun, Laura Sevilla-Lara

Nerflets: Campi di radianza locali per una rappresentazione efficiente della scena 3D consapevole della struttura dalla supervisione 2D Xiaoshuai Zhang, Abhijit Kundu, Thomas Funkhouser, Leonidas Guibas, Hao Su, Kyle Genova

AutoFlow auto-supervisionato Hsin-Ping Huang, Charles Herrmann, Junhwa Hur, Erika Lu, Kyle Sargent, Austin Stone, Ming-Hsuan Yang, Deqing Sun

Train-Once-for-All Personalization Hong-You Chen*, Yandong Li, Yin Cui, Mingda Zhang, Wei-Lun Chao, Li Zhang

Vid2Seq: Preallenamento su larga scala di un modello di lingua visiva per la didascalia video densa (vedi post sul blog) Antoine Yang*, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid

VILA: Apprendimento dell’estetica dell’immagine dai commenti degli utenti con il preallenamento di visione-linguaggio Junjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, Feng Yang

Hai bisogno di uscite multiple: uscita anticipata dinamica per accelerare il modello di visione linguistica unificato Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li, Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu

Accidental Light Probes Hong-Xing Yu, Samir Agarwala, Charles Herrmann, Richard Szeliski, Noah Snavely, Jiajun Wu, Deqing Sun

FedDM: Iterative Distribution Matching per il Federated Learning efficiente nella comunicazione Yuanhao Xiong, Ruochen Wang, Minhao Cheng, Felix Yu, Cho-Jui Hsieh

FlexiViT: Un modello per tutte le dimensioni di patch Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, Filip Pavetic

Navigazione iterativa visione-e-linguaggio Jacob Krantz, Shurjo Banerjee, Wang Zhu, Jason Corso, Peter Anderson, Stefan Lee, Jesse Thomason

MoDi: Sintesi di movimento incondizionata da dati diversi Sigal Raab, Inbal Leibovitch, Peizhuo Li, Kfir Aberman, Olga Sorkine-Hornung, Daniel Cohen-Or

Incitamento multimodale con modalità mancanti per il riconoscimento visivo Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee

Stima della posa umana egocentrica in 3D consapevole del contesto Jian Wang, Diogo Luvizon, Weipeng Xu, Lingjie Liu, Kripasindhu Sarkar, Christian Theobalt

ShapeClipper: Apprendimento di forme 3D scalabili da immagini a singola vista tramite coerenza geometrica e basata su CLIP Zixuan Huang, Varun Jampani, Ngoc Anh Thai, Yuanzhen Li, Stefan Stojanov, James M. Rehg

Miglioramento del riconoscimento delle immagini tramite il recupero dei dati immagine-testo su scala web Ahmet Iscen, Alireza Fathi, Cordelia Schmid

JacobiNeRF: NeRF shaping con gradienti di informazione mutua Xiaomeng Xu, Yanchao Yang, Kaichun Mo, Boxiao Pan, Li Yi, Leonidas Guibas

Apprendimento di avatar volumetrici personalizzati di alta qualità da video RGB monoculare Ziqian Bai*, Feitong Tan, Zeng Huang, Kripasindhu Sarkar, Danhang Tang, Di Qiu, Abhimitra Meka, Ruofei Du, Mingsong Dou, Sergio Orts-Escolano, Rohit Pandey, Ping Tan, Thabo Beeler, Sean Fanello, Yinda Zhang

NeRF nel palmo della tua mano: correzione dell’augmentazione per la robotica tramite la sintesi di nuove visualizzazioni Allan Zhou, Mo Jin Kim, Lirui Wang, Pete Florence, Chelsea Finn

Pic2Word: mappatura di immagini a parole per il recupero di immagini composte a zero tiro Kuniaki Saito*, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister

SCADE: NeRF dalla modellazione dello spazio con stime di profondità consapevoli dell’ambiguità Mikaela Uy, Ricardo Martin Brualla, Leonidas Guibas, Ke Li

Caratteristiche 3D strutturate per la ricostruzione di avatar controllabili Enric Corona, Mihai Zanfir, Thiemo Alldieck, Eduard Gabriel Bazavan, Andrei Zanfir, Cristian Sminchisescu

Token Turing Machines Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab

TruFor: sfruttare indizi a tutto tondo per il rilevamento e la localizzazione affidabili delle frodi nelle immagini Fabrizio Guillaro, Davide Cozzolino, Avneesh Sud, Nicholas Dufour, Luisa Verdoliva

Modelli di diffusione probabilistica del video nello spazio latente proiettato Sihyun Yu, Kihyuk Sohn, Subin Kim, Jinwoo Shin

Regolazione visiva del prompt per l’apprendimento trasferibile generativo Kihyuk Sohn, Yuan Hao, Jose Lezama, Luisa Polania, Huiwen Chang, Han Zhang, Irfan Essa, Lu Jiang

Segmentazione dell’immagine di riferimento senza scatto con funzionalità di contesto globale-locale Seonghoon Yu, Paul Hongsuck Seo, Jeany Son

AVFormer: Iniezione di visione nei modelli di discorso congelati per AV-ASR senza scatto (vedere il post sul blog) Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid

DC2: Controllo della sfocatura a doppia fotocamera tramite apprendimento del fuoco Hadi Alzayer, Abdullah Abuolaim, Leung Chun Chan, Yang Yang, Ying Chen Lou, Jia-Bin Huang, Abhishek Kar

Bordi a forme a concetti: aumentazione avversaria per una visione robusta Aditay Tripathi*, Rishubh Singh, Anirban Chakraborty, Pradeep Shenoy

MetaCLUE: verso una ricerca completa sulle metafore visive Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani

Compressione di immagini multirealistiche con un generatore condizionale Eirikur Agustsson, David Minnen, George Toderici, Fabian Mentzer

NeRDi: sintesi NeRF a singola vista con diffusione guidata dal linguaggio come priori generali dell’immagine Congyue Deng, Chiyu Jiang, Charles R. Qi, Xinchen Yan, Yin Zhou, Leonidas Guibas, Dragomir Anguelov

Sulla calibrazione dei modelli di segmentazione semantica: analisi e un algoritmo Dongdong Wang, Boqing Gong, Liqiang Wang

Natura persistente: un modello generativo di mondi 3D illimitati Lucy Chai, Richard Tucker, Zhengqi Li, Phillip Isola, Noah Snavely

Ripensare la generalizzazione del dominio per l’anti-spoofing del viso: separabilità e allineamento Yiyou Sun*, Yaojie Liu, Xiaoming Liu, Yixuan Li, Wen-Sheng Chu

SINE: modifica guidata dalla priorità dell’immagine basata sulla semantica con campo di modifica guidato dalla priorità Chong Bao, Yinda Zhang, Bangbang Yang, Tianxing Fan, Zesong Yang, Hujun Bao, Guofeng Zhang, Zhaopeng Cui

L’addestramento sequenziale di GAN contro i classificatori GAN rivela “lacune di conoscenza” correlate presenti tra istanze di GAN addestrate indipendentemente Arkanath Pathak, Nicholas Dufour

SparsePose: regressione e affinamento della posa della fotocamera a vista scarsa Samarth Sinha, Jason Zhang, Andrea Tagliasacchi, Igor Gilitschenski, David Lindell

Le etichette di attenzione spaziale generate dall’insegnante aumentano la robustezza e l’accuratezza dei modelli contrastivi Yushi Yao, Chang Ye, Gamaleldin F. Elsayed, Junfeng He

Workshops

Computer Vision per Mixed Reality Gli speaker includono: Ira Kemelmacher-Shlizerman

Workshop su Guida Autonoma (WAD) Gli speaker includono: Chelsea Finn

Moderazione di contenuti multimodali (MMCM) Gli organizzatori includono: Chris Bregler Gli speaker includono: Mevan Babakar

Computer Vision Medico (MCV) Gli speaker includono: Shekoofeh Azizi

VAND: Rilevamento di Anomalie e Novità Visive Gli speaker includono: Yedid Hoshen, Jie Ren

Apprendimento Strutturale e Compositivo su Dati 3D Gli organizzatori includono: Leonidas Guibas Gli speaker includono: Andrea Tagliasacchi, Fei Xia, Amir Hertz

Categorizzazione di immagini visive a grana fine (FGVC10) Gli organizzatori includono: Kimberly Wilber, Sara Beery Gli panelisti includono: Hartwig Adam

XRNeRF: Avanzamenti in NeRF per il Metaverso Gli organizzatori includono: Jonathan T. Barron Gli speaker includono: Ben Poole

OmniLabel: Spazi di etichette infiniti per la comprensione semantica tramite il linguaggio naturale Gli organizzatori includono: Golnaz Ghiasi, Long Zhao Gli speaker includono: Vittorio Ferrari

Comprensione video olistica su larga scala Gli organizzatori includono: David Ross Gli speaker includono: Cordelia Schmid

Nuove frontiere per la valutazione della didascalia di immagini Zero-Shot (NICE) Gli speaker includono: Cordelia Schmid

Camere e schermi computazionali (CCD) Gli organizzatori includono: Ulugbek Kamilov Gli speaker includono: Mauricio Delbracio

Stima e previsione dello sguardo in natura (GAZE) Gli organizzatori includono: Thabo Beele Gli speaker includono: Erroll Wood

Analisi di volti e gesti per l’informatica sanitaria (FGAHI) Gli speaker includono: Daniel McDuff

Computer Vision per il tracciamento e la modellizzazione del comportamento animale (CV4Animals) Gli organizzatori includono: Sara Beery Gli speaker includono: Arsha Nagrani

3D Visione e Robotica Gli speaker includono: Pete Florence

Guida Autonoma end-to-end: Percezione, Previsione, Pianificazione e Simulazione (E2EAD) Gli organizzatori includono: Anurag Arnab

Guida Autonoma end-to-end: Compiti e sfide emergenti Gli speaker includono: Sergey Levine

Apprendimento multimodale e applicazioni (MULA) Gli speaker includono: Aleksander Hołyński

Dati sintetici per sistemi autonomi (SDAS) Gli speaker includono: Lukas Hoyer

Comprensione dei set di dati visivi Gli organizzatori includono: José Lezama Gli speaker includono: Vijay Janapa Reddi

Preconoscimento: Vedere attraverso il futuro Gli organizzatori includono: Utsav Prabhu

Nuove tendenze nella ripristinazione e nell’elaborazione delle immagini (NTIRE) Gli organizzatori includono: Ming-Hsuan Yang

Modelli generativi per la visione artificiale Gli speaker includono: Ben Mildenhall, Andrea Tagliasacchi

Apprendimento automatico avversario sulla visione artificiale: l’arte della robustezza Gli organizzatori includono: Xinyun Chen Gli speaker includono: Deqing Sun

Forensic dei media Gli speaker includono: Nicholas Carlini

Tracciamento e le sue molte sfaccettature: Tracciamento di qualsiasi oggetto nel mondo aperto Gli organizzatori includono: Paul Voigtlaender

Comprensione della scena 3D per la visione, la grafica e la robotica Gli speaker includono: Andy Zeng

Organizzatori di Computer Vision for Physiological Measurement (CVPM): Daniel McDuff

Organizzatori di Affective Behaviour Analysis In-the-Wild: Stefanos Zafeiriou

Organizzatori di Ethical Considerations in Creative Applications of Computer Vision (EC3V): Rida Qadri , Mohammad Havaei , Fernando Diaz , Emily Denton , Sarah Laszlo , Negar Rostamzadeh , Pamela Peter-Agbia , Eva Kozanecka

Relatori di VizWiz Grand Challenge: Descrizione di immagini e video scattati da persone non vedenti: Haoran Qi

Organizzatori di Efficient Deep Learning for Computer Vision (vedere il post del blog): Andrew Howard , Chas Leichner Relatori di Efficient Deep Learning for Computer Vision: Andrew Howard

Organizzatori di Visual Copy Detection: Priya Goyal

Relatori di Learning 3D with Multi-View Supervision (3DMV): Ben Poole

Organizzatori di Image Matching: Local Features and Beyond: Eduard Trulls

Organizzatori di Vision for All Seasons: Adverse Weather and Lightning Conditions (V4AS): Lukas Hoyer

Relatori di Transformers for Vision (T4V): Cordelia Schmid , Huiwen Chang

Organizzatori di Scholars vs Big Models – Come possono gli accademici adattarsi?: Sara Beery Relatori di Scholars vs Big Models – Come possono gli accademici adattarsi?: Jonathan T. Barron , Cordelia Schmid

Relatori di ScanNet Indoor Scene Understanding Challenge: Tom Funkhouser

Relatori di Computer Vision for Microscopy Image Analysis: Po-Hsuan Cameron Chen

Relatori di Embedded Vision: Rahul Sukthankar

Organizzatori di Sight and Sound: Arsha Nagrani , William Freeman

Organizzatori di AI for Content Creation: Deqing Sun , Huiwen Chang , Lu Jiang

Relatori di AI for Content Creation: Ben Mildenhall , Tim Salimans , Yuanzhen Li

Organizzatori di Computer Vision in the Wild: Xiuye Gu , Neil Houlsby Relatori di Computer Vision in the Wild: Boqing Gong , Anelia Angelova

Organizzatori di Visual Pre-training for Robotics: Mathilde Caron

Organizzatori di Omnidirectional Computer Vision: Yi-Hsuan Tsai

Tutorials

Tutto su ViTs: comprensione e interpretazione dell’attenzione nella visione: Hila Chefer , Sayak Paul

Ultimi sviluppi nella rilevazione di anomalie: Guansong Pang, Joey Tianyi Zhou, Radu Tudor Ionescu, Yu Tian, Kihyuk Sohn

Assistenza sanitaria senza contatto tramite telecamere e sensori wireless: Wenjin Wang, Xuyu Wang, Jun Luo, Daniel McDuff

Localizzazione degli oggetti gratuitamente: andare oltre l’apprendimento auto-supervisionato: Oriane Simeoni, Weidi Xie, Thomas Kipf , Patrick Pérez

Introduzione alla visione: Kaiyang Zhou, Ziwei Liu, Phillip Isola, Hyojin Bahng, Ludwig Schmidt, Sarah Pratt, Denny Zhou


* Lavoro svolto mentre era presso Google