Aiutare i modelli di visione artificiale e di linguaggio a capire ciò che vedono

Aiutare i modelli di visione artificiale e linguaggio a comprendere ciò che vedono

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Ricercatori del MIT hanno creato un nuovo set di dati sintetici annotati di immagini che rappresentano una vasta gamma di scenari, che possono essere utilizzati per aiutare i modelli di apprendimento automatico a comprendere i concetti in una scena. ¶ Credito: Khaled Shehada et al.

I ricercatori del Massachusetts Institute of Technology hanno fatto parte di un team che ha sviluppato una tecnica che utilizza dati generati al computer per aiutare i modelli di visione e linguaggio a comprendere meglio i concetti.

I ricercatori hanno utilizzato un set di dati sintetici annotati per ottimizzare i modelli di visione e linguaggio più popolari, aumentando la loro precisione nella comprensione dei concetti fino al 10%.

Hanno prodotto quasi 800.000 immagini fotorealistiche utilizzando video sintetici generati al computer di ambienti e oggetti tridimensionali diversi, con avatar umani aggiunti per interagire con essi.

A ciascuna immagine è stata aggiunta una didascalia dettagliata, che copre attributi degli oggetti, relazioni posizionali e interazioni tra umani e oggetti.

I dati sintetici hanno permesso ai ricercatori di creare immagini più diverse a un costo inferiore rispetto alla generazione di dati reali, preservando la privacy attraverso l’uso di avatar. Da MIT News View Full Article

Abstracts Copyright © 2023 SmithBucklin , Washington, D.C., USA