AI Pulse #2 L’IA simile a un essere umano di Meta e i piccoli modelli di linguaggio

AI Pulse #2 Meta's human-like AI and small language models

AI Pulse

I due nuovi modelli di Meta imparano come gli esseri umani e cosa imparano effettivamente i modelli di linguaggio più piccoli?

In questa edizione:

  • ImageBind di Meta, un modello che apprende da sei modalità;
  • I-JEPA, il primo passo verso il sogno di Yann LeCun di un’intelligenza artificiale simile a quella umana;
  • Orca di Microsoft stabilirà la tendenza per i modelli di linguaggio più piccoli?

AI Pulse è disponibile anche come newsletter gratuita su Substack.

ImageBind apprende da sei modalità

TL;DR

📢 Meta rilascia ImageBind, un modello in grado di apprendere contemporaneamente da sei modalità.📝 Articolo: https://arxiv.org/abs/2305.05665💻 Codice: https://github.com/facebookresearch/ImageBind👀 Demo: https://imagebind.metademolab.com/demo

Le notizie

Il laboratorio di ricerca di Meta porta il concetto di multimodalità a un livello superiore. Proprio dopo SAM e DINOv2, hanno annunciato la loro ultima invenzione: ImageBind, un modello olistico che apprende da sei modalità: testo, immagini, audio/video, profondità 3D, termico (tramite radiazione infrarossa) e unità di misura inerziali (IMU). Si tratta di un tentativo di dotare il modello della capacità di combinare informazioni assorbite da diverse fonti, proprio come fanno gli esseri umani.

Una caratteristica chiave di ImageBind è che mappa le informazioni di tutte le modalità in un unico spazio di embedding. Di conseguenza, è possibile eseguire una ricerca di similarità tra diverse modalità, effettuare il recupero multimodale e comporre modalità con operazioni aritmetiche. Puoi provare ImageBind tu stesso nell’app demo fornita. Che si tratti di evocare immagini e suoni da prompt di testo o di animare un’immagine con audio (pensa a fondere l’abbaiare di un cane con una foto di una spiaggia per generare un’immagine di un cane che si rilassa in spiaggia), le possibilità multimodali sono infinite!

Approfondimento

Centrale per ImageBind è l’osservazione che le immagini mostrano una certa proprietà di legame. Ciò significa che le immagini tendono a verificarsi contemporaneamente con altre modalità di dati, servendo da ponte per allineare queste altre modalità tra loro.