AI Pulse #2 L’IA simile a un essere umano di Meta e i piccoli modelli di linguaggio
AI Pulse #2 Meta's human-like AI and small language models
AI Pulse
I due nuovi modelli di Meta imparano come gli esseri umani e cosa imparano effettivamente i modelli di linguaggio più piccoli?
In questa edizione:
- ImageBind di Meta, un modello che apprende da sei modalità;
- I-JEPA, il primo passo verso il sogno di Yann LeCun di un’intelligenza artificiale simile a quella umana;
- Orca di Microsoft stabilirà la tendenza per i modelli di linguaggio più piccoli?
AI Pulse è disponibile anche come newsletter gratuita su Substack.
ImageBind apprende da sei modalità
TL;DR
📢 Meta rilascia ImageBind, un modello in grado di apprendere contemporaneamente da sei modalità.📝 Articolo: https://arxiv.org/abs/2305.05665💻 Codice: https://github.com/facebookresearch/ImageBind👀 Demo: https://imagebind.metademolab.com/demo
Le notizie
Il laboratorio di ricerca di Meta porta il concetto di multimodalità a un livello superiore. Proprio dopo SAM e DINOv2, hanno annunciato la loro ultima invenzione: ImageBind, un modello olistico che apprende da sei modalità: testo, immagini, audio/video, profondità 3D, termico (tramite radiazione infrarossa) e unità di misura inerziali (IMU). Si tratta di un tentativo di dotare il modello della capacità di combinare informazioni assorbite da diverse fonti, proprio come fanno gli esseri umani.
- Appunti da CVPR 2023
- Umanità sull’orlo di un’eclissi dell’IA?
- Hanno bisogno gli LLM di tutti quei livelli per raggiungere l’apprendimento in contesto?
Una caratteristica chiave di ImageBind è che mappa le informazioni di tutte le modalità in un unico spazio di embedding. Di conseguenza, è possibile eseguire una ricerca di similarità tra diverse modalità, effettuare il recupero multimodale e comporre modalità con operazioni aritmetiche. Puoi provare ImageBind tu stesso nell’app demo fornita. Che si tratti di evocare immagini e suoni da prompt di testo o di animare un’immagine con audio (pensa a fondere l’abbaiare di un cane con una foto di una spiaggia per generare un’immagine di un cane che si rilassa in spiaggia), le possibilità multimodali sono infinite!
Approfondimento
Centrale per ImageBind è l’osservazione che le immagini mostrano una certa proprietà di legame. Ciò significa che le immagini tendono a verificarsi contemporaneamente con altre modalità di dati, servendo da ponte per allineare queste altre modalità tra loro.