Il momento del ‘ChatGPT’ per la robotica è più vicino che mai grazie a Google
Il futuro del 'ChatGPT' nella robotica è ora a portata di mano grazie a Google
Il robot RT-X di Google è qui
Si può tranquillamente dire che Google Deepmind è alla robotica ciò che OpenAI è ai Large Language Models.
E anche se la robotica basata sull’IA genera tanto timore quanto entusiasmo per la penetrante idea di creare modelli di IA altamente intelligenti incarnati nel regno fisico, questa settimana abbiamo visto la prova che il settore sta gradualmente avvicinandosi al suo momento di ‘ChatGPT’.
Che ti piaccia o meno.
E i loro nuovi modelli, la famiglia RT-X, sono una dichiarazione di fatto che l’IA ha raggiunto un punto di non ritorno.
- Suggerimenti e trucchi per utilizzare prompt Engineering per un compito di classificazione del testo.
- Questa ricerca di indagine sull’intelligenza artificiale fornisce una panoramica completa di ampi modelli di linguaggio applicati al settore sanitario.
- Questa ricerca di intelligenza artificiale propone FireAct un nuovo approccio all’intelligenza artificiale per il raffinamento dei modelli linguistici utilizzando traiettorie da più compiti e metodi di agenti.
Questo articolo è stato originariamente pubblicato giorni fa nella mia newsletter settimanale gratuita, TheTechOasis.
Se vuoi essere aggiornato sul frenetico mondo dell’IA e al contempo sentirti ispirato ad agire o, almeno, essere ben preparato per il futuro che ci attende, questo è ciò che fa per te.
🏝Iscriviti qui sotto🏝 per diventare un leader nell’IA tra i tuoi colleghi e ricevere contenuti non presenti su altre piattaforme, incluso VoAGI:
Iscriviti | TheTechOasis
La newsletter per restare avanti sulla curva dell’IA
thetechoasis.beehiiv.com
Un predittore di movimento di più corpi
Alcuni mesi fa ho scritto del RT-2, il braccio robotico all’avanguardia di Google Deepmind.
RT-2, il braccio universale
Questo modello, il primo nel suo genere, era un modello VLA (Vision-Language-Action) che, dato un frame video e un’istruzione, prevedeva i movimenti richiesti dal suo attuatore per eseguire l’istruzione, basandosi sulle osservazioni di una telecamera attaccata al robot.
In termini di architettura, il modello era composto da un Vision Transformer e da un LLM.
Il primo processava l’immagine e il secondo il testo, entrambi codificando i rispettivi input in uno spazio di embedding comune…