Etan Ginsberg, Co-Fondatore di Martian – Serie di Interviste

Etan Ginsberg, Co-Fondatore di Martian - Una Serie di Interviste Imperdibili

Etan Ginsberg è il Co-Fondatore di Martian, una piattaforma che indirizza dinamicamente ogni richiesta al miglior LLM. Attraverso l’indirizzamento, Martian ottiene migliori prestazioni e costi inferiori rispetto a qualsiasi altro fornitore individuale, compreso GPT-4. Il sistema si basa sulla tecnologia Model Mapping unica dell’azienda che scompone gli LLM da complesse scatole nere in un’architettura più interpretabile, rendendolo la prima applicazione commerciale di interpretabilità meccanica.

Etan ha programmato, progettato siti web e costruito e-commerce per clienti fin dalla scuola media. Un polimata, Etan è un concorrente ai Campionati Mondiali di Memoria e si è classificato al 2° posto ai Campionati Mondiali di Lettura Veloce a Shenzhen, in Cina.

È un partecipante alle competizioni di hackathon. I premi passati includono il 3° premio al Tech Crunch SZ, finalista tra i primi 7 all’Hackathon di Princeton e 3 premi dell’industria all’Hackathon di Yale.

In passato sei stato fondatore di due startup, quali sono state queste aziende e cosa hai imparato da questa esperienza?

La mia prima azienda è stata la prima piattaforma per la promozione e l’avanzamento dello sport di American Ninja Warrior. Nel 2012, ho considerato American Ninja Warrior come uno sport sotterraneo (simile a MMA negli anni ’90) e ho creato la prima piattaforma in cui le persone potevano acquistare schemi, ordinare ostacoli e trovare palestre per allenarsi. Ho consulente aziende interessate a creare le proprie palestre, incluso l’assistenza alle Forze Speciali degli Stati Uniti con un corso di addestramento e la crescita di un’azienda da uno schizzo di un tovagliolo a $300k di ricavi nei primi 3 mesi. Nonostante fossi ancora al liceo, ho avuto la mia prima esperienza nella gestione di team di più di 20 lavoratori e ho imparato l’importanza della gestione efficace e delle relazioni interpersonali.

La mia seconda azienda era una società di gestione di asset alternativi da me co-fondata nel 2017 prima della diffusione delle ICO nel settore delle criptovalute. Questa è stata la mia prima esperienza con l’NLP, dove abbiamo utilizzato l’analisi dei sentimenti dei dati dei social media come strategia di investimento.

Ho imparato molte delle competenze, sia tecniche che soft skills, necessarie per gestire una startup: dalla gestione di un team agli aspetti tecnici dell’NLP. Allo stesso tempo, ho anche imparato molto su me stesso e su ciò che desideravo nel lavoro. Credo che le aziende più di successo siano fondate da persone che hanno una visione o un obiettivo più ampio che le guida. Nel 2017 ho deciso di abbandonare il settore delle criptovalute per concentrarmi sull’NLP perché l’idea di migliorare e comprendere l’intelligenza umana mi appassiona davvero. Sono stato felice di scoprirlo.

Mentre frequentavi l’Università di Pennsylvania hai fatto delle ricerche sull’IA, su cosa specifico stavi lavorando?

Le nostre ricerche si sono inizialmente concentrate sulla creazione di applicazioni basate su LLM. In particolare, abbiamo lavorato sulle applicazioni educative di LLM e abbiamo sviluppato il primo tutor cognitivo basato su LLM. I risultati sono stati piuttosto buoni: abbiamo riscontrato un miglioramento di 0,3 deviazioni standard nei risultati degli studenti durante l’esperimento iniziale e il nostro sistema è stato utilizzato sia all’Università di Pennsylvania che all’Università del Bhutan.

Puoi parlare di come questa ricerca ti ha poi portato a co-fondare Martian?

Poiché eravamo tra i primi ad applicare LLM all’interno delle nostre applicazioni, siamo stati anche tra i primi ad affrontare le problematiche associate alla creazione di applicazioni basate su LLM. Ciò ha orientato le nostre ricerche verso il livello infrastrutturale. Ad esempio, fin dall’inizio, abbiamo effettuato il fine-tuning di modelli più piccoli sui risultati di modelli più grandi come GPT-3 e abbiamo adattato modelli su fonti di dati specializzate per compiti come la programmazione e la risoluzione di problemi matematici. Questo ci ha portato a occuparci di comprendere il comportamento del modello e dell’instradamento dei modelli.

Anche le origini del nome Martian e il suo rapporto con l’intelligenza sono interessanti, potresti condividere la storia di come è stato scelto questo nome?

La nostra azienda ha preso il nome da un gruppo di scienziati ungheresi-americani noti come “I Marziani”. Questo gruppo, che ha vissuto nel XX secolo, era composto da alcune delle persone più intelligenti che abbiano mai vissuto:

  • Il più famoso tra di loro è stato John Von Neumann; ha inventato la teoria dei giochi, l’architettura moderna dei computer, la teoria degli automi e ha dato un contributo fondamentale in numerosi altri campi.
  • Paul Erdos è stato il matematico più prolifico di tutti i tempi, con oltre 1500 pubblicazioni.
  • Theodore Von Karman ha elaborato le teorie fondamentali dell’aerodinamica e ha contribuito alla fondazione del programma spaziale americano. Il confine definito dall’uomo tra la Terra e lo spazio esterno è chiamato “linea di Kármán” in riconoscimento del suo lavoro.
  • Leo Szilard ha inventato la bomba atomica, la radioterapia e gli acceleratori di particelle.

Questi scienziati e altri 14 come loro (incluso l’inventore della bomba all’idrogeno, l’uomo che ha introdotto la teoria dei gruppi nella fisica moderna e importanti contribuenti nei settori della combinatoria, teoria dei numeri, analisi numerica e teoria delle probabilità) condividevano una notevole somiglianza: tutti erano nati nella stessa parte di Budapest. Ciò ha portato le persone a chiedersi: qual era la fonte di una così grande intelligenza?

In risposta, Szilard scherzò dicendo: “Gli marziani sono già qui, e si chiamano ungheresi!” In realtà… nessuno lo sa.

L’umanità si trova oggi in una posizione simile rispetto a un nuovo insieme di menti potenzialmente superintelligenti: l’intelligenza artificiale. Le persone sanno che i modelli possono essere incredibilmente intelligenti, ma non hanno idea di come funzionano.

La nostra missione è rispondere a quella domanda: comprendere e sfruttare la moderna superintelligenza.

Hai una storia di incredibili imprese di memoria, come sei stato coinvolto in queste sfide di memoria e come questa conoscenza ti ha aiutato con il concetto di Martian?

Nella maggior parte degli sport, un atleta professionista può ottenere prestazioni 2-3 volte migliori rispetto alla persona media (confronta quanto lontano una persona media può calciare un field goal o quanto velocemente può lanciare una palla veloce rispetto a un professionista). Gli sport di memoria sono affascinanti perché i migliori atleti possono memorizzare 100 o addirittura 1000 volte di più rispetto alla persona media, con meno allenamento rispetto alla maggior parte degli sport. Inoltre, si tratta spesso di persone con una memoria naturale media che attribuiscono le loro performance a specifiche tecniche che chiunque può imparare. Voglio massimizzare la conoscenza dell’umanità e ho visto i campionati mondiali di memoria come un’idea sottovalutata su come possiamo ottenere ritorni straordinari aumentando l’intelligenza umana.

Volevo implementare tecniche di memoria nel sistema educativo, quindi ho iniziato ad esplorare come l’NLP e gli LLM potessero aiutare a ridurre i costi di implementazione che impediscono l’uso dei metodi educativi più efficaci nel sistema educativo tradizionale. Io e Yash abbiamo creato il primo tutor cognitivo basato su LLM e ciò ci ha portato a scoprire i problemi di implementazione degli LLM che aiutiamo a risolvere oggi.

Martian astrae essenzialmente la decisione su quale Large Language Model (LLM) utilizzare, perché attualmente è un punto critico per gli sviluppatori?

Diventa sempre più facile creare modelli di linguaggio: i costi di calcolo si abbassano, gli algoritmi diventano più efficienti e ci sono più strumenti open source disponibili per creare questi modelli. Di conseguenza, sempre più aziende e sviluppatori creano modelli personalizzati addestrati su dati personalizzati. Poiché questi modelli hanno costi e capacità diverse, è possibile ottenere prestazioni migliori utilizzando più modelli, ma è difficile testarli tutti e trovare quelli giusti da utilizzare. Noi ci occupiamo di questo per gli sviluppatori.

Puoi parlare del modo in cui il sistema comprende quale LLM è meglio utilizzato per ogni specifico compito?

Ruotare bene è fondamentalmente un problema di comprensione dei modelli. Per ruotare tra i modelli in modo efficace, si desidera essere in grado di capire cosa li fa fallire o avere successo. Essere in grado di comprendere queste caratteristiche con il mappaggio dei modelli ci consente di determinare quanto bene si comporterà un dato modello su una richiesta senza doverlo eseguire. Di conseguenza, possiamo inviare quella richiesta al modello che produrrà il miglior risultato.

Puoi discutere dei risparmi di costo che possono essere ottenuti ottimizzando l’utilizzo di LLM?

Permettiamo agli utenti di specificare come bilanciare costi e prestazioni. Se ti interessa solo la prestazione, possiamo superare GPT-4 su openai/evals. Se stai cercando un costo specifico per far funzionare l’economia delle tue unità, ti consentiamo di specificare il costo massimo per la tua richiesta, quindi trovare il miglior modello per completare quella richiesta. E se desideri qualcosa di più dinamico, ti permettiamo di specificare quanto sei disposto a pagare per ottenere una risposta migliore: in questo modo, se due modelli hanno prestazioni simili ma una grande differenza di costo, possiamo farti utilizzare i modelli meno costosi. Alcuni dei nostri clienti hanno riscontrato una diminuzione dei costi fino al 12X.

Qual è la tua visione per il futuro di Martian?

Ogni volta che miglioriamo la comprensione fondamentale dei modelli, ciò porta a un cambiamento di paradigma per l’IA. Il fine-tuning era il paradigma guidato dalla comprensione delle uscite. Il prompting è il paradigma guidato dalla comprensione delle entrate. Quella singola differenza nella nostra comprensione dei modelli rappresenta gran parte di ciò che differenzia l’ML tradizionale (“addestriamo un regressore”) dall’IA generativa moderna (“Proponiamo un baby AGI”).

Il nostro obiettivo è fornire costantemente innovazioni nell’interpretabilità fino a quando l’IA non sarà completamente compresa e avremo una teoria dell’intelligenza tanto solida quanto le nostre teorie della logica o del calcolo.

Per noi, ciò significa costruire. Significa creare strumenti di intelligenza artificiale straordinari e metterli nelle mani delle persone. Significa rilasciare cose che rompono gli schemi, che nessuno ha mai fatto prima e che — più di ogni altra cosa — siano interessanti e utili.

Con le parole di Sir Francis Bacon, “La conoscenza è potere”. Di conseguenza, il modo migliore per essere sicuri di comprendere l’IA è quello di rilasciare strumenti potenti. Secondo noi, un router di modelli è uno strumento di questo tipo. Siamo entusiasti di costruirlo, farlo crescere e metterlo nelle mani delle persone.

Questo è il primo di molti strumenti che rilasceremo nei prossimi mesi. Per scoprire una bellissima teoria sull’intelligenza artificiale, per consentire nuovi tipi di infrastrutture di intelligenza artificiale, per contribuire a costruire un futuro migliore sia per l’uomo che per la macchina – non vediamo l’ora di condividere questi strumenti con voi.

Grazie per l’ottima intervista, i lettori che desiderano saperne di più possono visitare Martian.