Amr Nour-Eldin, Vice Presidente Tecnologico presso LXT – Serie di interviste

Amr Nour-Eldin, Vice Presidente Tecnologico presso LXT - Serie di interviste illuminanti

Amr Nour-Eldin, è il Vice Presidente della Tecnologia presso LXT. Amr è un ricercatore scientifico con un dottorato di ricerca, con oltre 16 anni di esperienza professionale nei campi del trattamento del parlato/audio e dell’apprendimento automatico nel contesto del Riconoscimento Automatico del Parlato (ASR), con un particolare focus ed esperienza pratica negli ultimi anni sulle tecniche di deep learning per il riconoscimento del parlato end-to-end in streaming.

LXT è un leader emergente nel fornire dati di addestramento AI per alimentare la tecnologia intelligente per le organizzazioni globali. In partnership con una rete internazionale di contributori, LXT raccoglie e annota dati su varie modalità con la velocità, la scala e l’agilità richieste dall’azienda. La loro esperienza globale abbraccia più di 145 paesi e oltre 1000 lingue locali.

Hai conseguito un dottorato di ricerca in Elaborazione dei Segnali presso l’Università McGill, cosa ti ha inizialmente interessato in questo campo?

Ho sempre voluto studiare ingegneria e mi sono sempre interessato alle scienze naturali in generale, ma mi sono avvicinato in modo più specifico alla matematica e alla fisica. Mi sono trovato a cercare sempre di capire come funziona la natura e come applicare questa comprensione per creare tecnologia. Dopo il liceo, ho avuto l’opportunità di scegliere la medicina e altre professioni, ma ho scelto specificamente l’ingegneria perché rappresenta la combinazione perfetta, secondo me, tra teoria e applicazione nei due campi a cui tengo di più: la matematica e la fisica. Una volta scelta l’ingegneria, c’erano molte possibili strade da percorrere – meccanica, civile e così via. Ma ho scelto specificamente l’ingegneria elettrica perché è la più vicina, e la più difficile secondo me, ai tipi di problemi matematici e fisici che ho sempre trovato stimolanti e quindi ho apprezzato di più, oltre che essere alla base della moderna tecnologia che mi ha sempre affascinato.

All’interno dell’ingegneria elettrica, ci sono varie specializzazioni tra cui scegliere, che generalmente rientrano in due categorie: telecomunicazioni ed elaborazione dei segnali, e quella della potenza e dell’ingegneria elettrica. Quando è arrivato il momento di scegliere tra queste due opzioni, ho scelto le telecomunicazioni e l’elaborazione dei segnali perché è più vicino a come descriviamo la natura attraverso la fisica e le equazioni. Si parla di segnali, che siano audio, immagini o video; capire come comunichiamo e cosa percepiamo con i nostri sensi, e come rappresentare matematicamente queste informazioni in modo tale da poter sfruttare tale conoscenza per creare e migliorare la tecnologia.

Puoi parlare della tua ricerca presso l’Università McGill sull’aspetto teoretico-informativo dell’estensione artificiale della banda (BWE)?

Dopo aver completato la laurea triennale, volevo continuare a perseguire accademicamente il campo dell’Elaborazione dei Segnali. Dopo un anno di studi in Fotonica come parte di una laurea magistrale in Fisica, ho deciso di tornare all’Ingegneria per conseguire la laurea magistrale in Elaborazione del Segnale Audio e del Parlato, concentrandomi sul riconoscimento del parlato. Quando è arrivato il momento di fare il dottorato di ricerca, volevo ampliare un po’ il mio campo di interesse, includendo l’audio e l’elaborazione del parlato in generale, così come i campi strettamente correlati dell’Apprendimento Automatico e della Teoria dell’Informazione, anziché concentrarmi esclusivamente sull’applicazione del riconoscimento del parlato.

Il veicolo per il mio dottorato di ricerca è stata l’estensione della banda del parlato narrowband. Il termine “narrowband” si riferisce al parlato telefonico convenzionale. Il contenuto in frequenza del parlato si estende fino a circa 20 chilohertz, ma la maggior parte delle informazioni si concentra in un intervallo che arriva a 4 chilohertz. L’estensione di banda si riferisce all’ampliamento artificiale del contenuto del parlato da 3,4 chilohertz, che è il limite superiore della frequenza nelle telecomunicazioni convenzionali, a sopra di esso, fino a otto chilohertz o più. Per ricostruire meglio il contenuto di frequenza superiore mancante utilizzando solo il contenuto narrowband disponibile, è necessario quantificare prima l’informazione mutua tra il contenuto del parlato nelle due bande di frequenza, quindi utilizzare tale informazione per addestrare un modello che apprenda tale informazione condivisa; un modello che, una volta addestrato, può essere utilizzato per generare il contenuto highband dato solo il parlato narrowband e ciò che il modello ha imparato sulla relazione tra tale parlato narrowband disponibile e il contenuto highband mancante. La quantificazione e la rappresentazione di tale “informazione mutua condivisa” è ciò su cui si basa la teoria dell’informazione. La teoria dell’informazione è lo studio della quantificazione e della rappresentazione dell’informazione in qualsiasi segnale. Quindi la mia ricerca consisteva nel combinare la teoria dell’informazione con l’elaborazione dei segnali per migliorare l’estensione artificiale della banda del parlato. Pertanto, il mio dottorato di ricerca è stato più un’attività di ricerca interdisciplinare in cui ho combinato l’elaborazione dei segnali con la teoria dell’informazione e l’apprendimento automatico.

Sei stato Principal Speech Scientist presso Nuance Communications, ora parte di Microsoft, per oltre 16 anni, quali sono state alcune delle tue principali conclusioni da questa esperienza?

Dal mio punto di vista, il beneficio più importante è stato quello di lavorare sempre su tecniche all’avanguardia di elaborazione dei segnali e di apprendimento automatico e applicare tale tecnologia a casi reali. Ho avuto la possibilità di applicare queste tecniche ai prodotti di Intelligenza Artificiale Conversazionale in vari settori. Questi settori spaziavano dall’azienda, alla sanità, all’automotive e alla mobilità, tra gli altri. Alcune delle applicazioni specifiche includevano gli assistenti virtuali, la risposta vocale interattiva, la trascrizione della segreteria telefonica e altre in cui una rappresentazione e una trascrizione corrette sono fondamentali, come nella sanità con le interazioni medico/paziente. Nel corso di quei 16 anni, ho avuto la fortuna di assistere in prima persona e far parte dell’evoluzione dell’IA conversazionale, dai tempi del modellamento statistico usando i Modelli Markov Nascosti, al graduale predominio del Deep Learning, fino ad oggi, in cui il deep learning si diffonde e domina quasi tutti gli aspetti dell’IA, compresa l’IA generativa, oltre all’IA predittiva o discriminatoria tradizionale. Un’altra importante lezione che ho imparato da quell’esperienza è il ruolo cruciale che i dati svolgono, in termini di quantità e qualità, come fattore chiave delle capacità e delle prestazioni dei modelli di IA.

Hai pubblicato una dozzina di articoli, incluso in pubblicazioni di grande fama come IEEE. Secondo te, qual è l’articolo più innovativo che hai pubblicato e perché è importante?

Il più impattante, in base al numero di citazioni secondo Google Scholar, sarebbe un articolo del 2008 intitolato “Mel-Frequency Cepstral Coefficient-Based Bandwidth Extension of Narrowband Speech”. In linea generale, l’obiettivo di questo articolo è la ricostruzione del contenuto vocale utilizzando una rappresentazione delle caratteristiche ampiamente utilizzata nel campo del riconoscimento automatico della lingua parlata (ASR), i coefficienti cepstrali mel-frequenza.

Tuttavia, l’articolo più innovativo, secondo me, è un articolo del 2011 intitolato “Memory-Based Approximation of the Gaussian Mixture Model Framework for Bandwidth Extension of Narrowband Speech”. In quel lavoro, ho proposto una nuova tecnica di modellazione statistica che incorpora informazioni temporali nella lingua parlata. Il vantaggio di questa tecnica è che consente di modellare le informazioni a lungo termine nella lingua parlata con una complessità aggiuntiva minima e in una modalità che permette ancora la generazione di una lingua parlata a banda larga in modalità di streaming o in tempo reale.

Nel giugno 2023 sei stato reclutato come Vice Presidente della Tecnologia presso LXT, cosa ti ha attratto di questa posizione?

Durante la mia esperienza accademica e professionale prima di LXT, ho sempre lavorato direttamente con i dati. Infatti, come ho già detto in precedenza, un punto chiave che ho imparato dal mio lavoro sulla scienza della lingua parlata e sull’apprendimento automatico è il ruolo cruciale che i dati svolgono nel ciclo di vita dei modelli di intelligenza artificiale. Avere abbastanza dati di qualità nel formato corretto è, e continua ad essere, fondamentale per il successo dell’intelligenza artificiale basata su deep learning all’avanguardia. Pertanto, quando mi trovavo in una fase della mia carriera in cui cercavo un ambiente simile a una startup in cui poter imparare, ampliare le mie competenze e sfruttare l’esperienza nella lingua parlata e nell’intelligenza artificiale per avere il massimo impatto, ho avuto la fortuna di avere l’opportunità di unirmi a LXT. Era l’abbinamento perfetto. Non solo LXT è un fornitore di dati di intelligenza artificiale in crescita a un ritmo impressionante e costante, ma ho anche visto che si trova nella fase perfetta in termini di crescita delle conoscenze sull’intelligenza artificiale, nonché delle dimensioni e della diversità dei clienti, e quindi dei tipi di dati sull’intelligenza artificiale. Ho colto al volo l’opportunità di unirmi e contribuire al suo percorso di crescita; di avere un grande impatto portando la prospettiva di un utente finale di dati dopo essere stato un utente di scienziato dei dati di intelligenza artificiale per tutti quegli anni.

Come è una tua tipica giornata lavorativa presso LXT?

La mia tipica giornata inizia con la visione delle ultime ricerche su un determinato argomento, che di recente si è concentrato sull’intelligenza artificiale generativa e su come possiamo applicarlo alle esigenze dei nostri clienti. Fortunatamente, ho un team eccellente che è molto abile nel creare e adattare soluzioni alle esigenze spesso specializzate dei nostri clienti per i dati sull’intelligenza artificiale. Quindi, lavoro a stretto contatto con loro per stabilire l’agenda.

C’è anche, ovviamente, la pianificazione strategica annuale e trimestrale, e la suddivisione degli obiettivi strategici in obiettivi individuali del team e il rimanere aggiornati sulle evoluzioni di quei piani. Per lo sviluppo delle funzionalità che stiamo realizzando, generalmente abbiamo due percorsi tecnologici. Uno è quello di assicurarci di avere i giusti elementi al posto giusto per fornire i migliori risultati nei nostri progetti attuali e nuovi progetti in arrivo. L’altro percorso è il miglioramento e l’ampliamento delle nostre capacità tecnologiche, con un focus sull’incorporazione dell’apprendimento automatico in esse.

Potresti parlare dei tipi di algoritmi di apprendimento automatico su cui lavori presso LXT?

Le soluzioni di intelligenza artificiale stanno trasformando le imprese in tutti i settori, e noi di LXT siamo onorati di fornire dati di alta qualità per addestrare gli algoritmi di apprendimento automatico che le alimentano. I nostri clienti lavorano su una vasta gamma di applicazioni, tra cui realtà aumentata e virtuale, computer vision, intelligenza artificiale conversazionale, intelligenza artificiale generativa, ricerca di rilevanza e linguaggio parlato e elaborazione del linguaggio naturale (NLP), tra gli altri. Ci dedichiamo a fornire l’energia motrice per gli algoritmi di apprendimento automatico e le tecnologie del futuro attraverso la generazione e l’arricchimento dei dati in ogni lingua, cultura e modalità.

Internamente, stiamo anche integrando l’apprendimento automatico per migliorare e ottimizzare i nostri processi interni, che vanno dall’automatizzazione della validazione della qualità dei dati, all’abilitazione di un modello di etichettatura umano-in-the-loop su tutte le modalità di dati su cui lavoriamo.

Elaborazione del discorso e dell’audio sta rapidamente avvicinandosi alla perfezione quando si tratta dell’inglese e in particolare degli uomini bianchi. Quanto tempo pensi che ci vorrà prima che si raggiunga una situazione di parità per tutte le lingue, generi ed etnie?

Questa è una domanda complessa e dipende da una serie di fattori, tra cui economici, politici, sociali e tecnologici, tra gli altri. Ma ciò che è chiaro è che la prevalenza della lingua inglese è ciò che ha portato l’AI al punto in cui siamo ora. Quindi per arrivare a una situazione di parità dipende davvero dalla velocità con cui la rappresentazione dei dati delle diverse etnie e popolazioni cresce online e il ritmo con cui cresce è ciò che determinerà quando ci arriveremo.

Tuttavia, LXT e aziende simili possono svolgere un ruolo importante nel portarci verso una situazione di parità. Finché i dati per le lingue, i generi e le etnie meno rappresentate sono difficili da accedere o semplicemente non disponibili, questo cambiamento avverrà più lentamente. Ma stiamo cercando di fare la nostra parte. Con una copertura per oltre 1.000 lingue e un’esperienza in 145 paesi, LXT aiuta a rendere possibile l’accesso a un maggior numero di dati linguistici.

Qual è la tua visione su come LXT può accelerare gli sforzi di AI per clienti diversi?

Il nostro obiettivo presso LXT è fornire soluzioni di dati che consentano lo sviluppo efficiente, accurato e più rapido di AI. Attraverso i nostri 12 anni di esperienza nel settore dei dati di AI, non solo abbiamo accumulato una vasta conoscenza delle esigenze dei clienti in termini di tutti gli aspetti legati ai dati, ma abbiamo continuamente ottimizzato i nostri processi per fornire dati di alta qualità nel minor tempo e ai migliori prezzi. Di conseguenza, a causa del nostro costante impegno nel fornire ai nostri clienti la combinazione ottimale di qualità dei dati di AI, efficienza e prezzi, siamo diventati un partner di dati AI affidabile come testimoniano i nostri clienti abituali che ritornano sempre da LXT per le loro crescenti e in continuo sviluppo esigenze di dati AI. La mia visione è quella di consolidare, migliorare ed espandere quella “MO” di LXT a tutte le tipologie di dati su cui lavoriamo, nonché a tutti i tipi di sviluppo di AI che ora serviamo, incluso l’AI generativa. Per raggiungere questo obiettivo, ruotano attorno all’espansione strategica delle nostre capacità di apprendimento automatico e di scienza dei dati, sia in termini di tecnologia che di risorse.

Grazie per l’intervista, i lettori interessati a saperne di più dovrebbero visitare LXT.