Come ho costruito un sistema di raccomandazione video utilizzando grandi modelli di linguaggio e un database di vettori

Costruzione di un sistema di raccomandazione video con modelli di linguaggio e database di vettori

Sfrutta grandi modelli di linguaggio, strumenti di analisi testuale e dell’elaborazione del discorso all’avanguardia e database di vettori per creare una soluzione di raccomandazione audio end-to-end.

Introduzione

La nostra generazione è fortunata ad avere a disposizione servizi di streaming di qualsiasi tipo, dal contenuto audio a quello video.

Dai nostri telefoni, computer portatili e altri dispositivi digitali, possiamo facilmente sentirsi sopraffatti a causa della velocità con cui vengono generati tali servizi.

Alla fine della giornata, saremo interessati solo a un tipo specifico di contenuto, non alle canzoni o ai podcast generati da tutto l’universo 🌏.

In questo articolo, imparerai come sfruttare grandi modelli di linguaggio e database di vettori per creare un sistema di raccomandazione audio, che suggerirà i migliori video in base agli interessi degli utenti.

Flusso di lavoro della raccomandazione e componenti principali

Prima di immergerci nell’implementazione tecnica, diamo uno sguardo al flusso di lavoro generale del sistema di raccomandazione che stiamo cercando di costruire.

Flusso di lavoro della raccomandazione (Immagine di Autore)
  • Prima di tutto, raccogliamo video e li trasformiamo in audio usando Python.
  • Successivamente, il modello whisper di OpenAI viene utilizzato per trascrivere l’audio in testo.
  • Dopo di che, utilizziamo il modello text-embedding-ada-002 per generare incorporamenti della trascrizione.
  • Questi incorporamenti vengono utilizzati per popolare un database di vettori, che viene utilizzato per eseguire le query.

Una rapida panoramica del modello whisper

I modelli whisper sono modelli potenti di text-to-speech e sono stati sviluppati per studiare la capacità dei sistemi di elaborazione del discorso per compiti come il riconoscimento vocale e la traduzione.

Il modello è stato allenato su 680.000 ore di dati audio etichettati, che secondo gli autori è uno dei più grandi mai creati nel riconoscimento vocale supervisionato.