Scienza dei dati nell’intrattenimento streaming vs cinema

Scienza dei dati nello streaming di intrattenimento versus cinema

Così diverso quanto simile

Foto di Krists Luhaers su Unsplash

Nel mio articolo Next Frontiers in Entertainment Data Science su Toward Data Science, faccio riferimento a come la scienza dei dati può essere applicata in varie fasi del ciclo di vita del contenuto, dalla fase di approvazione alla produzione fino alla distribuzione. Se è facile concepire come le applicazioni della scienza dei dati possano differire, ad esempio, nel decidere quali script dovrebbero essere approvati o nel determinare come ottimizzare i costi di produzione, ci possono essere differenze significative anche tra contesti che, a prima vista, potrebbero sembrare relativamente simili.

Circa un anno e mezzo fa, ho iniziato un nuovo lavoro presso uno dei principali studi cinematografici. Venendo dal settore tecnologico dello streaming, mi aspettavo che le cose fossero più o meno simili, tranne che questa volta avrei lavorato esclusivamente con i dati dei film, anziché con i dati delle serie TV e dei film. Immaginavo che non ci sarebbe stata una grande differenza nell’utilizzare i dati per prevedere la popolarità delle cose, ma mi sbagliavo di grosso.

Il settore è totalmente diverso. Le domande sono diverse, gli interessati sono diversi, i dati sono diversi, ecc. Così ho voluto scrivere questo articolo con due obiettivi in mente. Il primo obiettivo più ovvio è mostrare agli aspiranti e ai giovani professionisti dei dati nel campo dell’intrattenimento come il lavoro della scienza dei dati possa differire tra il contesto teatrale e quello dello streaming. Ma immagino che questo tipo di dinamica possa manifestarsi in molti settori diversi, dove si pensa di fare principalmente la stessa cosa prevedendo Y utilizzando X come hai sempre fatto, solo per scoprire che invece X e Y sono totalmente diversi, anche nella pratica. Quindi il secondo obiettivo più ampio è dare ai professionisti dei dati di tutti i settori un’idea di come, anche se due lavori possono sembrare funzionalmente simili in modo notevole in superficie, possono essere totalmente diversi in vari modi una volta che inizi a scavare davvero nei dati e nelle domande di business in gioco.

Pertanto, di seguito sono riportate alcune delle mie principali osservazioni dopo aver fatto il salto dalla scienza dei dati nello streaming all’intrattenimento teatrale. Salto alcuni punti più ovvi (oh, non ci sono uscite teatrali di serie TV, che sorpresa), ma tocco alcune delle principali tendenze. E ovviamente, nulla di tutto questo è una verità assoluta; può variare a seconda dell’azienda, della leadership del team e simili. Inoltre, sebbene la scienza dei dati possa svolgere un ruolo nelle fasi precedenti del ciclo di vita dei contenuti di intrattenimento, come accennato in precedenza, questo articolo deriva dalla mia esperienza con processi più a valle, più vicini alla distribuzione. Se sembro un po’ ambiguo, è perché non voglio svelare alcun segreto commerciale 😉

Foto di Joshua Sortino su Unsplash

Ambito dei dati

La differenza più immediatamente evidente è la differenza nella portata stessa dei dati. Nella scienza dei dati teatrali, l’unità primaria di analisi è il film, forse il film-paese, e ci sono solo un numero limitato di film che escono in un determinato paese in un determinato anno!

Non significa che non si lavori mai con set di dati più ampi che arrivano a livelli più granulari nel settore teatrale; questi set di dati sono generalmente legati al titolo o a qualche elemento del titolo e spesso si lavora con essi e si elaborano in qualche modo per generare una comprensione rilevante per il titolo. Ma alla fine, perché lo spazio dei titoli è più piccolo di default, la portata dei dati è più piccola. Spero che un giorno possiamo ottenere una visione più dettagliata a livello individuale del consumo nel dominio teatrale come è possibile nel dominio dello streaming, ma almeno per ora non è il caso.

Foto di Michael Marais su Unsplash

Nessun* Dato Storico

In streaming, nella maggior parte dei casi (a eccezione ovviamente delle uscite esclusive per lo streaming), avrai a disposizione una significativa quantità di dati storici con cui lavorare. Quanto ha incassato il film al botteghino? Quale era il buzz sui social media al suo lancio? Come è stato valutato il film su Rotten Tomatoes?

Nello spazio del cinema, questa è un lusso che non hai. Certo, puoi fare affidamento sulla storia di determinati componenti come cast, troupe, genere o una combinazione di essi, ma anche in quel caso questi punti di dati generalmente non saranno collegabili in modo chiaro a un titolo specifico come accade con i dati storici letterali. Inoltre, confrontare i film può essere soggetto a preoccupazioni di soggettività e a fattori esterni che confondono il quadro; come si decide quali film sono veramente comparabili agli altri? Quale ruolo giocano il marketing e le differenze nelle campagne di marketing nella percezione del pubblico sulla somiglianza tra i titoli?

*Sì, le serie e le saghe sono una mezza eccezione a questa regola, ma fare troppo affidamento sulla presunta sequela e similitudine può facilmente ritorcersi contro. Sì, in molti casi, le prestazioni di un capitolo precedente possono essere un buon indicatore approssimativo di quelle del suo successore, ma nel tempo le saghe possono perdere slancio o essere allungate (nuovi personaggi/trame e legami deboli con i capitoli precedenti) fino a diventare irriconoscibili, rendendo le prestazioni dei capitoli precedenti insignificanti per prevedere le prestazioni dei nuovi titoli.

Foto di Scott Graham su Unsplash

Dati Molto Specifici

Provenendo dal territorio di avanguardia tecnologica dello streaming con un team di dati guidato da persone del settore tecnologico, ho passato molto tempo a fare ricerca su quali set di dati potessero essere utili per le nostre esigenze. Nel corso di tale lavoro, ho trovato molti set di dati oscuri che corrispondevano a varie esigenze ed ho indagato su come potessimo raccogliere dati a basso costo che i fornitori vendevano a un prezzo elevato (ad esempio, come ottenere dati di ricerca di Google senza pagare una costosa licenza?).

Nel settore del cinema, gli standard e le convenzioni sembrano molto più consolidati. Ci sono certi set di dati o tipi di set di dati consumer e sui social media che praticamente tutti nel settore utilizzano. Ad esempio, mentre la social listening potrebbe venire in mente come una fonte di dati contemporanea evidente, ci sono importanti fornitori consolidati che forniscono dettagliati dati sui consumatori pre e post rilascio di un film, e alcuni di questi fornitori sono presenti da decenni. Questi sono i tipi di set di dati che molte persone al di fuori dello spazio cinematografico immediato potrebbero non aver mai sentito nominare, ma quando si è nel settore, è tutto di cui si parla.

Foto di Marten Bjork su Unsplash

Nessuna Finestra (o, una Singola Finestra)

Nello spazio dello streaming, la finestra di disponibilità – e in qualche misura, la natura della disponibilità – è un fattore determinante per l’analisi. Tali finestre possono interagire con una varietà di fattori legati al contenuto (ad esempio, il film è ambientato a Natale e la finestra di disponibilità è durante il periodo natalizio?) e al mercato (ad esempio, il film viene mostrato in modo prominente nella pagina principale?).

Come puoi immaginare, queste preoccupazioni sono meno presenti nell’ambito della scienza dei dati cinematografici – o, più precisamente, a meno che tu non stia effettuando una modellazione a monte relativa a “dovremmo fare questo film?” o “quando dovremmo rilasciare questo film?”, tutte le preoccupazioni relative alle finestre di disponibilità sono già state decise per te sotto forma di una data di uscita (probabilmente) al momento in cui ti coinvolgi. C’è solo una finestra di cui preoccuparsi (a meno che tu non debba preoccuparti di date di uscita scaglionate, e in quel caso è un’altra storia), e i Potenti dello Spazio hanno già deciso quando sarà. Ora devi fare del tuo meglio per fornire tutte le informazioni utili che puoi nel contesto di quella finestra.

Foto di Christian Joudrey su Unsplash

Maggiore enfasi sul business

Durante il mio tempo nel settore degli streaming, era facile trattare i titoli e il pubblico come numeri perché avevamo dati su centinaia di migliaia di loro, ma una tale filosofia si rifletteva anche nella metodologia. Era comune non solo generare statistiche riassuntive, ma anche trasformare tutto in qualche tipo di vettore di embedding (cioè una serie di numeri che rappresentano qualcosa in una serie di dimensioni non osservabili dall’essere umano), anche se ciò comportava la perdita di interpretabilità; non significa realmente nulla dire, “La dimensione del contenuto 2 è la variabile più importante nel modello”.

Nel settore teatrale, c’è una maggiore attenzione al business, oltre ai numeri. I dati non sono lì solo per il loro valore numerico, ma per gli insight pratici che possono fornire ai vari stakeholder dell’organizzazione, molti dei quali non sono scienziati dei dati o non lavorano quotidianamente con i dati. Realizzare previsioni accurate è importante, ma altrettanto importante è l’interpretabilità, e non c’è fretta di rinunciare all’interpretabilità solo per ridurre l’errore del modello di una frazione percentuale minima. Allo stesso tempo, mi sento più collegato sia al business che al pubblico nel lavoro che faccio.

Punti chiave e conclusione

Ho affrontato vari argomenti sopra nel contesto del mio passaggio dagli streaming al teatro nell’industria dell’intrattenimento, ma i temi sottostanti implicano porre domande rilevanti per chiunque passi da un lavoro all’altro in una stessa industria. Quindi, per riassumere, prima di presumere che il tuo prossimo lavoro sarà in gran parte simile al tuo ultimo lavoro, basandoti sulle differenze tra la scienza dei dati dello streaming e quella teatrale che ho menzionato sopra, ecco alcune domande che vale la pena approfondire mentre rifletti sulle somiglianze e differenze tra il tuo ultimo lavoro e il prossimo:

  • Portata dei dati: Qual è l’unità di dati? Con quale frequenza vengono aggiunti nuovi dati e quanti ne vengono aggiunti ogni volta? Di conseguenza, quanto grande è l’insieme di dati e quali strumenti sono necessari per gestire un tale insieme di dati?
  • Disponibilità dei dati storici: Che tipo di dati storici è disponibile, se ce ne sono? I dati storici disponibili sono un adattamento diretto o implicano qualche tipo di aggregazione, imputazione o analisi di similitudine?
  • Fonti di dati: Quali fonti di dati vengono utilizzate? Le fonti di dati utilizzate sono più generalmente rilevanti o sono molto specifiche del contesto? Quanto spazio c’è per sperimentare con nuove fonti di dati o per mettere da parte le fonti di dati esistenti? Quali sono i set di dati consolidati e convenzionali che tutti utilizzano?
  • Elementi temporali: Qual è il periodo di rilevanza per la domanda specifica che devi rispondere? Come viene deciso? È singolare o multiplo, fisso o variabile? Come devi tener conto del tempo e dei fattori associati (ad esempio, la stagionalità, le festività, ecc.) nel lavoro? Un particolare periodo di tempo è più interessante per il business di un altro?
  • Enfasi sul business: Chi è il pubblico? In base a questo, qual è l’equilibrio tra accuratezza e interpretabilità che deve essere raggiunto? E come ciò influisce sul tipo di caratteristiche che trovi utili? Come il ritmo del business influenza il ritmo del lavoro?

Chiaramente, sono stato assunto per la mia posizione attuale perché le mie competenze sono rilevanti per i compiti lavorativi e quello che faccio è simile a ciò che facevo prima, ma la scienza dei dati nel settore teatrale rispetto al settore degli streaming è in qualche modo diversa quanto è simile. Come ho spiegato sopra, i dati sono diversi, i processi sono diversi e le aspettative sono diverse. Spero che tu abbia trovato utile questo articolo se speri di entrare nel campo affascinante della scienza dei dati nell’intrattenimento o stai ponderando un cambio verso un lavoro simile ma diverso in qualunque settore tu sia!

Al momento della scrittura, Danny Kim (PhD, Università della Pennsylvania; Forbes 30 Under 30 2022) è un Senior Data Scientist nel team Marketing Analytics & Insights del Sony Pictures Entertainment Motion Picture Group. Danny ha lavorato in precedenza presso Whip Media e Paramount Pictures ed è un ex alunno delle Scuole Annenberg per la Comunicazione presso Penn e USC; The Wharton School; e la USC School of Cinematic Arts.