Dai dati di ascolto ai big data di Netflix la tv è cambiata parecchio. Prima tappa di un approfondimento necessario: quali dati si raccolgono sugli utenti, e perché.

Nei suoi primi decenni di vita, l’industria televisiva è rimasta relativamente stabile, subendo poche ma significative rivoluzioni: la multicanalità, il colore, il telecomando. Evoluzioni che di base hanno cambiato la qualità del prodotto e il modo di consumarlo da parte dei sempre più numerosi utenti. Ma il vero terremoto che ha cambiato per sempre il mondo della televisione è stato il suo abbraccio, secondo alcuni ancora oggi mortale, con il mondo dei numeri.

In principio è stata Auditel

In Italia, dal 1986 Nielsen per conto di Auditel (nata un paio di anni prima) comincia le prime rilevazioni dell’audience, sancendo quella che da qualche anno era un’evidenza inequivocabile: la nascita della televisione commerciale. Il programma tv diventa un prodotto concepito, realizzato e collocato in palinsesto per attirare il maggior numero di telespettatori possibile, e vendere al suo interno pubblicità a un prezzo maggiore. Più spettatori guardano un programma, più valore hanno gli spazi pubblicitari. Di contro, se un programma è poco visto, il suo valore commerciale è scarso, se non nullo.

La nascita dell’Auditel ha avuto questo obiettivo: misurare in maniera rigorosa, con un sistema di regole e controlli riconosciuto dal mercato, il numero di spettatori che ha seguito un programma. Da quel momento in poi, la bontà di un prodotto televisivo ha un’unità di misura precisa, che fornisce ai produttori uno strumento potente per studiare il successo di un programma, provare a capirne gli ingredienti segreti, poterlo replicare usando formule simili su concept differenti.

La domanda che sempre più di frequente ci si è posti è cominciata a essere: cosa rende un programma televisivo un successo, seguito da milioni di persone? Quali sono gli elementi che determinano l’afflusso e la permanenza del pubblico? È nata una sorta di caccia alla formula magica, che ha visto lo spopolare dei format, quelle formule che, indipendentemente dal mercato dove sono concepite, possono essere prese e adattate in qualsiasi paese con una ragionevole certezza di poterne replicare il successo. È inutile qui dibattere se la qualità generale del prodotto sia per queste ragioni diminuita o elevata: certo è che l’industria tv, da quando ha stabilito che i dati di ascolto fossero il suo credo, è cambiata per sempre.

La ricerca del Sacro Graal degli ascolti è rimasta una costante, raffinandosi nelle rilevazioni e tecniche di analisi, arrivando a concepire programmi o canali costruiti apposta per catturare specifiche audience di interesse commerciale: casalinghe, mamme, bambini, sportivi sono diventanti segmenti da colpire, e per loro sono stati creati prodotti su misura. Non più solo quindi il maggior numero di spettatori possibile, ma spesso anche un target rispondente a un preciso profilo di pubblico.

Pur con campioni sempre più ampi e con strumenti più semplici e potenti, le tecniche di rilevazione sono rimaste su base statistica: un ampio numero di famiglie dotate di un box grazie a cui registrare il consumo tv, selezionate perché rappresentative dell’intero universo nazionale. Una combinazione quindi della volontà dell’utente di segnalare chi è davanti al televisore, della rilevazione automatica del programma visto e di una grande dose di statistica inferenziale per stabilire con precisione relativa chi e quanti hanno visto un determinato programma.

Un rapido cambiamento

Dalla metà del decennio scorso però la situazione è cominciata a cambiare, molto rapidamente. Nel 2005 nasce YouTube. Un anno dopo è la volta del servizio video di Amazon (oggi Instant Video). Nel 2008 Netflix evolve da azienda di consegna a casa di dvd in un completo servizio di streaming online. Con loro esplode una miriade di piccoli o grandi fornitori di contenuti on demand che stravolge in poco tempo il mondo della tv. È cominciata l’era della televisione dove vuoi e quando vuoi, e per l’industria televisiva l’era dei big data. Fruendo di un video online, un utente fornisce una quantità di informazioni sulle sue preferenze, abitudini e intenzioni che costituiscono una vera miniera d’oro per chi è in grado di analizzarli ed elaborarli per comprendere e prevedere cosa veramente può piacere agli spettatori. Non è più solo inferenza statistica su dati campionari, ma una miriade di informazioni che ha aperto, ai ricercatori del Sacro Graal del “programma perfetto”, la strada maestra verso il successo.

Ad alimentare il mito, creando una vera e propria leggenda, è stato Kevin Spacey durante un memorabile discorso tenuto all’Edinburgh Television Festival nel 2013 (paragonabile per l’industria tv a quello che Steve Jobs fece nel 2005 ai neolaureati all’Università californiana di Stanford). Spacey dedica un passaggio dello speech alla modalità classica impiegata dall’industria per selezionare una potenziale serie di successo, ovvero realizzare un pilota, mostrarlo a un pubblico selezionato, valutarne l’impatto e poi decidere se continuare con la produzione della serie. Ricorda come nel 2012 sono stati prodotti 113 pilota di serie, dei quali 35 sono stati selezionati per andare in onda e solo 13 sono stati rinnovati per una seconda stagione. Il costo della produzione dei soli pilota è stato di circa 300/400 milioni di dollari. Racconta quindi come anche House of Cards ha suo malgrado subito lo stesso destino: “Siamo andati dai principali network a presentare il progetto e tutti erano interessati all’idea. Ma tutti ci hanno chiesto di sviluppare prima un pilota”. Dopo aver sottolineato la difficoltà di esprimere tutte le complessità di una serie cosi sofisticata in un singolo episodio da 45 minuti, Spacey lancia una bomba che ha avuto un effetto devastante per tutta l’industria, raccontando come Netflix sia stato l’unico network che ha loro risposto: “Crediamo in voi. Abbiamo fatto girare i nostri dati e quest’analisi ci ha detto che il nostro pubblico guarderà questa serie. Non abbiamo bisogno che realizziate un pilota”. E così Netflix ha ordinato la produzione in blocco delle prime due stagioni di House of Cards, assicurandosi uno dei più grandi successi di critica di pubblico e, soprattutto, mostrando al mondo il suo volto di data company.

Si fa presto a capire come, dopo il successo esplosivo di House of Cards e l’affascinante racconto di Spacey sulla sua genesi, sia nato un nuovo mito che ha scosso l’industria televisiva: è stato dimostrato che è possibile creare il programma perfetto, ed è possibile farlo senza spendere soldi per episodi pilota, focus group, e così via. Affascinante, sorprendente, rivoluzionario.

Oltre le leggende

Come sempre, però, tra mito e realtà ci sono differenze non trascurabili. Per capire come sono andate davvero le cose, prima di scoprire i “segreti” di Netflix, è importante passare per un’altra storia, molto simile nelle intenzioni, decisamente differente nel suo svolgimento e soprattutto nel risultato finale.

La storia è quella di Amazon, che nel 2012 decide di produrre contenuti originali per il suo servizio video. Per la selezione dei contenuti è formato un team guidato da Roy Price, ora capo della Media Development Division degli Amazon Studios. Il gruppo aveva ricevuto una quantità importante di proposte di nuove serie tv originali e dopo una prima selezione ha deciso di selezionarne otto e di produrre per ognuna un pilota. Gli episodi sono stati quindi pubblicati su Amazon in forma gratuita, a beneficio di chiunque volesse scoprire una nuova serie. Naturalmente tutti i comportamenti di consumo degli episodi sono stati meticolosamente registrati dal team di Roy Price: visualizzazioni, pause, skip di una porzione di video, scene viste. Una grande quantità di dati registrati ed elaborati con grande cura per decidere che tra gli otto candidati la serie tv da produrre era quella che narrava le vicende di quattro senatori statunitensi: Alpha House. Se non avete mai sentito parlare della serie, che pure è stata rinnovata per una seconda stagione, non c’è da stupirsi: la serie avuto un successo mediocre sia di pubblico sia di critica. Insomma Amazon, nonostante la sua natura di data company, e nonostante la quantità di dati catturati per trovare il suo programma perfetto, ha miseramente fallito.

Come si può intuire, Netflix ha usato un approccio molto differente, con risultati ben più soddisfacenti. Non è partita producendo episodi pilota e quindi misurando quale funzionava meglio per decidere la nuova serie originale da far nascere. Ma è partita dall’analisi della sua base. Ha analizzato quali sono le preferenze degli utenti in termini di generi, attori, registi, ambientazioni, tipologie narrative. Ha poi messo gli utenti in relazione con se stessi e con i contenuti per creare all’interno del suo universo una serie di “tribù” accomunate da interessi, gusti, inclinazioni similari. In questo modo è possibile sapere – per esempio – quanto numerosa è la tribù di amanti del genere politico, ambientato negli Usa, con un plot sofisticato, un livello di cinismo molto alto, interpretato da grandi attori cinematografici (come Spacey) e diretto da registi con tratti simili a David Fincher. È possibile così sapere quanto è grande la tribù di potenziali amanti di House of Cards, senza averlo mai visto o doverne realizzare un pilota.

È un insieme di dati sul consumo degli utenti e sul prodotto che rende possibile stimare le dimensioni di specifiche tribù e prevederne l’evoluzione, la morte o la nascita. A tutto ciò va aggiunto un fattore che anche nella sovrabbondanza di dati è da tenere in massima considerazione: quello umano. La vera differenza tra Alpha House di Amazon e House of Cards di Netflix è stato il modo con cui i dati sono stati selezionati, analizzati e – soprattutto – utilizzati. Mentre Amazon si è affidata totalmente al responso dei numeri, nella convinzione che fosse sufficiente raccogliere una quantità importante di punti-dato per avere un risultato certo, Netflix ha invece seguito un percorso che vede i dati solo come il primo stadio per comprendere le tendenze, per leggere le evidenze nascoste, per evidenziare gli spostamenti di interesse o le concentrazioni di gradimento. Il primo passaggio essenziale è l’architettura dei dati da raccogliere, poi però viene l’elaborazione e infine il giudizio del cervello umano. Il team di Netflix, guidato da Ted Sarandos, chief content officer dell’azienda, ha saputo ascoltare con attenzione quello che i dati “dicevano”, e in base alla sua esperienza e sensibilità ha saputo scegliere tra decine di proposte, puntando sulla produzione di House of Cards.

Questa è una lezione fondamentale da tenere sempre a mente quando si governano grandi quantità di informazioni: i dati sono importanti, ma altrettanto importante è la capacità umana di prendere delle decisioni. I dati possono aiutare a capire e a decidere, ma usare solo ed esclusivamente i dati è un processo pericoloso che può portare facilmente a false conclusioni.

Le persone, poi ai dati

L’elemento umano è quindi fondamentale: avere grandi teste con una forte esperienza specifica è un fattore determinante. Ma se si vogliono utilizzare i dati per coadiuvare il processo decisionale bisogna fare attenzione a due fattori: averne tanti, e di grande qualità. La qualità del dato è determinata dal suo grado di certezza e dall’attinenza con il problema da analizzare. Il dato di maggiore qualità è senz’altro quello dichiarato direttamente dall’utente, seguito da quello inferito dalle misurazioni puntualmente eseguite. Posso sapere che un utente è un fan di Kevin Spacey perché lo ha espressamente dichiarato o perché è stato misurato un suo comportamento di visione che lo ha visto consumare la quasi totalità dei film con protagonista l’attore. Più punti-dato si riescono a registrare, più informazioni possono essere messe al servizio di uno o più processi induttivi per ricavare un profilo di interessi e intenzioni. Di base gli utenti sono restii a fornire esplicitamente grandi quantità di informazioni sui propri gusti e interessi, specialmente se vengono costretti a interminabili “questionari” nel processo di registrazione (elenca i tuoi 10 film preferiti; i tuoi 10 registi preferiti; i tuoi 10 attori proferiti). È quindi fondamentale raccogliere il maggior numero possibile di dati durante l’esperienza di consumo. Si può estendere tale principio anche al di là della singola esperienza utente: se si crede per esempio che anche i fattori meteorologici, i grandi eventi, le festività possano influenzare in qualche modo la fruizione dell’offerta è fondamentale registrare anche questi punti-dato. È noto che se fa particolarmente freddo in un giorno di festa la gente tende a uscire meno di casa e quindi allora, in quell’area geografica, funzionerà meno il prodotto outdoor a favore di un intrattenimento prettamente domestico. Se si vogliono fare previsioni di questo tipo, è necessario quindi avere anche queste informazioni e averle su base storica.

La quantità di dati, infatti, non è solo da riferirsi a quelli che possiamo raccogliere per ogni utente, ma anche alla numerosità del campione e alla profondità dello storico. Se ho raccolto informazioni su 100 utenti per una settimana, anche se la quantità e la qualità di dati per singolo utente sono molto elevate, è impossibile pensare di effettuare previsioni su come andrà il consumo di tutto l’universo per i prossimi dodici mesi. È necessario misurare un numero significativo di individui per evidenziare tendenze o per creare tribù su cui impostare dei ragionamenti.

Ampiezza, profondità e storico

Quando si parla di big data si intende un grande numero di informazioni per ogni singolo utente, per un numero importante di utenti e con uno storico significativamente profondo. Non si può quindi entrare nel mondo dei dati dal giorno alla notte (a meno di non acquisire in blocco basi di dati già esistenti). Per questo è importante cominciare una raccolta dati strutturata e di ampio spettro, indipendentemente dall’utilizzo immediato. È con l’aumentare della base utenti e della profondità dello storico che si potrà incominciare a vedere il reale valore di tutte le informazioni immagazzinate.

Un esempio di cosa significhi collezionare tanti dati e di grande qualità per l’analisi, la comprensione e la previsione del consumo televisivo è ancora una volta Netflix. Ecco alcuni numeri sul 2012: 28 milioni di utenti; 30 milioni di video visti ogni giorno; più di 2 miliardi di ore di video visti ogni 3 mesi; circa 4 milioni di ratings (di voti) ogni giorno; 3 milioni di ricerche ogni giorno. Questo è indubbiamente un grande numero di dati, considerando poi che dai circa 28 milioni di utenti che Netflix aveva nel 2012 è passata a quasi 80 milioni nel corso del 2016, dopo un’ulteriore espansione che la vede ormai presente in oltre 190 nazioni: è una quantità di dati impressionante.

Per ogni utente Netflix registra un numero importante di informazioni. Alcune le possiamo conoscere da una lettura approfondita dei documenti tecnici che frequentemente vengono condivisi in rete dall’azienda: data, ora e device utilizzato per ogni collegamento; data, ora e device per ogni contenuto fruito; per ogni stream video sono registrati gli eventi di play, pausa, rewind e fast forward e a ogni evento scatenato è registrato uno screenshot della scena che si stava visualizzando; dati di geo-localizzazione, per sapere da dove l’utente si sta collegando (con un livello di precisione che può arrivare a poche decine di metri); i dati dei social media dell’utente; le schede contenuto visualizzate; i voti attribuiti ai programmi; le ricerche effettuate; lo scroll sia verticale che orizzontale di ogni pagina e per ogni “vetrina” di contenuti.

Questa è solo una parte di ciò che Netflix raccoglie per ogni utente. Moltiplicandoli per 80 milioni di utenti per singolo giorno, si capisce facilmente come Netflix possa condurre sofisticate elaborazioni per verificare quante tribù sono presenti tra i suoi utenti e quanto possano essere numerose. Cosi come è evidente che Netflix è in grado di sapere dove abitiamo e lavoriamo, quanti smartphone, tablet e pc abbiamo, e può predire che da casa, il venerdì sera, quando fuori piove saremo più propensi a guardare un film d’azione, o una commedia romantica, preferibilmente sul nostro tablet.

Anche se il numero di dati può fare impressione, è tutto autentico e avviene da ormai 10 anni. Lo storico che Netflix possiede è giunto a una profondità tale da consentirle di operare elaborazioni particolarmente sofisticate su tutta la base. L’espansione dai soli Stati Uniti a oltre 190 Paesi in tutto il mondo sta consentendo a Netflix di studiare le differenze di gusti, comportamenti e intenzioni delle persone in tutti i principali mercati tv del globo. L’espansione internazionale ha posto all’azienda nuove sfide, avendo avuto immediatamente coscienza che un’elaborazione fatta con dati provenienti dagli Stati Uniti non è automaticamente traducibile, per esempio, per il pubblico francese. Ogni nazione ha le sue particolarità. Le tribù sono diventate sempre più numerose e sempre più accuratamente descritte.

Dal 2012, quando Netflix decise di produrre House of Cards “facendo girare i suoi dati” a oggi, la capacità che l’azienda ha sviluppato per trovare il programma perfetto è aumentata enormemente: per la crescita della sua base utenti, la sua internazionalizzazione e quindi la profondità della storia dei suoi dati. E anche – inconfutabilmente – per un progressivo e inarrestabile raffinamento nei metodi di raccolta ed elaborazione dati. È chiaro che la definizione che Netflix dà di se stessa è particolarmente centrata: data company. Una società che più di tutto lavora e guadagna elaborando dati. Non a caso le cifre che trapelano dicono di un budget annuale di oltre 150 milioni di dollari che Netflix spende per il perfezionamento dei sistemi di raccolta ed elaborazione. Numeri che parlano da soli, e che spiegano molto bene perché Netflix sia considerata da tutti i player dell’industria televisiva la principale minaccia esistente. Ma nell’analisi dei dati utilizzati da Netflix per le sue elaborazioni abbiamo trascurato una parte fondamentale, che affronteremo presto: i metadati sui contenuti. [continua]