Seconda tappa del percorso alla scoperta dell’uso dei dati nella televisione contemporanea. Stavolta, al centro è il prodotto, e le modalità sempre più raffinate per descriverlo.

Sapere se un utente ha visualizzato un contenuto, per quanto tempo e fino a che punto sono tutti dati fondamentali per capirne i gusti. Ma se non sappiamo di cosa quel contenuto tratta abbiamo solo metà delle informazioni necessarie. Per un contenuto video, film o serie tv, siamo abituati a un insieme di informazioni piuttosto standard per la sua descrizione: genere, durata, regista, attori principali, trama e poco altro. Queste informazioni sul prodotto sono chiamate metadati, ovvero dati che descrivono il contenuto stesso. Semplicemente con l’insieme standard di informazioni si può arrivare a un’elaborazione relativamente sofisticata delle preferenze dell’utente: se vede soprattutto film horror è probabile che quello sia il suo genere preferito. Potremo quindi consigliargli altri film dello stesso genere che ancora non ha visto, o quantificare la numerosità della tribù degli amanti del genere horror per sapere se vale la pena investirci, in termini di acquisizioni o produzioni.

Oltre le informazioni standard

Basarsi però solo sull’insieme standard di informazioni pone un problema importante: fare riferimento a un corredo informativo a disposizione di tutti non fa guadagnare nessun fattore differenziante. È evidente che la sola anagrafica di un contenuto video è un insieme decisamente limitato d’informazioni. Descrivere un film come Blade Runner solo come di genere fantascentifico, diretto da Ridley Scott e interpretato da Harrison Ford, è a dir poco limitativo per la complessità che quel contenuto esprime. Perdere tutte le altre informazioni limitandosi alla descrizione dell’anagrafica standard significa non poter cogliere le sfumature – più o meno marcate – che spingono un utente ad amare un titolo. Potremmo avere tribù che detestano film con scene di violenza, forti esplosioni e finali tristi. Con queste informazioni potremmo allo stesso tempo verificare come una musica allegra, scene luminose e un finale epico trovano invece il gradimento di una larga fascia del nostro pubblico.

Sia che si voglia capire meglio un utente per consigliargli e costruirgli un esperienza di visione più vicina ai suoi gusti, sia che si voglia trovare la formula del programma perfetto, gli ingredienti che si debbono utilizzare non possono essere solo quelli standard. È necessario fare un lavoro ben più sofisticato, e farlo su contenuti video è un processo particolarmente oneroso. Come sempre, la soluzione arriva dalla combinazione del lavoro che possiamo affidare alle macchine e dal fondamentale contributo degli esperti del settore, rigorosamente umani. Anche qui per capire fin dove è possibile spingerci è utile analizzare il caso di Netflix che rappresenta, tanto per cambiare, una delle poche eccellenze.

I dati delle macchine

Il primo mondo da analizzare è quello delle macchine, dove una serie di algoritmi possono estrarre metadati da un filmato. È un processo che fino a qualche anno fa sarebbe sembrato insostenibile, sia per la complessità sia per i costi. Negli ultimi anni abbiamo però avuto due evoluzioni fondamentali che hanno reso questa strada percorribile: l’aumento della disponibilità di calcolo, soprattutto grazie al cloud, e il raffinarsi delle tecnologie di deep learning: macchine che imparano da sole da una grande quantità di esempi. Far processare un video a una macchina oggi costa poco, è relativamente rapido e produce risultati molto interessanti.

Un primo livello di metadati che si possono estrapolare in questo modo è dato dall’analisi del segnale: possiamo per esempio estrarre da ogni scena il livello del colore, il volume del sonoro, e così via. Sempre per ogni scena, possiamo identificare le cosiddette entities presenti, ovvero gli elementi di interesse: il volto di un attore, un oggetto (una macchina, una borsa), la location (città, montagna, mare), elementi di scenario generici (un ponte, una torre, un fiume) o specifici (il Colosseo, la Tour Eiffel), la presenza di un brand (Apple, BMW, Barilla), e via discorrendo. Una macchina opportunamente addestrata può riconoscere migliaia di entities creando automaticamente una dettagliata taggatura di ogni scena di un video. In più, è possibile riconoscere anche i brani musicali e trascrivere tutti i dialoghi presenti. Avendo a disposizione tutti i testi, potremmo ulteriormente processare questa informazione alla ricerca di atre entities presenti. Avremo quindi come risultato una descrizione puntuale del video per ogni sua scena, con decine di tag associate: tutto grazie alle macchine.

Questa elaborazione, oltre ad avere un grandissimo valore nella descrizione di ogni singolo contenuto, può essere anche messa a servizio diretto dell’utente finale. Amazon per esempio, per il suo Instant Video, ha attivato la funzionalità “X-Ray”, che permette per ogni scena di un film di sapere quali sono gli attori che la stanno interpretando (con relativa biografia). E si possono cercare tutti i film in cui è presente un attore, arrivando ad evidenziare le scene dove effettivamente compare.

E poi c’è l’uomo…

L’insieme di informazioni anagrafiche ed estrazione di entities offre già una base importante per sofisticate elaborazioni sul consumo video. La vera differenza però arriva dall’intervento umano: ed è qui che Netflix riesce a fare veramente la differenza.

Nel 2014, il giornalista americano Alexis Madrigal, incuriosito dalla varietà di categorie con cui sono presentati i contenuti di Netflix, ha eseguito un semplice quanto potente studio. Il risultato è sorprendente: Netflix ha 76.897 modalità uniche di definizione di un contenuto video. Un numero impressionante, ottenuto dalla combinazione di una quantità altrettanto importante di attributi.

Assoldando squadre di “esperti” di cinema e tv, Netflix ha fatto visionare, e quindi taggare, quasi la totalità dei film e delle serie in circolazione. Il processo è cosi preciso e sofisticato che i taggatori devono effettuare preliminarmente un percorso di training che prevede, tra l’altro, lo studio di un manuale di oltre 36 pagine. Quella che potremmo definire la “bibbia” del taggatore è stata scritta da Todd Yellin, attuale vice president dell’Innovazione di prodotto di Netflix, che ha dato alla sua creatura un nome molto affascinante: “Netflix Quantum Theory”. Il titolo non solo è d’effetto, ma nasconde il segreto dell’approccio con cui è stato affrontato il processo di taggatura dei contenuti. Come un quanto è in fisica un piccolo pacchetto di energia, così per Netflix è un piccolo pacchetto di informazioni in grado di descrivere una porzione di contenuto. Sono chiamati in gergo anche microtag, ovvero informazioni che combinate tra di loro riescono a descrivere un prodotto con straordinaria profondità ed estensione.

Il numero di microtag definiti nella “bibbia”, pur non essendo ufficialmente noto, parrebbe essere impressionante. Per fare solo qualche esempio, sono definiti: l’accettabilità sociale del comportamento di ogni personaggio protagonista, la tipologia di finale, l’ambientazione storica, il mood, il mestiere svolto dai protagonisti, fino alle nomination e ai premi vinti dal titolo. Molti microtag hanno una valorizzazione cosiddetta scalare, generalmente da 1 a 5. Il livello di violenza di un film per esempio è attentamente pesato e quindi valutato, come il romanticismo della storia, e così via.

Il lavoro svolto, e in realtà in continuo svolgimento, ha permesso a Netflix di avere il più completo corredo di metatag che si conosca per i prodotti cinema e tv. E – si noti bene – non solo dei prodotti distribuiti da Netflix, ma di qualsiasi titolo presente sul mercato. Un lavoro di grande portata eseguito con l’ausilio di esperti del settore, che sommato ai dati estrapolati dalle macchine porta a un’estensione notevole. Arrivando a coprire questo livello di dettaglio, si possiedono le basi per effettuare elaborazioni predittive molto sofisticate.

Avere tanti dati e di qualità naturalmente non basta: è fondamentale sapere come aggregarli, elaborarli, e quindi quali sequenze di algoritmi applicare. Su quale sia la formula Netflix per il programma perfetto si hanno poche tracce. Di certo si sa che il lavoro di raffinamento nella raccolta ed elaborazione dei dati è in continua evoluzione, e che è prevalentemente un’attività che l’azienda svolge sviluppando prodotti, intelligenza e algoritmi al suo interno. Non si affida a soluzioni di mercato da “scaffale”, ossia prodotti che chiunque può acquistare ottenendo più o meno gli stessi risultati. Avere tecnologie proprietarie, uniche e altamente performanti, consente di avere un vantaggio competitivo difficile da colmare.

Ma Netflix non usa l’enorme mole di dati solo per cercare il Sacro Graal. Ne fa anche un altro uso, forse ancora più importante: rendere unica l’esperienza dei suoi utenti. Su questo fronte sono molte più le informazioni a disposizione, anche perché agli ingegneri di Netflix è consentito descrivere sul blog tecnico aziendale le soluzioni sviluppate e pubblicare in modalità open source intere porzioni della loro architettura, a beneficio di una comunità di contributori sempre più vasta. (continua)