Intervista a Gnip, una delle società più importanti nell’analisi big data legate ai social, non a caso acquistata di recente da Twitter.

Siamo nell’era del big data. Un diluvio inarrestabile di dati, una massa d’informazioni che noi stessi generiamo, spesso indirettamente, attraverso l’utilizzo diffuso di qualsiasi dispositivo elettronico e che va ad alimentare giganteschi database. Ma non solo. Il vero cambiamento arriva da tutti gli altri dati, come le 24 ore di video delle telecamere di sicurezza, il traffico dei telefonini, le coordinate dei Gps sulle automobili, le transazioni delle carte di credito e qualsiasi altro elemento che oggi l’informatica – e qui sta la vera novità – consente di equiparare ai dati online, di trasformarli cioè in byte, per poterli facilmente gestire, ricostruire, catalogare, aggregare e interpretare. Il driver principale dei big data è quindi la possibilità di effettuare business analytics in contesti dove non sarebbe possibile, o solo con tempi e costi inaccettabili.

Secondo molti analisti sono tre gli elementi (detti “le tre V”) che trasformano l’informazione in big data. Ovviamente il Volume: per parlare di big data la dimensione della base dati deve essere almeno di 5 petabytes (5 biliardi di bytes), ma trattasi di convenzioni in continuo mutamento. La Velocità, che non si riferisce alla crescita, ma alla necessità di comprimere i tempi di gestione e analisi, perché in brevissimo tempo il dato può diventare obsoleto. E infine la Varietà, quindi non solo dati strutturati facilmente memorizzabili e accessibili dai comuni software di gestione, ma anche quelli non strutturati, che contengono immagini, documenti, grafici, file audio o video. Basti pensare a un post di un blog, a un tumblr o a un tweet.

All’interno del variegato mondo del big data, l’aspetto più interessante a livello di sviluppo e crescita è sicuramente quello legato ai social media. “I mercati sono conversazioni” sosteneva nel 1999 un gruppo di futurologi ed economisti illuminati riuniti sotto l’ombrello del Cluetrain Manifesto e delle 96 tesi in cui preconizzavano il rivoluzionario cambiamento che il web avrebbe portato negli anni successivi. Al tempo furono presi per pazzi visionari, ma oggi possiamo dire che ci avevano visto giusto: non solo le conversazioni in rete sono diventate un mercato rilevante nel contesto digitale, ma queste influenzano fortemente anche tutti gli altri mercati dei consumi e dei media, in un modo assai più dirompente dell’effetto che scatenò la pubblicità negli anni Sessanta. Per aziende, organizzazioni e istituzioni è sempre più interessante tuffarsi in questo mare di chiacchiere, immagini, dati, opinioni e informazioni da elaborare per rendere più efficiente l’operatività e dare un ulteriore supporto, consuntivo e previsionale, ai processi interni di decision making.

In Colorado c’è un’azienda nata nel 2008 che si chiama Gnip: è stata soprannominata “la Grand Central Station dei social data” e inoltre la rivista Fast Company l’ha inserita nell’elenco delle dieci imprese più innovative del 2013. Gnip è una società che è in grado di accedere al firehose e quindi al flusso dei social data di una serie di social media tra cui Twitter, Tumblr, i blog di WordPress, Flickr, Instagram, Reddit, Discuss e Bitly e fornire questi dati normalizzati ai clienti che sono interessati a elaborarli.

Prima di approfondire il tema, è però importante puntualizzare cosa sono e cosa comprendono i social data. Per social data si intendono tutte quelle informazioni espresse in una forma leggibile dal computer (per esempio nel formato JSON in ambiente Java) e che contengono metadati relativi non solo ai contenuti, per esempio di un tweet, ma anche al contesto e quindi tutte le informazioni sulla posizione, sul livello di engagement di chi l’ha scritto (per esempio, il punteggio Klout che misura il grado di influenza dell’utente), sulla lingua utilizzata, gli eventuali url dei siti web che sono stati linkati e l’interazione che ha generato (retweet e like). Ovviamente i social data sono relativi solamente ad attività pubbliche e non ai messaggi di tipo privato. Tutti questi dati vengono normalizzati, cioè resi omogenei indipendentemente dalla piattaforma di provenienza, sia essa Twitter, Instagram o Tumblr.

Il Principal data scientist di Gnip, Scott Hendrickson, ci ha offerto ulteriori informazioni sull’attività dell’azienda: “Gnip è un fornitore di social data dei principali social media in real-time, il che significa circa dieci secondi dopo che sono andati online. Rileviamo testi, hashtag, immagini, retweet, reblog. In particolare siamo una delle due società autorizzate da Twitter ad accedere al loro firehose e fornire la totalità del loro tweet ai clienti commerciali; poi abbiamo una licenza esclusiva su Discuss, Tumblr e i blog WordPress. È un’attività intensissima se pensiamo che ci sono in media circa 400 milioni di tweet al giorno (20.000 tweet al secondo), e 100 milioni di post su Tumblr. In pratica forniamo ai nostri clienti più di 100 miliardi di attività di social data”.

Ma chi sono i veri destinatari finali dei servizi di Gnip? Ecco la risposta di Hendrickson: “La base principale dei nostri clienti è costituita dalle società che si occupano di social media monitoring alle quali forniamo i social data, che a loro volta fanno analisi più mirate per i loro clienti. Poi c’è un’altra serie di clienti finali molto variegata che va dagli analisti di Wall Street ai reparti marketing di grosse corporation (in pratica il 90% delle aziende Fortune 500), fino agli enti governativi che si occupano di disastri naturali. Tra i nostri clienti oggi c’è anche la Biblioteca del Congresso degli Stati Uniti d’America, a cui forniamo l’archivio completo di Twitter per aiutare i loro ricercatori a costruire un archivio sostenibile per le generazione future. Gli utilizzi dei social data sono pressoché illimitati e spesso ci sorprendiamo noi stessi delle opportunità che possono nascere”.

Quindi Gnip è principalmente un fornitore di materie prime, i social data, grezzi ma normalizzati, e poi esistono società apposite di social media monitoring che permettono di fare analisi più specifiche e approfondite. “Oltre al dato real-time riusciamo a fornire direttamente dei dati storici, perché i nostri clienti sono anche molto interessati a una prospettiva sul lungo periodo dei social data”, ci rivela Hendrickson.

Social tv

Ma andiamo a toccare un argomento concreto che ci interessa da vicino, ovvero l’incontro tra la social tv e i social data. Nella logica del second screen i social data possono essere di gran valore per i network televisivi per rilevare non solo la quantità delle conversazioni che vengono generate prima, durante e dopo uno show, ma anche cercare di capirne il gradimento. Tv e web sono mondi sempre più interrelati: negli Usa a partire dall’autunno 2013 il servizio “Nielsen Twitter TV Ratings”, grazie anche ai dati forniti da Gnip, analizzerà non solo quante persone twittano su una trasmissione tv, ma anche il numero di lettori di un tweet e dei suoi commenti. Consente quindi di misurare l’impatto social di una trasmissione o di una campagna pubblicitaria. Questo rappresenta decisamente una svolta nel campo della social tv, in quanto proveniente da una società che è un importante punto di riferimento per l’audience televisiva americana.

“Il flusso di Twitter contiene molte informazioni sulle trasmissioni tv, specialmente sugli eventi sportivi e sugli show più popolari, ma per il numero di informazioni e per la loro profondità pensiamo che i dati provenienti da Tumblr siano ancora più interessanti”, continua Scott Hendrickson che, forte dell’esperienza di cinque anni di Gnip, ci può fornire informazioni e indiscrezioni che spesso non vengono citate dai media ufficiali. “L’audience di Tumblr è sicuramente più interattiva e grazie a questo mezzo è possibile pubblicare testo, immagini ma anche video di spezzoni televisivi, e questo permette di capire realmente anche quali sono i gusti delle persone. Twitter lavora più sul breve-brevissimo periodo, praticamente in real-time, mentre gli effetti dei dati su Tumblr con la tecnica del re-blog (ovvero nel replicare il post da parte di persone che ti seguono) la durata temporale può essere anche superiore a una settimana e permette di creare veri e propri fenomeni reali. Per questo noi diciamo che i social data derivanti da Tumblr sono più profondi”.

Come racconta Hendrickson, negli Usa sono anche molto popolari piattaforme di social tv e check-in come GetGlue: “Questo è decisamente il cambiamento prossimo venturo della tv e della social tv. Se con Twitter possiamo rilevare le informazioni dieci secondi dopo che sono state twittate, con piattaforme come GetGlue l’informazione è immediata, istantanea, ed è possibile creare un fortissimo legame con il proprio pubblico da parte dei broadcaster e di chi gestisce i social dei principali show. Inoltre il concetto di real-time in televisione è totalmente rivoluzionato, e le persone possono vedere Game of Thrones, o un nuova serie su Netflix o un programma su Hulu, anche settimane dopo l’on-air. Questo Nielsen non può rilevarlo ma le persone sono libere di twittarlo o commentarlo su GetGlue, e tutto questo fa audience e in qualche modo deve essere registrato”.

Quello dei social data è sicuramente un mercato giovane, poco strutturato, piuttosto complesso, dove i ruoli non sono ancora molto chiari, ma è un mercato dalle alte potenzialità con tassi di crescita della domanda molto elevati, soprattutto da parte delle grandi organizzazioni. Conclude Scott Hendrickson: “Non esistono al momento grosse aziende partner di analisi di social data che si possono definire leader di mercato: esistono invece tante piccole buone società molto specializzate in brand watching, customer service, analisi finanziarie. Credo che per i prossimi anni la specializzazione prevarrà ancora sulla creazione di una standardizzazione nel campo delle analisi dei social data, proprio perché le problematiche e le richieste dei clienti sono ancora molto variegate”.