Cosa sono i Big Data
Ogni giorno i circa 2 miliardi e mezzo di persone che hanno accesso alla Rete producono la bellezza di 2,5 quintilioni di byte (ovvero 1030 byte, cioè 1 seguito da ben 30 zeri, mentre, per comparazione, un gigabyte è “soltanto” 109 byte) e il 90% di tutti i dati sinora prodotti sono stati creati nell'arco dell'ultimo biennio. I dati vengono immagazzinati attraverso qualsiasi mezzo: dai sensori per la raccolta di informazioni sul clima ai post sui social network, passando per video e immagini digitali, dati GPS raccolti attraverso smartphone e tablet e trascrizione delle transazioni di acquisto.
I Big Data sono la raccolta, in immensi data set (ovvero insiemi di dati relativi a un tema specifico), di queste informazioni, siano esse eterogenee o meno. Data set di tal genere si sviluppano su tre dimensioni: volume, velocità e varietà. Il volume è dato dalla somma delle grandezze dei vari file che compongono il data set (ogni giorno un'azienda può facilmente accumulare dati nell'ordine del terabyte o anche del petabyte); la velocità è data dalla capacità dei dati di fluire nei centri di elaborazione nel minor tempo possibile, offrendo così la possibilità di effettuare analisi in pochissimo tempo e ottenere dati sempre aggiornati; la varietà è data dalle fonti attraverso le quali si raccolgono i dati (possono essere, ad esempio, dati di testo, dati video, file di log, ecc.). Proprio a causa della loro grandezza, i Big Data sono difficili da trattare con strumenti non espressamente dedicati, come ad esempi quelli utilizzati nei sistemi di gestione dei database relazionali.
I Big data, quindi, possono essere definiti come quei data set che, per la loro grandezza e complessità, debbono essere analizzati utilizzando strumenti “speciali” in tutte le fasi del processo analitico. Per contro, essi permettono di cogliere aspetti e sfumature altrimenti difficilmente rilevabili.
Campi di applicazione
Data la loro natura eterogenea, i Big Data possono essere utilizzati nei settori più vari e non solo nelle analisi economico-finanziarie. In ambito scientifico, ad esempio, sono utilizzati da strutture di ricerca come ad esempio il CERN di Ginevra: l'incredibile quantità di dati prodotta dal Large Handron Collider (LHC, l'acceleratore di particelle più grande al mondo) viene raccolta in grandissimi data set e poi analizzata. I Big Data trovano applicazione anche in ambito astronomico: le decine di osservatori astronomici sparsi ai quattro angoli della Terra raccolgono giornalmente miliardi e miliardi di byte di dati di osservazione che vanno processati e catalogati. Anche le organizzazioni governative fanno uso sempre più estensivo di queste tipologie di dati: nel 2012 il Governo Obama decise di investire circa 1 miliardo di dollari nello sviluppo di tecniche di analisi dei Big Data sempre più precise e approfondite.
Perché Big Data
L'analisi complessiva di una mole spropositata di informazioni permette di cogliere relazioni altrimenti non rilevabili. Da qui la capacità e la possibilità di accedere a informazioni molto particolari e per questo pregiate: si può arrivare, ad esempio, a individuare gli “umori” del mercato, oppure comprendere e sfruttare a proprio vantaggio (commerciale, strategico, ecc.) i flussi di dati e informazioni che ogni giorno viaggiano sulla Rete.
Questione di privacy
Negli ultimi anni, però, sono state avanzate critiche nei confronti del paradigma del Big Data, soprattutto per le implicazioni che lo legano al mondo della privacy e della protezione dei dati personali. “Un problema cruciale – affermano in un loro lavoro di critica tre studiosi del settore come Snijder, Matzat e Reips – è che si sa ancora poco dei microprocessi empirici che portano alla formazione delle caratteristiche tipiche delle reti dei Big Data”. E proprio questa scarsa conoscenza ha forti ripercussioni a livello di privacy.
La protezione dei dati personali, fanno notare alcuni esperti di privacy, viene ripetutamente messa a rischio dal continuo accumulo di informazioni – anche strettamente personali – legata alla formazione dei Big Data. Qualche malintenzionato, se dotato degli adeguati strumenti di analisi, potrebbe anche sfruttare queste informazioni per ricostruire i profili personali degli ignari internauti. Per questi motivi si sta lavorando su dei protocolli di intesa, rivolti naturalmente ai grandi player del settore come Google, Amazon e Yahoo, per offrire agli utenti una sorta di “cortina fumogena” che metta gli utenti finali al riparo da questi pericoli.
Una delle soluzioni proposte è, così come accade da qualche mese a questa parte con i cookie traccianti, quella del consenso informato. Prima che i dati possano finire nel calderone dei Big Data, gli internauti dovrebbero dare il loro benestare, sottoscrivendo un accordo per il trattamento dei dati personali. Una procedura, insomma, simile a quella che si segue ogniqualvolta ci si iscrive ad un servizio web – come la posta elettronica o un social network, ad esempio – e che, come accade in questi casi, dovrebbe offrire una via d'uscita per gli utenti finali. Dovrebbe essere prevista, insomma, una clausola opt-out che permetta di revocare il consenso in qualsiasi momento.