Quando parliamo di Big Data la maggior parte degli utenti della Rete non riesce a dare una definizione precisa di quello che sono veramente. Si sa che possono essere utili per aziende, enti governativi e qualsiasi tipo di impresa per creare servizi o prodotti basati sulle abitudini dei consumatori, ma è molto difficile, se non quasi impossibile, riuscire a trovare qualcuno che sia in grado di dare una definizione esatta e precisa di cosa siano. A grandi linee, si potrebbe dire che i Big Data sono grandi quantità di dati, organizzati in database o dataset tematici e raccolti nei modi più disparati: dalle ricerche web, dai social network, dagli smartphone, dai dispositivi della smart home e così via. Questi dataset possono essere poi dati in pasto ad algoritmi di intelligenza artificiale per ricavare informazioni utili agli scopi più vari (ad esempio, comprendere le nostre abitudini e le nostre preferenze commerciali); oppure utilizzati per educare algoritmi di apprendimento automatico e reti neurali artificiali (come accade, ad esempio, nei sistemi di riconoscimento visuale).
Va detto che quasi sempre nel mondo delle nuove tecnologie si tende a dare un concetto di uso comune, molto semplificato, per descrivere un nuovo strumento. Un concetto che tutte le persone che usano la Rete possano capire in maniera abbastanza rapida. Questo discorso vale per il cloud, le cripto-valute, la Blockchain e i Big Data non fanno eccezione. Ok, è vero negli ultimi tempi gli scandali di sicurezza informatica ci hanno fatto capire l'importanza che hanno i Big Data nella società in cui viviamo e abbiamo intuito come le grandi aziende sfruttano i big data analytics per crescere nei loro mercati di riferimento. Relegare i Big Data esclusivamente al campo della Business Intelligence però sarebbe riduttivo.
Ma allora i Big Data cosa sono davvero? Per avere un quadro d'insieme più approfondito sui Big Data dobbiamo imparare i segreti delle tre grandi V che caratterizzano questa tecnologia. Parliamo di volume, velocità e varietà dei Big Data. Tre parole che descrivono in maniera abbastanza completa la diversità e i vari metodi di utilizzo di questa incredibile mole di dati raccolta con i nuovi strumenti di comunicazione e con i dispositivi elettronici che usiamo quotidianamente. Ecco nel dettaglio il significato di ognuna delle tre grandi V dei Big Data.
Il Volume dei Big Data
Cosa intendiamo se parliamo di volume legato al mondo dei Big Data? Ci riferiamo, ovviamente, al significato più letterale: la quantità di informazioni incluse nel singolo dataset di Big Data. Solo che, quando si parla di informazioni incluse in questi particolari insiemi di dati, si ha a che fare con quantità difficilmente immaginabili. Per capirlo bisogna fare un esempio: le foto salvate dagli utenti su Facebook. Si stima che Facebook, da quando sia stato creato, ha raccolto oltre 250 miliardi di foto. E molto probabilmente sono anche di più. Riuscite a immaginare un album da 250 miliardi di foto? Molto probabilmente no, ma vi basterà sapere che al mondo siamo poco più di 7 miliardi e Facebook conta più utenti di quanti siano gli abitanti della Cina. E parliamo di fotografie perché se consideriamo i post, Facebook ha una quantità di dati legata ai suoi iscritti almeno 10 volte superiore.
Ecco, quando parliamo di volume dei Big Data dobbiamo immaginarci questi numeri, questa mole di file contenenti dati tra i più disparati tra le varie persone connesse. Il volume dei Big Data al momento è uno dei temi più discussi. Il motivo? Negli ultimi anni la quantità di dati sta aumentando in maniera quasi incontrollabile. Prendiamo per esempio gli oggetti Internet of Things. I sensori sempre connessi che possiamo usare nella nostra casa, auto o ufficio smart. Ogni secondo questi sensori registrano in tutto il mondo milioni di dati. In pochi anni con la diffusione sempre più di massa dei device IoT i numeri incredibili di Facebook stanno diventando infinitamente piccoli se paragonati a quelli che riusciamo a ricevere dai vari dispositivi sempre connessi. Senza dimenticare che allo stesso tempo le applicazioni e i vari servizi in cloud continueranno a raccogliere sempre un numero impressionante di dati sui vari utenti.
La Velocità per i Big Data
Il secondo vettore fondamentale per capire i Big Data e la loro applicazione è la velocità. Ripartiamo dalla quantità mostruosa di dati raccolti al giorno d'oggi, non in un anno ma in un singolo giorno. Per archiviare, salvare, catalogare, riutilizzare queste informazioni così pesanti serve velocità. Se usare i Big Data non fosse veloce, sarebbe inutile avere tante informazioni che poi però sono troppo pesanti per essere utilizzate nell'immediato. Senza velocità di raccolta ed elaborazione delle informazioni, le varie aziende non sarebbero interessate ad acquistare i pacchetti di dati riguardanti dei potenziali consumatori o degli attuali clienti dai vari servizi online. Se impiegassero troppo tempo ad analizzare queste informazioni le varie campagne di marketing arriverebbero in ritardo rispetto ai gusti e alle tendenze del momento sul mercato.
Lo stesso discorso vale per le aziende di sicurezza informatica. Un flusso di dati, anche se di enormi dimensioni, deve essere studiato e analizzato in maniera molto rapida per rilevare la presenza o meno di nuovi codici maligni o di nuove minacce informatiche generate dagli hacker. La velocità d'analisi e di utilizzo è tutto per i Big Data, specie man mano che nel tempo i file contenenti queste informazioni diventeranno sempre più grandi e pesanti.
La varietà nei Big Data
La terza fondamentale V dei Big Data è la varietà. Ogni dato infatti è molto diverso dall'altro. Ci sono, come visto, foto, tweet, post, informazioni di un sensore IoT e così via. Insomma, le informazioni archiviate nei Big Data sono molto variegati e ognuno ha una provenienza specifica. Questa diversificazione crea dei problemi di gestione e unione dei vari dati per ottenere delle informazioni più complete. Ci vogliono complessi strumenti di analisi dei dati per riuscire a capire in maniera chiara i Big Data. Non bastano di certo i semplici fogli di calcolo come si usava un tempo per paragonare e gestire grandi dati. Il modello di Data Analytics è il processo per ricavare valore da questa mole di informazioni.