La nostra vita e l'economia moderna sono sempre di più influenzate dall'uso dei dati, di ogni tipo. Ormai ogni app o servizio online che usiamo gratuitamente ci chiede in cambio la cessione di almeno un po' dei nostri dati. Anche nel mondo offline, sempre più spesso, c'è qualcuno che ci chiede di cedergli i nostri dati. Una miriade di dispositivi elettronici, ogni giorno e ogni ora, raccoglie dati attraverso sensori, antenne, videocamere di ogni tipo.
Dall'altro lato della stessa medaglia noi stessi, più volte al giorno, usiamo Internet per reperire dati su qualsiasi cosa e per qualunque scopo: da una ricerca online per i compiti a casa dei nostri figli, al calcolo della distanza che dobbiamo percorrere per raggiungere una meta che ci interessa, passando per la soddisfazione di semplici curiosità come "quanti abitanti ha Roma" o "quanto è grande il Central Park di New York".
Google, da questo punto di vista, ci sta abituando ad avere i dati che cerchiamo senza alcuno sforzo: ormai è sempre meno un motore di ricerca e sempre più un motore di risposte. Tanto è vero che se cerchiamo "Superficie Central Park" Google, ancor prima delle pagine che parlano di questo parco, ci mostrerà un box con la risposta che stiamo cercando: 3,41 chilometri quadrati.
Siamo circondati dai dati e consumiamo sempre più dati, mentre le aziende hanno sempre più l'esigenza di accorpare dati provenienti da diverse fonti per semplificare i processi gestionali e prendere le decisioni giuste. Più in fretta possibile. Una delle risposte alle nostre esigenze, a quelle dei big del Web e a quelle delle aziende che usano tonnellate e tonnellate di dati è la cosiddetta Data Integration.
Data Integration: cos'è
Il nome Data Integration si traduce, e si spiega, quasi da solo: è l'integrazione dei dati. Per la precisione di una gran quantità di dati, provenienti da diverse fonti e non omogenei tra loro. Per fare un esempio: di una città potrebbero essere noti il numero degli abitanti, il numero, il nome, l'estensione e la popolazione dei quartieri, il numero dei reati commessi in ogni quartiere, il numero dei poliziotti in servizio, diviso tra amministrativi e operativi sul campo. Sono tutti dati noti, pubblici e ben archiviati in vari database. Con questi numeri, e una buona Data Integration, potremmo riuscire a conoscere il numero di reati per abitante di ogni singolo quartiere di quella città. A cosa (e anche a chi) servirebbe tutto ciò?
Data Integration: a cosa serve
Restiamo sullo stesso esempio. Conoscere il numero di reati per abitante di uno specifico quartiere vuol dire, automaticamente, conoscere quali sono i quartieri più pericolosi della città in questione. Questo potrebbe essere utile a noi, se non conosciamo bene la città o se siamo turisti, per evitare i quartieri pericolosi (incrociando il dato sui reati con quello relativo ai punti di interesse turistico).
Potrebbe essere utile ad un servizio taxi per determinare i percorsi meno rischiosi per arrivare dal punto A al punto B (incrociando il dato sui reati con tutti i possibili percorsi). Potrebbe essere utile ad una agenzia immobiliare per valutare meglio il valore di un immobile in quei quartieri (incrociando il dato dei reati con quello delle compravendite). Potrebbe essere utile alla Polizia per concentrare più agenti dove servono realmente (incrociando il dato sui reati con l'estensione dei quartieri e con il numero dei poliziotti effettivamente operativi).
Questi sono solo alcuni esempi di cosa si può fare quando abbiamo a disposizione una gran mole di dati e sappiamo come integrarli. Ma, a questo punto, facciamo un passo indietro: da dove vengono tutti questi dati?
Da dove vengono i Big Data
Ci sono diversi tipi di dati che possono essere raccolti e poi, successivamente, integrati tra loro. I cosiddetti dati "P2P" (People To People) sono quelli provenienti da una interazione tra esseri umani: quelli scambiati via email, via social, forum, blog o, nella vita offline, derivanti dalla compilazione di un modulo cartaceo. I dati "P2M" (People To Machine) sono quelli derivanti dall'interazione tra le persone e i dispositivi elettronici: includono quelli provenienti dalla compilazione di form online, dai sondaggi e dalle interazioni sui social, dalle transazioni online. I dati "M2M" (Machine To Machine) sono creati dalla "conversazione" tra dispositivi elettronici: i sensori elettronici di ogni tipo, ad esempio, generano dati e li inviano ad altri dispositivi elettronici.
Poi ci sono i dati della Pubblica Amministrazione e quelli delle grandi aziende. I primi, molto spesso, provengono dalla digitalizzazione di materiale cartaceo accumulato dalla PA negli ultimi decenni. Quando questi dati sono archiviati in digitale e resi disponibili al pubblico si parla di Open Data. I dati delle aziende spesso provengono dall'Enterprise Resource Planning (pianificazione delle risorse d'impresa, ERP) e dal Customer Relationship Management (gestione rapporti con i clienti, CRM). Si tratta di dati in possesso delle aziende, che non li rendono accessibili al pubblico.
Data Integration: le prospettive future
La Data Integration non è una cosa nuova: i primi passi di questo insieme di tecniche e tecnologie risalgono ai primi Anni '80 del secolo scorso. Il primo sistema di Data Integration pubblico è stato l'Integrated Public Use Microdata Series (IPUMS) creato nel 1991 dall'Università del Minnesota.
Da allora ad oggi molta strada è stata fatta e adesso esistono aziende che si occupano specificatamente di Data Integration e offrono piattaforme in grado di estrapolare dati sempre più complessi da sempre più fonti diverse. E di metterli insieme per gli scopi più disparati. Tra questi, uno dei più nobili è certamente il progresso della scienza e della medicina.
Mettere insieme i dati biometrici di milioni di pazienti permette, ad esempio, di trovare pattern comuni che, analizzati con gli algoritmi di intelligenza artificiale, possono rivelare importanti correlazioni e, in prospettiva, anche rapporti di causa ed effetto. E, di conseguenza, aiutare i medici a sviluppare strategie di prevenzione e di diagnosi precoce delle malattie.
10 novembre 2019