In una società, e in un'economia, sempre più basate sui dati personali non passa giorno senza che le nostre informazioni non vengano raccolte da qualche azienda sul Web o tramite le app che usiamo. Nella migliore delle ipotesi questo processo è alla luce del sole, nella peggiore viene eseguito a nostra insaputa. In entrambi i casi, quando qualcuno chiede come verranno trattate le informazioni che ci riguardano, tutti rispondono "in forma anonima".
Ciò vuol dire che i nostri dati vengono ripuliti di tutte le informazioni che permettono di identificarci, vengono inseriti in grandi set di dati da svariati GB e poi usati o venduti dalle aziende che li hanno raccolti. In teoria, quindi, la raccolta dati non mette a repentaglio la nostra privacy, perché non siamo identificabili. Ma le cose stanno realmente così? I dati "anonimizzati", sono davvero anonimi come ci dicono? A quanto pare no, secondo alcuni ricercatori inglesi che hanno dimostrato che risalire al nome e cognome reali di un profilo anonimo non è poi così difficile.
La ricerca dell'Imperial College
Per rispondere a questa domanda i ricercatori dell'Imperial College di Londra hanno provato a "forzare l'anonimato". In un articolo pubblicato su Nature Communications, i ricercatori inglesi hanno dimostrato quanto siano inefficaci le attuali tecniche per rendere anonimi i set di dati: usando un modello di apprendimento automatico e dataset che includevano fino a 15 caratteristiche identificabili (come età, genere e stato civile) i ricercatori sono stati in grado di "deanonimizzare" il 99,98 percento dei profili anonimi. Praticamente tutti. E non stiamo parlando di uno studio da poco: i ricercatori hanno utilizzato 210 diversi set di dati, raccolti da cinque fonti diverse (tra le quali anche il governo degli Stati Uniti) che contenevano informazioni su oltre 11 milioni di individui. La "re-identificazione" dei profili ha funzionato "anche se il set di dati divulgato era fortemente incompleto".
Come si vince l'anonimato
Lo studio fa un esempio di come sia possibile, partendo da dati anonimi, rintracciare specifiche persone. Attingendo da un database di 1.000 clienti (cioè l'1% del totale) di una società di assicurazioni sulla vita è possibile leggere data di nascita, sesso, codice postale e una eventuale diagnosi di cancro al seno. Mancano solo nomi e cognomi, quindi il data set è ufficialmente anonimo. Ma il datore di lavoro di una di queste 1.000 persone potrebbe trovare all'interno di questo set di dati un profilo con le seguenti caratteristiche: codice postale di Berkeley, California, data di nascita il 2 gennaio 1968, diagnosi di cancro al seno, sesso maschile. Già, perché il cancro al seno può venire anche agli uomini, anche se è rarissimo.
A quel datore di lavoro verrebbe molto facile risalire al nome e cognome di quel dipendente malato. E, negli Stati Uniti, se sei malato molto spesso perdi il lavoro. Trasformando il ragionamento che potrebbe fare questo datore di lavoro in un algoritmo, come hanno fatto i ricercatori londinesi, è possibile far emergere dall'anonimato milioni di persone. "Le aziende e i Governi hanno minimizzato il rischio di reidentificazione, sostenendo che i set di dati che vendono sono sempre incompleti - ha dichiarato Yves-Alexandre de Montjoye, ricercatore dell'Imperial College - Le nostre scoperte li contraddicono e dimostrano che un malintenzionato potrebbe facilmente e accuratamente stimare la probabilità che il record che ha trovato appartenga alla persona che sta cercando".
Come proteggere l'anonimato
I ricercatori, alla luce di questi risultati ottenuti così facilmente e su una scala così larga, chiedono che la politica imponga standard più stringenti per le tecniche di anonimizzazione. Andrebbe anche evitata la condivisione, gratuita o a pagamento, dei set di dati tra le aziende. Secondo de Montjoye, infatti, alcune delle aziende più potenti e aggressive (in quanto ad uso dei dati personali) del mondo stanno già raccogliendo set di dati che forniscono informazioni sufficienti per identificare con sicurezza una persona inclusa nel set. Quelle aziende, o chiunque altro, possono comporre il puzzle e creare un quadro completo di qualcuno, con solo una manciata di caratteristiche identificative: ai ricercatori ne sono bastate 15. "L'obiettivo dell'anonimizzazione è di poter utilizzare i dati a beneficio della società", ha affermato de Montjoye che chiede azioni concrete finalizzate a rendere etica la gestione dei dati anonimi.
1 settembre 2019