login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Tecniche di anonimizzazione e pseudoanonimizzazione

Ascolta l'articolo

Come ottenere dati anonimi o pseudoanonimi con hashing, sottocampionamento e iniezioni di rumore. Come tutelare un database o un set di dati con la differential privacy

sicurezza informatica Shutterstock

Dall’anonimizzazione alla pseudoanonimizzazione; dall’hashing al sottocampionamento, passando per l’iniezione di rumore. Le tecniche di tutela delle informazioni sensibili sono ogni giorno più avanzate. 

Soprattutto quando si passa dalla protezione della privacy online personale alla necessità di tenere al sicuro database o sistemi di dimensioni superiori

I processi di cui sopra permettono di ottenere un dato anonimo o pseudoanonimo, ma purtroppo garantiscono la totale inattaccabilità. Per questo motivo è sicuramente consigliabile intervenire anche in ottica preventiva

Ad esempio ricorrendo alla differential privacy, che permette di acquisire consapevolezza sulla sensibilità del singolo dato. E sulle informazioni che rischiano di essere compromesse in caso di intrusioni indesiderate. 

Cos’è e a cosa serve l’hashing

sicurezza informatica

Shutterstock

Quando si parla di anonimizzazione dei dati spesso si finisce per parlare di crittografia: un insieme di tecniche pensate proprio per nascondere informazioni o contenuti di vario genere. 

L’hashing è un metodo crittografico che permette di intervenire su dati e file. Una procedura che trasforma il dato e lo converte nel cosiddetto valore hash. 

Dal punto di vista della crittografia, l’hashing è un’operazione tutt’altro che complessa. Anche perché non prevede la creazione e lo scambio di chiavi pubbliche e private. 

Nell’hashing la crittografia serve per riconvertire i sopracitati valori hash allo stadio precedente. Un passaggio necessario per ricostruire il dato e poterlo consultare. 

I valori hash infatti sono semplici record che condividono la lunghezza del dato originale. Ma non permettono in alcun modo di risalire alle informazioni contenute all’interno del dato. 

Per tornare a un dato leggibile, l’utente ha bisogno di tre componenti: la chiave crittografica, l’algoritmo di riferimento e infine il dato che in origine è stato associato al valore hash. 

L’hashing è una procedura crittografica che permette di ottenere l’anonimizzazione dei dati

L’hashing è una formula ideale per procedere all’anonimizzazione dei dati e alla loro conservazione. Anche perché i valori hash possono venire associati a posizioni prestabilite all’interno dei database. 

I campi di applicazione dell’hashing sono molteplici: dalla gestione dei database di cui sopra alla creazione di tabelle ad hoc. Dalla crittografia di file al password hashing e la realizzazione di firme digitali e altri sistemi di autenticazione. 

Inoltre l’hashing viene considerato addirittura più sicuro della crittografia tradizionale per almeno un ordine di ragioni. Il valore hash infatti, preso in quanto tale, non può essere decodificato in alcun modo. 

Questo presupposto permette all’hashing di resistere persino agliattacchi hacker brute force. Ma purtroppo esistono tecniche che permettono di ovviare anche a questo limite. 

Alcuni criminali riescono infatti ad accedere alle cosiddette tabelle arcobaleno: liste di informazioni che confrontano valori hash, dati di accesso e algoritmi.

Altre tecniche di anonimizzazione e pseudoanonimizzazione

sicurezza informatica

Shutterstock

L’hashing e le tecniche di crittografia rappresentano solo uno dei possibili campi dell’anonimizzazione. Anche se in certi casi è più corretto parlare di pseudoanonimizzazione

Anche la pseudoanonimizzazione ha a che fare con la cifratura dei dati. Ma presenta alcuni limiti strutturali rispetto all’anonimizzazione completa. 

Un dato sottoposto a tecniche di pseudoanonimizzazione permette infatti di risalire a una persona di riferimento. A patto però che si disponga di una serie più o meno complessa di informazioni aggiuntive

Inoltre si parla di dato anonimo nel caso in cui si ottenga un output che non può essere ricostruito: è il caso ad esempio dei valori hash descritti nei capoversi precedenti. 

Si parla invece di dato pseudoanonimo nel caso in cui ci sia la possibilità di accoppiare gruppi di informazioni in modo da ricostruire il dato originale. 

Sottocampionamento e iniezione di rumore permettono di ottenere l’anonimizzazione o la pseudoanonimizzazione del dato

Tecniche quali il sottocampionamento o l’iniezione di rumore permettono di compromettere la leggibilità di un dato, migliorando la sicurezza informatica. Con l'obiettivo di tutelare informazioni sensibili contenute al suo interno. Ma non necessariamente generano un dato anonimo al 100%. 

Il sottocampionamento, anche noto come decimazione o downsampling, prevede una riduzione della frequenza di campionamento del segnale elettrico. 

Ciò vuol dire intervenire sulla velocità di trasmissione del dato originale. O, in alternativa, intervenire sulle sue dimensioni nel formato originale. Una procedura nata e diffusasi in ambito audio, che però ha trovato interessanti corrispettivi nel settore della protezione dei dati. 

L’iniezione di rumore raggiunge l’illeggibilità del dato intervenendo in maniera diametralmente opposta rispetto al sottocampionamento. Prevede infatti l’immissione di variazioni extra all’interno del dato: dati casuali, o rumore, che impediscono di individuare i dati significativi. 

Come usare la differential privacy per migliorare la sicurezza informatica

sicurezza informatica

Shutterstock

Purtroppo anche le tecniche di anonimizzazione o pseudoanonimizzazione non sonoinfallibili. E dunque può capitare che qualcuno acceda a dati sensibili. O che, più in generale, si verifichino falle nella sicurezza informatica di un sistema. 

Per fortuna esistono strategie e metodi che permettono di analizzare lo stato dicrisi in corso e applicare eventuali correttivi. Un valido esempio in tal senso è la cosiddetta differential privacy. 

Quando si parla di differential privacy si fa riferimento a un framework matematico: un insieme di librerie con funzioni specifiche, che fungono da base per lo sviluppo di un software più avanzato. 

La differential privacy permette di visualizzare quante informazioni siano state compromesse da eventuali attacchi da parte di hacker, ma non solo. Permette anche di entrare nel merito di previsioni e scenari futuri

Questo genere di framework consente di studiare preventivamente i file di undatabase. Andando a individuare quante e quali informazioni sensibili verrebbero diffuse in caso di compromissione. 

In questo senso la differential privacy è un ottimo primo passo per pianificare interventi futuri di crittografia, anonimizzazione o pseudoanonimizzazione.

Per saperne di più: Sicurezza informatica: guida alla navigazione sicura sul web

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Fda
Prompt engineering
Immagine principale del blocco
Prompt engineering
Fda gratis svg
Come interrogare le intelligenze artificiali
Iscriviti al corso gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.