login LOGIN
CHIUDI chiudi
Il mio profilo

mostra
Hai dimenticato la password?
Inserisci l'indirizzo email di registrazione per reimpostare la password.
Segui le istruzioni che ti abbiamo inviato per posta elettronica.

Come risolvere errori memoria DRAM

Colpiscono tutti, dall'utente medio ai gestori di grandi data center, provocando danni anche rilevanti. La soluzione, però, è più semplice di quanto si pensi

errori nella memoria DRAM

Si tratta della tipologia di memoria di lavoro più diffusa e utilizzata al mondo. Praticamente ubiqua o quasi. E questo nonostante abbia sulle spalle quasi 50 anni di onorato servizio. La memoria DRAM (acronimo di dynamic random access memory, memoria dinamica ad accesso casuale), lanciata nel 1971 da Intel, è tra le componenti hardware più longeve e utilizzate della storia. Il suo lungo percorso, ovviamente, non è stato esente da passi falsi: nel corso dei decenni, le memorie DRAM sono state spesso al centro dell'occhio del ciclone per aver causato errori di varia natura e ancora oggi sono responsabili della gran parte dei problemi hardware accusati dai sistemi informatici di tutto il mondo.

Falsa partenza

 

memorie dram

 

Il primo problema delle memorie DRAM è stato scoperto pochi anni dopo il loro lancio. Anziché rispettare rigorosamente le istruzioni in arrivo dal programma in esecuzione, le memorie RAM dinamiche saltuariamente modificavano, apparentemente arbitrariamente, alcuni dei bit dati che si trovavano a conservare. Ciò portava a errori di compatibilità e lettura nel corso dell'esecuzione dei programmi e, in alcuni casi, rendevano necessario un restart dell'intero sistema. L'origine del problema, si è scoperto dopo mesi di ricerche, era nelle ceramiche presenti nei circuiti elettrici della memoria. Le particelle radioattive naturalmente presenti in questi materiali emettevano particelle alfa (attraverso il fenomeno noto come decadimento alfa) che finivano con il corrompere i dati. Una volta scoperto, questo problema è stato facilmente risolto facendo attenzione a ridurre, attraverso processi di raffinazione, la quantità di elementi radioattivi presenti nelle ceramiche impiegate. Ma ciò non ha significato la fine delle problematiche per le memorie DRAM.

Larga scala

Ancora oggi le memorie RAM dinamiche sono alla base di molti dei grattacapi informatici accusati dalla maggioranza degli utenti. Un classico esempio è la schermata blu della morte: decine di migliaia di utenti ne sono affetti ogni giorno, ma pochi ne conoscono la reale origine. A leggere le poche righe riportate nella schermata, si scopre che la causa di tutto è, spesso, un errore di lettura o scrittura in un determinato indirizzo di archiviazione della memoria RAM del computer. E se per gli utenti domestici problemi del genere sono fastidiosi e nulla più, per grandi aziende come Google, Facebook o Twitter gli errori delle memorie DRAM possono comportare la perdita di dati e informazioni di grande importanza con conseguenti ingenti perdite economiche.

 

matrice dram

 

Per questo motivo, nel tentativo di minimizzare i danni provocati da possibili errori DRAM, tutti i protagonisti del panorama web utilizzano più computer e server di quanti siano realmente necessari. In questo modo, anche se uno dei sistemi informatici dovesse improvvisamente arrestarsi, potrebbe essere sostituito senza grossi problemi da una macchina di riserva. Una tale tattica, detta di ridondanza, ha ovviamente costi economici molto elevati, ma è la più semplice da mettere in atto per contrastare gli errori di natura hard (tra poco spiegheremo cosa vuol dire) delle memorie DRAM.

Problema hardware

Ricercatori dell'Università di Toronto hanno evidenziato come, nonostante i software o i malware siano solitamente i primi e maggiori indiziati, la gran parte delle problematiche informatiche accusate dagli utenti è causata da malfunzionamenti hardware. Dalla ricerca condotta dagli scienziati canadesi in un datacenter di Los Alamos, negli Stati Uniti, è emerso che il 60% dei problemi registrati è di natura hardware. Addentrandosi nel dettaglio, la gran parte è dovuta a errori di natura hard delle memorie DRAM. Ciò trova conferma empirica anche in altri grandi data center, dove la RAM è il componente sostituito con maggior frequenza.

 

problema hardware

 

Come funziona la memoria DRAM

Un chip di memoria RAM utilizzato oggi è costituito da un condensatore e un transistor. La scrittura dei dati avviene nel momento in cui il condensatore acquista o meno una carica elettrica: se è "caricato" allora assumerà il valore logico di "1", in caso contrario il suo valore sarà "0". A differenza delle RAM statiche, nelle quali le celle di memoria conservano l'informazione sino a quando sono alimentate elettricamente, nelle RAM dinamiche la cella perde lentamente la carica (e le informazioni in essa contenute) e il sistema ha bisogno di aggiornare periodicamente la carica di tutte le celle di memoria. Da qui deriva il nome di memorie dinamiche. Il vantaggio delle DRAM rispetto alle memorie statiche sta nelle dimensioni del condensatore: nelle memorie dinamiche è eccezionalmente piccolo e permette quindi di ridurre le dimensioni del banco di RAM (ovvero di aumentare la capacità di archiviazione a parità di spazio occupato).

Errore di memoria

Per le memorie DRAM si parla di errore nel momento in cui una o più informazioni sono scritte in un modo ma vengono lette dal sistema in maniera differente. E, a dispetto di quanto si possa credere, gli errori DRAM sono molto frequenti. Come rilevato dagli studiosi canadesi, una percentuale che va dal 15% al 45% dei computer dei data center Google accusa problemi DRAM almeno una volta l'anno e, nel 4% dei casi, ci si trova di fronte a problemi di magnitudine sufficiente a causare l'improvviso arresto del sistema. Se non fosse per le policy di ridondanza cui si è accennato in precedenza, i servizi offerti dai grandi attori della rete (Google, Facebook, ecc) sarebbero piuttosto inaffidabili, potendo smettere di funzionare in qualsiasi momento e senza alcun preavviso.

 

errore di memoria dram

 

Errore soft, errore hard

Gli errori DRAM sono solitamente divisi in due macrocategorie: da un lato gli errori soft, dall'altro gli errori hard. Si parla di errori software quando la corruzione dei dati è causata da fattori esterni alla RAM (emissioni radioattive, ad esempio) mentre le componenti hardware (condensatore e transistor) sono perfettamente integri. L'errore hard, invece, colpisce direttamente una componente materiale del modulo RAM, causando spesso un errore permanente: una "cella" di memoria verrebbe bloccata su valore logico preciso (uno "0" oppure un "1") senza poter essere più modificato e quindi causando errori in scrittura e/o lettura del dato.

Stessa riga, stessa colonna

Se nel sentito comune la gran parte dei problemi DRAM è attribuito a cause software, la statistica dimostra che è vero l'esatto contrario. I dati raccolti dagli studiosi dell'Università di Toronto dimostrano che la maggioranza dei problemi DRAM è invece di natura hardware. Analizzando la distribuzione degli errori, infatti, gli scienziati canadesi hanno scoperto che essi colpiscono solitamente le celle di una stessa riga o di una stessa colonna. In molti casi, addirittura, è sempre la stessa cella a provocare il malfunzionamento del sistema. Dal momento che è improbabile (se non impossibile) che una radiazione colpisca sempre lo stesso punto della RAM in diverse occasioni, assume maggiore forza la teoria degli errori hard e quindi di un problema permanentemente ai componenti fisici della memoria. Il problema degli errori di questa natura è che non sono, di norma, correggibili.

 

statistiche

 

Come risolvere i problemi di memoria

L'analisi condotta dagli studiosi canadesi evidenzia, però, anche una soluzione pratica e facilmente applicabile. Se il problema si ripete sempre nella stessa cella è sufficiente marcarla per poi escluderla dalla tabella di allocazione dei dati. Nei casi più gravi ed estesi si può decidere di marcare un'intera riga o un'intera colonna così da salvaguardare la funzionalità del banco di RAM al prezzo di una (più o meno) piccola perdita di capacità di memoria. Questa soluzione, anche se apparentemente semplice, è piuttosto ingegnosa: permette di continuare a utilizzare memorie DRAM con celle corrotte o non più funzionanti, consentendo così ai gestori di grandi data center di risparmiare migliaia e migliaia di euro ogni anno.

A cura di Cultur-e
Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.
Fda
Prompt engineering
Immagine principale del blocco
Prompt engineering
Fda gratis svg
Come interrogare le intelligenze artificiali
Iscriviti al corso gratuito

Iscriviti
all'area personale

Per ricevere Newsletter, scaricare eBook, creare playlist vocali e accedere ai corsi della Fastweb Digital Academy a te dedicati.