Tecnologie

Dettaglio dell'articolo:

giovedì 15 novembre 2012

RAID: tecniche di storage dei dati

Il RAID (Redundant Array of Independent Disks ) è una tecnologia di storage che combina multipli dischi in un'unica unità logica, chiamata array di dischi, che i computer esterni vedono come un unico disco. Generalmente l'array ha migliori performance operative dell'equivalente disco unico.

Gli array di dischi salvano i dati in maniera rindondante, cioè duplicano parte dell'informazione su più di un disco.In questo modo, nel caso uno dei dischi dell'array si rompa, il sistema riesce a ricreare i dati persi su quel disco, cosa che evidentemente non potrebbe avvenire in caso di rottura di un disco unico, le cui dimensioni ed il cui carico di lavoro danno una maggiore probabilità di failure.

Le diverse architetture RAID garantiscono differenti prestazioni di scrittura e lettura.Caratteristica comune a tutte queste architetture è la distribuzione dei dati su ogni disco in segmenti logicamente consecutivi per l'accesso, ma fisicamente indipendenti perchè su parti distinte del dispositivo di memorizzazione, distribuzione chiamata data striping.

Le tecniche usate vengono definite come livelli, i principali sono RAID-0, RAID-1, RAID-5,RAID-6.

 

RAID-0

E' l'architettura più semplice, simile per certi aspetti a quella di un disco unico. Non c'è rindondanza di dati, che in luogo di essere distribuiti su un disco unico sono distribuiti su più dischi. E' usata prevelentemente quando si richiede la massima capacità di storage, infatti non c'è spazio per la ripetizione di dati.

Se N dischi sono divisi in S segmenti, risulta che ci sono N X S segmenti indipendenti in lettura e scrittura, con miglioramento delle performances operative. Infatti è tecnicamente più difficile gestire un equivalente disco unico diviso in N X S segmenti.

Lo svantaggio è costuito dal fatto che, se un disco dell'array si rompe, è come se l'equivalente disco unico si fosse rotto.

Inoltre, per un array a due dischi, se un disco ha la probabilità del 5% di rompersi in tre anni, la probabilità che almeno uno dei dei due si rompa nello stesso periodo è circa il 10%. Naturalmente un disco unico più grande ha una probabilità di rottura maggiore del 5%, ma questa considerazione spinge alla cautela nel moltiplicare il numero di dischi disponibli nell'array.

 

RAID-1

Chiamata comunemente mirroring, presenta generalmente due dischi (raramente di più) con dati identici. Ogni operazione di scrittura avviene su entrambi i dischi, mentre la lettura può avvenire su uno qualunque dei due.

Se N dischi sono divisi in S segmenti, risulta che ci sono N X S segmenti indipendenti in lettura, ma solo S segmenti in scrittura, che risulta occupare un tempo maggiore appunto perchè moltiplicata su ogni disco.

Il vantaggio principale è che se un disco si rompe, se ne ha ha disposizione una copia identica immediatamente operativa.

L'array si rompe solo se entrambi i dischi si rompono nello stesso periodo; se la probabilità di rottura per il singolo disco è del 5% in 3 anni, l'array ha probabilità di rottura di meno del 3 per mille: un considerevole salto di sicurezza.

Il principale svantaggio è appunto che si hanno due dischi per conservare la stessa informazione che può essere immagazzinata da uno solo.

 

RAID-4, RAID-5, RAID-6

Queste architetture affiancano al normale storing dei dati la tecnica dei parity data, cioè valori calcolati per un gruppo di set di dati che permettono di recupare qualunque di questi set vada perduto in funzione degli altri set del gruppo.

L'applicazione più semplice dei parity data si ha con tre dischi. Si prenda il caso semplificato che ogni disco contenga un solo dato binario:

DISCO1 = 10010110111

DISCO2 = 01101101110

apparentemente, se il DISCO3 può contenere un solo dato binario della stessa dimensione di quello contenuto in uno degli altri, sembra non ci sia modo di salvare entrambe le informazioni contenute nei due dischi.

è possibile invece salvare come dato l'operazione XOR (che combina due bit e vale 1 se sono diversi) dei due:

DISCO3=10010110101 XOR

             01101101100

=           11111011001

In questo modo via XOR si combina DISCO1 o DISCO2 con DISCO3 per recuperare il dato mancante:

DISCO1 XOR DISCO3= 10010110111 XOR

                                 11111011001 =

                                 01101101110 = DISCO2

DISCO2 XOR DISCO3= 01101101110 XOR

                                 11111011001 =

                                 10010110111 = DISCO1

per più di 3 dischi in effetti il calcolo del parity data fa uso ripetuto di questo metodo, ed è chiaro il principio del parity data come un jolly per ritrovare la carta mancante del mazzo.

Con il parity data si può quindi costruire un'architettura multi dischi dove un disco è dedicato allo storing dei valori di parity data. Questa architettura è classificata come RAID-4:

RAID-4

Usando il mirroring occorrono 4 dischi per storare le informazioni contenute in due dischi, con questa architettura invece si richiedono tre dischi. Si può precisare questo fatto parlando d'efficienza di spazio, che è il rapporto tra lo spazio di memoria che gli stessi dati non duplicati occuperrebbero su un disco e lo spazio totale occupato dall'array RAID. Nel caso di N dischi con architettura RAID4 l'informazione non duplicata si trova su N-1 dischi, quindi l'efficenza di spazio è

(N-1)/N = 1-1/N

efficienza che cresce al crescere del numero di dischi occupati, mentre per il morrowing è sempre 1/2.

L'array si rompe se si rompono almeno due dischi. Nel caso di una probabilità di rottura del 5% in tre anni, un'architettura RAID-4 a 3 dischi ha la probabilità di rottura dell'1,5%. Un analogo mirroring a 4 dischi avrebbe probabilità di rottura del 5 per mille, ma con un'efficienza di spazio di 0.5 contro 0.67 del RAID-4.

Sia in lettura che in scrittura sia hanno a disposizione (N-1) X S segmenti, ma in scrittura il disco di parity data (DISCO 3 nell'esempio) costituisce un collo di bottiglia per l'architettura: modifiche indipendenti sui dischi dati producono richieste di modifica su questo disco, che si accodano rallentando l'operazione e sovraccaricando il disco di parity data.

La soluzione a questo problema è distribuire i segmenti di parity data fra tutti i dischi di storing, architettura denominata RAID-5:

RAID-5

 

L'efficienza di spazio, la probabilità di rottura, il numero di segmenti in scrittura e lettura sono gli stessi che per l'architettura RAID-4, ma la possibilità di distribuire su più dischi il compito di storing evita che le richieste di parity data  si accumulino su un unico disco.

Un'ulteriore sviluppo della distribuzione dei parity data è il livello RAID-6, dove ad ogni blocco di parity data se ne aggiunge un secondo distribuito su più dischi:

RAID-6

 

In questo caso l'efficenza di spazio è data da

(N-2)/n= 1- 2/N

che per un array a quatro dischi dà 0.5, come un mirroring, con un'efficienza maggiore per N>4.In scrittura e lettura si hanno (N-2) X S segmenti, la scrittura dei parity data aggiuntivi diminuisce la velocità, ma configurazioni ben progettate possono dare risultati simili al RAID-5 

L'interesse principale di questa architettura è data dalla probabilità di rottura: l'array RAID si rompe solo nel caso di rottura di 3 dischi. Nel caso di una probabilità di rottura di un disco del 5% in tre anni, la probabilità di rottura dell'array è di circa il 3 per mille: l'analogo mirroring per due dischi darebbe il 5 per mille.

Riassumendo

Ogni livello RAID offre i suoi vantaggi e svantaggi, in termini di sicurezza contro la failure dei dispositivi, lo spazio di memoria occupato e la velocità di scrittura e lettura, non esiste la soluzione catch-all, ma chi ha necessità di uno storage può scegliere l'architettura che meglio corrisponde alle esigenze di efficienza, costo, sicurezza del servizio fornito.

La pluripremiata famiglia di dispositivi NAS Buffalo LinkStation ™ e TeraStation ™ offre una soluzione semplice ed economica, efficace per proteggere, gestire e condividere le vostre informazioni critiche, includendo livelli multipli di sicurezza per l'accesso ai contenuti e la salvaguardia della privacy.

Implementano le architetture RAID-0, RAID-1, RAID-5, RAID-6, inoltre consentono il Multiple RAID Arrays, cioè la possibilità di suddividere i dischi del NAS in gruppi con architetture RAID diverse, in modo che la stessa macchina può avere diverse modalità di storage attive contemporaneamente al suo interno, per far fronte a diverse esigenze di memorizzazione senza dover avere  dispositivi di storage distinti.

 

compralo su domuswire  LinkStation™ NAS System
  Personal and Small Office NAS Operating System

Network Storage Server Buffalo TeraStation TS5200D0202

compralo su domuswire   TeraStation™ NAS System
  Professional and Business Class NAS Operating System

 

 

 

 

 

 

 

 

 



Commenti:

Avendo a disposizione 5 dischi, qual'è il Raid con miglior protezione dati ? Ma alla fine non è più semplice e più sicuro fare un Raid 10 con 4 dischi ?

Inviato da: Danilo il: 2013-01-28 12:49:34.570434

Scrivi un commento:

Archivio