Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 1ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Design of High Availability Systems and Networks

Lecture 2 Hardware Redundancy

Prof. Ravi K. IyerCenter for Reliable and High-Performance Computing

Department of Electrical and Computer Engineering andCoordinated Science Laboratory

University of Illinois at [email protected]

http://www.crhc.uiuc.edu/DEPEND


Tipi di interconnessione

I componenti di un sistema presentano indici d’affidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni.

Tipiche interconnessioni tra componenti sono: la serie, la parallela, la TMR, l’ibrida M su N.


Calcolo dell’affidabilità

• Interconnessione serie.

K entità di un sistema si dicono interconnesse in modo seriale quando il funzionamento del sistema dipende dal corretto funzionamento di tutti e K le entità. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:

K

ii

K

ii

AA

tRtR

1

1

)()(


Interconnessione parallela

• Interconnessione parallela.

K entità di un sistema si dicono interconnesse in modo parallelo quando il funzionamento del sistema è garantito dalla presenza di almeno una entità funzionante correttamente. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:

• Queste espressioni si possono giustificare considerando che il sistema non funziona correttamente, ovvero non è disponibile se sono guaste o non disponibili tutte le sue K entità.

Nel caso di entità con la medesima affidabilità RC(t) o disponibilità AC si ha che:

)1)...(1)(1(1

))(1))...((1))((1(1)(

21

21

K

K

AAAA

tRtRtRtR

KC

KC

AA

tRtR

)1(1

))(1(1)(


Outline

• Basic approaches to hardware redundancy

• Static and dynamic redundancy

• Voting

• Hardware voter example


Basic Approaches to Hardware Redundancy

• Static or masking redundancy

– add redundancy to mask out effects of faults immediately

• Static and dynamic redundancy

– Detect fault

– Locate fault

– Reconfigure system around fault

– Recover and restart

• Voting

– hardware

– software

– synchronization issues


Hardware / Static Fault Tolerance

Triple Modular Redundancy (TMR)with One Voter Extended to NMR

Use static or masking redundancy


• In questo tipo di schema, vengono mascherati guasti a livello dei componenti, ma non eventuali guasti a livello del voter, per il quale non vi è alcuna ridondanza.

• Se il voter è soggetto a guasto allora il suo valore di output potrebbe essere scorretto ed originare quindi errori e poi malfunzionamenti. Per questo tipo di schema, l'affidabilità dell'intero sistema non può mai essere superiore all'affidabilità del voter. Dato un sistema, ogni singolo componente il cui guasto può dar luogo a malfunzionamento del sistema stesso viene denominato singolo punto di fallimento.


Hardware / Static Fault Tolerance

TMR with 3 votersextended to NMR with N voters

Use static or masking redundancy

Una tecnica classica per prevenire che il voter diventi un singolo punto di fallimento è quella di replicarlo.


• Una generalizzazione dell'approccio TMR è la cosiddetta ridondanza ad N moduli (N-modular redundancy - NMR), la quale differisce da TMR nel fatto che il componente in oggetto viene replicato N volte, con N possibilmente maggiore di 3. Il vantaggio di utilizzare N > 3 moduli risiede nel fatto che più di un singolo guasto può essere tollerato.

• Ad esempio, il voto di maggioranza permette ad un sistema di tipo 5MR di tollerare il guasto di un massimo di due componenti. Ovviamente lo svantaggio sarà associato al maggiore costo dovuto al più alto numero di copie del modulo per cui si adotta la ridondanza.



TMR with 3 Voters• Remove single point of failure

• Use TMR with 3 voters

• Cascade such systems

V1 VnVn-1

Reliability expression can be obtained by considering module -voter combination as a unit, R v - Rm Then simply apply TMR expression.



Interconnessione TMR

• Il sistema è guasto o non disponibile perché sono contemporaneamente guaste o non disponibili due entità o perché è guasto o non disponibile il voter, quindi:

VOTERCCC

VOTERCCC

AAAAA

tRtRtRtRtR

)1(3

)())(1()(3)()(

23

23


M-out-of-N Systems

• Consider TMR system

• Only 2 to work correctly

•

• For general M, N

• Out of N modules, need M to function

•

A

B

C

V

N working

N-1 working

N-2 working

N-M working

Failed

V

RMN N

i

i0

N M

RmN i (1 Rm) i

RTMR Rm3

3

2

Rm

2 (1 Rm)


Interconnessione ibrida M su N.

• N entità di un sistema si dicono interconnesse in modo ibrido M su N se il sistema è funzionante qualora lo siano almeno M di loro, ovvero se sono guaste al più K = N – M entità. In tal caso indicando con RC(t) e con AC l’affidabilità e la disponibilità di ogni singola entità si ha che:

iC

iNC

K

i

iC

iNC

K

i

AAi

NA

tRtRi

NtR

)1(

))(1)(()(

0

0


Queste espressioni si possono giustificare notando che la probabilità che:

• siano sane N entità è pari a:

• siano sane N-1 entità è pari a:

• siano sane N-2 entità è pari a:

• siano sane N-K entità è pari a:

)(tRNC

))(1)((1 tRtNR CNC

22 ))(1)((2

tRtRN

CNC

KC

KNC tRtR

K

N))(1)((


Hardware Redundancy – Compare reliability of simplex and TMR systems

7.02ln

where

)()(

0 )()(

0

0

0

t

tttRtR

tttRtR

TMR

TMR

7.02ln

where

)()(

0 )()(

0

0

0

t

tttRtR

tttRtR

TMR

TMR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

lambda * t

Rel

iab

ility

to

Simplex

TMR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

lambda * t

Rel

iab

ility

to

Simplex

TMR

• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning

– spare components tolerate failures• Reliability sharply falls down in end

– system exhausted redundancy, more hardware can possibly fail

• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period

• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning

– spare components tolerate failures• Reliability sharply falls down in end

– system exhausted redundancy, more hardware can possibly fail

• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period

Rsimplex(t) = e - t

MTTFsimplex = e t dt 1/

)1(2

3 23 tttTMR eeetR

6

5

3

2

2

3TMRMTTF

MTTFsimplex > MTTFTMR


Effect of Voter

• Previous expression for reliability assumed voter 100% reliable

• Assume voter reliability Rv

RTMRV RV (Rm

3 3

2

Rm

2 (1 Rm ))


Voting in Hardware & Software

• Guarantee majority vote on the input data to the voter

• Ability of detecting own errors (self-checking)

• Determine the faulty replica/node (building the exclusion logic)

• Voting in networked systems (software)

– requires synchronization of inputs to the voter

– may be difficult to determine voter timeout

• different relative speed of machines

• varying network communication delays

• Voting in hardware systems

– generally does not require an external synchronization of inputs to the voter

– lock step mode or loosely synchronized mode

– CPUs internally can be out of synch because of non-deterministic execution of instructions


Voters Example (Tandem Integrity)

• Voting on CPU initiated operations

– Voter divided into two parts: majority voter and vote analyzer

• the majority voter generates a bit by bit majority vote from the three inputs to the voter

• the vote analyzer is a three part comparator and determines whether one of the inputs is faulty

– Voting logic is duplicated and compared

• a failure in the voting logic results in a self-check error

• Voting on external I/O operations

– distributed, majority voting performed locally on each CPU

CPU1 CPU2 CPU3

ExternalInterrupt


Ridondanza attiva

• E' da notare che in questo caso non c'è alcun tentativo di prevenzione affinché guasti non diano origine ad errori ed a malfunzionamenti, ma esistono solo azioni di rimedio per riportare il sistema al corretto funzionamento.

• Quindi tale tipo di ridondanza risulterà più appropriata per tutte quelle applicazioni in cui la presenza, se pur temporanea, di errori e malfunzionamenti è accettabile.



Hardware / Dynamic Fault Tolerance

• Use dynamic or standby redundancy

• Detect fault, locate fault, replace fault with spare

• Use duplication and comparison for detection

Switch

Comparator


Coverage

• The more fault a test set detects, the better the test set is

• Fault coverage• Ratios of faults detected by a test set to

the total number of possible faults in the circuit

• Metric obtained through simulation


Effect of Coverage• Failure detection is not perfect

• Reconfiguration may not succeed

• Attach a coverage “c”

One spare system

Rsys = R1 + c (1-R1) R2

n-1 spare system

Rsys = Rm ci (1-Rm)i

2

3

n

1

i=0

n-1


Effect of Coverage (cont.)

• If coverage is 100%, then given low module reliability, can increase system reliability arbitrarily

Rm = 0.9

0.989

0.999

0.999

0.972

0.978

0.978

Rm = 0.7

0.908

0.988

0.996

0.868

0.918

0.921

Rm = 0.5

0.748

0.931

0.990

0.700

0.812

0.833

C=0.99, n=2

C=0.99, n=4

C=0.99, n=inf

C= 0.8 , n=2

C= 0.8 , n=4

C=0.8, n=inf

With low coverage,reliability saturates


• Una forma particolare di ridondanza attiva è la cosiddetta riserva fredda, in cui per ogni modulo soggetto a ridondanza esiste una sua copia non attiva, che viene attivata in caso di guasto della copia originale, da cui il nome di riserva fredda. In tal caso, la riconfigurazione ha lo scopo di sostituire la copia originale con la riserva fredda. E' da notare che, durante il periodo di riconfigurazione necessario all'attivazione della riserva, la funzionalità del sistema viene interrotta. Per minimizzare la durata di questo periodo è possibile utilizzare riserve calde, che a differenza di quelle fredde, sono attive contemporaneamente al modulo per cui fungono da ridondanza. Lo svantaggio principale è che queste riserve consumano costantemente energia per rimanere attive, anche quando non forniscono reali servizi.


Ridondanza ibrida

• Infine, un terzo approccio classico alla ridondanza hardware, denominato ridondanza ibrida, combina le caratteristiche salienti delle due soluzioni precedenti. In particolare, in questa soluzione viene adottata sia una tecnica di mascheramento dei guasti per prevenire gli errori, sia una tecnica di diagnosi dei guasti stessi con relative azioni di riconfigurazione per isolare il componente guasto. In generale la ridondanza ibrida è implementata tramite una combinazione di ridondanza NMR in cui sono presenti anche riserve (fredde o calde). Le riserve subentreranno ad eventuali componenti guasti facenti parte dell' insieme originale di N repliche.



Documents

Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy