31
Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Sunday, July 3, 2022 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy Prof. Ravi K. Iyer Center for Reliable and High-Performance Computing Department of Electrical and Computer Engineering and Coordinated Science Laboratory University of Illinois at Urbana-Champaign [email protected] http://www.crhc.uiuc.edu/DEPEND

Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Embed Size (px)

Citation preview

Page 1: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 1ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Design of High Availability Systems and Networks

Lecture 2 Hardware Redundancy

Prof. Ravi K. IyerCenter for Reliable and High-Performance Computing

Department of Electrical and Computer Engineering andCoordinated Science Laboratory

University of Illinois at [email protected]

http://www.crhc.uiuc.edu/DEPEND

Page 2: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 2ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Tipi di interconnessione

I componenti di un sistema presentano indici d’affidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni.

Tipiche interconnessioni tra componenti sono: la serie, la parallela, la TMR, l’ibrida M su N.

Page 3: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 3ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Calcolo dell’affidabilità

• Interconnessione serie.

K entità di un sistema si dicono interconnesse in modo seriale quando il funzionamento del sistema dipende dal corretto funzionamento di tutti e K le entità. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:

K

ii

K

ii

AA

tRtR

1

1

)()(

Page 4: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 4ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Interconnessione parallela

• Interconnessione parallela.

K entità di un sistema si dicono interconnesse in modo parallelo quando il funzionamento del sistema è garantito dalla presenza di almeno una entità funzionante correttamente. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:

• Queste espressioni si possono giustificare considerando che il sistema non funziona correttamente, ovvero non è disponibile se sono guaste o non disponibili tutte le sue K entità.

Nel caso di entità con la medesima affidabilità RC(t) o disponibilità AC si ha che:

)1)...(1)(1(1

))(1))...((1))((1(1)(

21

21

K

K

AAAA

tRtRtRtR

KC

KC

AA

tRtR

)1(1

))(1(1)(

Page 5: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 5ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Outline

• Basic approaches to hardware redundancy

• Static and dynamic redundancy

• Voting

• Hardware voter example

Page 6: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 6ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Basic Approaches to Hardware Redundancy

• Static or masking redundancy

– add redundancy to mask out effects of faults immediately

• Static and dynamic redundancy

– Detect fault

– Locate fault

– Reconfigure system around fault

– Recover and restart

• Voting

– hardware

– software

– synchronization issues

Page 7: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 7ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Hardware / Static Fault Tolerance

Triple Modular Redundancy (TMR)with One Voter Extended to NMR

Use static or masking redundancy

Page 8: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 8ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

• In questo tipo di schema, vengono mascherati guasti a livello dei componenti, ma non eventuali guasti a livello del voter, per il quale non vi è alcuna ridondanza.

• Se il voter è soggetto a guasto allora il suo valore di output potrebbe essere scorretto ed originare quindi errori e poi malfunzionamenti. Per questo tipo di schema, l'affidabilità dell'intero sistema non può mai essere superiore all'affidabilità del voter. Dato un sistema, ogni singolo componente il cui guasto può dar luogo a malfunzionamento del sistema stesso viene denominato singolo punto di fallimento.

Page 9: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 9ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Hardware / Static Fault Tolerance

TMR with 3 votersextended to NMR with N voters

Use static or masking redundancy

Una tecnica classica per prevenire che il voter diventi un singolo punto di fallimento è quella di replicarlo.

Page 10: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 10ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

• Una generalizzazione dell'approccio TMR è la cosiddetta ridondanza ad N moduli (N-modular redundancy - NMR), la quale differisce da TMR nel fatto che il componente in oggetto viene replicato N volte, con N possibilmente maggiore di 3. Il vantaggio di utilizzare N > 3 moduli risiede nel fatto che più di un singolo guasto può essere tollerato.

• Ad esempio, il voto di maggioranza permette ad un sistema di tipo 5MR di tollerare il guasto di un massimo di due componenti. Ovviamente lo svantaggio sarà associato al maggiore costo dovuto al più alto numero di copie del modulo per cui si adotta la ridondanza.

Page 11: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 11ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Page 12: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 12ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

TMR with 3 Voters• Remove single point of failure

• Use TMR with 3 voters

• Cascade such systems

V1 VnVn-1

Reliability expression can be obtained by considering module -voter combination as a unit, R v - Rm Then simply apply TMR expression.

Page 13: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 13ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Page 14: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 14ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Interconnessione TMR

• Il sistema è guasto o non disponibile perché sono contemporaneamente guaste o non disponibili due entità o perché è guasto o non disponibile il voter, quindi:

VOTERCCC

VOTERCCC

AAAAA

tRtRtRtRtR

)1(3

)())(1()(3)()(

23

23

Page 15: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 15ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

M-out-of-N Systems

• Consider TMR system

• Only 2 to work correctly

• For general M, N

• Out of N modules, need M to function

A

B

C

V

N working

N-1 working

N-2 working

N-M working

Failed

V

RMN N

i

i0

N M

RmN i (1 Rm) i

RTMR Rm3

3

2

Rm

2 (1 Rm)

Page 16: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 16ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Interconnessione ibrida M su N.

• N entità di un sistema si dicono interconnesse in modo ibrido M su N se il sistema è funzionante qualora lo siano almeno M di loro, ovvero se sono guaste al più K = N – M entità. In tal caso indicando con RC(t) e con AC l’affidabilità e la disponibilità di ogni singola entità si ha che:

iC

iNC

K

i

iC

iNC

K

i

AAi

NA

tRtRi

NtR

)1(

))(1)(()(

0

0

Page 17: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 17ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Queste espressioni si possono giustificare notando che la probabilità che:

• siano sane N entità è pari a:

• siano sane N-1 entità è pari a:

• siano sane N-2 entità è pari a:

• siano sane N-K entità è pari a:

)(tRNC

))(1)((1 tRtNR CNC

22 ))(1)((2

tRtRN

CNC

KC

KNC tRtR

K

N))(1)((

Page 18: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 18ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Hardware Redundancy – Compare reliability of simplex and TMR systems

7.02ln

where

)()(

0 )()(

0

0

0

t

tttRtR

tttRtR

TMR

TMR

7.02ln

where

)()(

0 )()(

0

0

0

t

tttRtR

tttRtR

TMR

TMR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

lambda * t

Rel

iab

ility

to

Simplex

TMR

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

lambda * t

Rel

iab

ility

to

Simplex

TMR

• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning

– spare components tolerate failures• Reliability sharply falls down in end

– system exhausted redundancy, more hardware can possibly fail

• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period

• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning

– spare components tolerate failures• Reliability sharply falls down in end

– system exhausted redundancy, more hardware can possibly fail

• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period

Rsimplex(t) = e - t

MTTFsimplex = e t dt 1/

)1(2

3 23 tttTMR eeetR

6

5

3

2

2

3TMRMTTF

MTTFsimplex > MTTFTMR

Page 19: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 19ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Effect of Voter

• Previous expression for reliability assumed voter 100% reliable

• Assume voter reliability Rv

RTMRV RV (Rm

3 3

2

Rm

2 (1 Rm ))

Page 20: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 20ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Voting in Hardware & Software

• Guarantee majority vote on the input data to the voter

• Ability of detecting own errors (self-checking)

• Determine the faulty replica/node (building the exclusion logic)

• Voting in networked systems (software)

– requires synchronization of inputs to the voter

– may be difficult to determine voter timeout

• different relative speed of machines

• varying network communication delays

• Voting in hardware systems

– generally does not require an external synchronization of inputs to the voter

– lock step mode or loosely synchronized mode

– CPUs internally can be out of synch because of non-deterministic execution of instructions

Page 21: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 21ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Voters Example (Tandem Integrity)

• Voting on CPU initiated operations

– Voter divided into two parts: majority voter and vote analyzer

• the majority voter generates a bit by bit majority vote from the three inputs to the voter

• the vote analyzer is a three part comparator and determines whether one of the inputs is faulty

– Voting logic is duplicated and compared

• a failure in the voting logic results in a self-check error

• Voting on external I/O operations

– distributed, majority voting performed locally on each CPU

CPU1 CPU2 CPU3

ExternalInterrupt

Page 22: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 22ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Ridondanza attiva

• E' da notare che in questo caso non c'è alcun tentativo di prevenzione affinché guasti non diano origine ad errori ed a malfunzionamenti, ma esistono solo azioni di rimedio per riportare il sistema al corretto funzionamento.

• Quindi tale tipo di ridondanza risulterà più appropriata per tutte quelle applicazioni in cui la presenza, se pur temporanea, di errori e malfunzionamenti è accettabile.

Page 23: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 23ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Page 24: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 24ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Hardware / Dynamic Fault Tolerance

• Use dynamic or standby redundancy

• Detect fault, locate fault, replace fault with spare

• Use duplication and comparison for detection

Switch

Comparator

Page 25: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 25ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Coverage

• The more fault a test set detects, the better the test set is

• Fault coverage• Ratios of faults detected by a test set to

the total number of possible faults in the circuit

• Metric obtained through simulation

Page 26: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 26ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Effect of Coverage• Failure detection is not perfect

• Reconfiguration may not succeed

• Attach a coverage “c”

One spare system

Rsys = R1 + c (1-R1) R2

n-1 spare system

Rsys = Rm ci (1-Rm)i

2

3

n

1

i=0

n-1

Page 27: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 27ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Effect of Coverage (cont.)

• If coverage is 100%, then given low module reliability, can increase system reliability arbitrarily

Rm = 0.9

0.989

0.999

0.999

0.972

0.978

0.978

Rm = 0.7

0.908

0.988

0.996

0.868

0.918

0.921

Rm = 0.5

0.748

0.931

0.990

0.700

0.812

0.833

C=0.99, n=2

C=0.99, n=4

C=0.99, n=inf

C= 0.8 , n=2

C= 0.8 , n=4

C=0.8, n=inf

With low coverage,reliability saturates

Page 28: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 28ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

• Una forma particolare di ridondanza attiva è la cosiddetta riserva fredda, in cui per ogni modulo soggetto a ridondanza esiste una sua copia non attiva, che viene attivata in caso di guasto della copia originale, da cui il nome di riserva fredda. In tal caso, la riconfigurazione ha lo scopo di sostituire la copia originale con la riserva fredda. E' da notare che, durante il periodo di riconfigurazione necessario all'attivazione della riserva, la funzionalità del sistema viene interrotta. Per minimizzare la durata di questo periodo è possibile utilizzare riserve calde, che a differenza di quelle fredde, sono attive contemporaneamente al modulo per cui fungono da ridondanza. Lo svantaggio principale è che queste riserve consumano costantemente energia per rimanere attive, anche quando non forniscono reali servizi.

Page 29: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 29ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Ridondanza ibrida

• Infine, un terzo approccio classico alla ridondanza hardware, denominato ridondanza ibrida, combina le caratteristiche salienti delle due soluzioni precedenti. In particolare, in questa soluzione viene adottata sia una tecnica di mascheramento dei guasti per prevenire gli errori, sia una tecnica di diagnosi dei guasti stessi con relative azioni di riconfigurazione per isolare il componente guasto. In generale la ridondanza ibrida è implementata tramite una combinazione di ridondanza NMR in cui sono presenti anche riserve (fredde o calde). Le riserve subentreranno ad eventuali componenti guasti facenti parte dell' insieme originale di N repliche.

Page 30: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 30ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023

Page 31: Lecture 2, Slide 1 ECE 442 / CS 436 Spring 2004 Saturday, February 08, 2014 Design of High Availability Systems and Networks Lecture 2 Hardware Redundancy

Lecture 2, Slide 31ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023