Upload
ippolito-merlo
View
214
Download
1
Tags:
Embed Size (px)
Citation preview
Lecture 2, Slide 1ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Design of High Availability Systems and Networks
Lecture 2 Hardware Redundancy
Prof. Ravi K. IyerCenter for Reliable and High-Performance Computing
Department of Electrical and Computer Engineering andCoordinated Science Laboratory
University of Illinois at [email protected]
http://www.crhc.uiuc.edu/DEPEND
Lecture 2, Slide 2ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Tipi di interconnessione
I componenti di un sistema presentano indici d’affidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni.
Tipiche interconnessioni tra componenti sono: la serie, la parallela, la TMR, l’ibrida M su N.
Lecture 2, Slide 3ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Calcolo dell’affidabilità
• Interconnessione serie.
K entità di un sistema si dicono interconnesse in modo seriale quando il funzionamento del sistema dipende dal corretto funzionamento di tutti e K le entità. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:
K
ii
K
ii
AA
tRtR
1
1
)()(
Lecture 2, Slide 4ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Interconnessione parallela
• Interconnessione parallela.
K entità di un sistema si dicono interconnesse in modo parallelo quando il funzionamento del sistema è garantito dalla presenza di almeno una entità funzionante correttamente. Tale interconnessione è rappresentabile come in figura e denotando con Ri(t) e con Ai, rispettivamente, l’affidabilità e la disponibilità della generica entità, l’affidabilità e la disponibilità del sistema sono pari a:
• Queste espressioni si possono giustificare considerando che il sistema non funziona correttamente, ovvero non è disponibile se sono guaste o non disponibili tutte le sue K entità.
Nel caso di entità con la medesima affidabilità RC(t) o disponibilità AC si ha che:
)1)...(1)(1(1
))(1))...((1))((1(1)(
21
21
K
K
AAAA
tRtRtRtR
KC
KC
AA
tRtR
)1(1
))(1(1)(
Lecture 2, Slide 5ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Outline
• Basic approaches to hardware redundancy
• Static and dynamic redundancy
• Voting
• Hardware voter example
Lecture 2, Slide 6ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Basic Approaches to Hardware Redundancy
• Static or masking redundancy
– add redundancy to mask out effects of faults immediately
• Static and dynamic redundancy
– Detect fault
– Locate fault
– Reconfigure system around fault
– Recover and restart
• Voting
– hardware
– software
– synchronization issues
Lecture 2, Slide 7ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Hardware / Static Fault Tolerance
Triple Modular Redundancy (TMR)with One Voter Extended to NMR
Use static or masking redundancy
Lecture 2, Slide 8ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
• In questo tipo di schema, vengono mascherati guasti a livello dei componenti, ma non eventuali guasti a livello del voter, per il quale non vi è alcuna ridondanza.
• Se il voter è soggetto a guasto allora il suo valore di output potrebbe essere scorretto ed originare quindi errori e poi malfunzionamenti. Per questo tipo di schema, l'affidabilità dell'intero sistema non può mai essere superiore all'affidabilità del voter. Dato un sistema, ogni singolo componente il cui guasto può dar luogo a malfunzionamento del sistema stesso viene denominato singolo punto di fallimento.
Lecture 2, Slide 9ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Hardware / Static Fault Tolerance
TMR with 3 votersextended to NMR with N voters
Use static or masking redundancy
Una tecnica classica per prevenire che il voter diventi un singolo punto di fallimento è quella di replicarlo.
Lecture 2, Slide 10ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
• Una generalizzazione dell'approccio TMR è la cosiddetta ridondanza ad N moduli (N-modular redundancy - NMR), la quale differisce da TMR nel fatto che il componente in oggetto viene replicato N volte, con N possibilmente maggiore di 3. Il vantaggio di utilizzare N > 3 moduli risiede nel fatto che più di un singolo guasto può essere tollerato.
• Ad esempio, il voto di maggioranza permette ad un sistema di tipo 5MR di tollerare il guasto di un massimo di due componenti. Ovviamente lo svantaggio sarà associato al maggiore costo dovuto al più alto numero di copie del modulo per cui si adotta la ridondanza.
Lecture 2, Slide 11ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Lecture 2, Slide 12ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
TMR with 3 Voters• Remove single point of failure
• Use TMR with 3 voters
• Cascade such systems
V1 VnVn-1
Reliability expression can be obtained by considering module -voter combination as a unit, R v - Rm Then simply apply TMR expression.
Lecture 2, Slide 13ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Lecture 2, Slide 14ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Interconnessione TMR
• Il sistema è guasto o non disponibile perché sono contemporaneamente guaste o non disponibili due entità o perché è guasto o non disponibile il voter, quindi:
VOTERCCC
VOTERCCC
AAAAA
tRtRtRtRtR
)1(3
)())(1()(3)()(
23
23
Lecture 2, Slide 15ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
M-out-of-N Systems
• Consider TMR system
• Only 2 to work correctly
•
• For general M, N
• Out of N modules, need M to function
•
A
B
C
V
N working
N-1 working
N-2 working
N-M working
Failed
V
RMN N
i
i0
N M
RmN i (1 Rm) i
RTMR Rm3
3
2
Rm
2 (1 Rm)
Lecture 2, Slide 16ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Interconnessione ibrida M su N.
• N entità di un sistema si dicono interconnesse in modo ibrido M su N se il sistema è funzionante qualora lo siano almeno M di loro, ovvero se sono guaste al più K = N – M entità. In tal caso indicando con RC(t) e con AC l’affidabilità e la disponibilità di ogni singola entità si ha che:
iC
iNC
K
i
iC
iNC
K
i
AAi
NA
tRtRi
NtR
)1(
))(1)(()(
0
0
Lecture 2, Slide 17ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Queste espressioni si possono giustificare notando che la probabilità che:
• siano sane N entità è pari a:
• siano sane N-1 entità è pari a:
• siano sane N-2 entità è pari a:
• siano sane N-K entità è pari a:
)(tRNC
))(1)((1 tRtNR CNC
22 ))(1)((2
tRtRN
CNC
KC
KNC tRtR
K
N))(1)((
Lecture 2, Slide 18ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Hardware Redundancy – Compare reliability of simplex and TMR systems
7.02ln
where
)()(
0 )()(
0
0
0
t
tttRtR
tttRtR
TMR
TMR
7.02ln
where
)()(
0 )()(
0
0
0
t
tttRtR
tttRtR
TMR
TMR
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
lambda * t
Rel
iab
ility
to
Simplex
TMR
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
lambda * t
Rel
iab
ility
to
Simplex
TMR
• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning
– spare components tolerate failures• Reliability sharply falls down in end
– system exhausted redundancy, more hardware can possibly fail
• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period
• Instead of MTTF, look at mission time• Reliability of M-out-of-N systems very high in the beginning
– spare components tolerate failures• Reliability sharply falls down in end
– system exhausted redundancy, more hardware can possibly fail
• Such systems useful in aircraft control– very high short time reliability– 0.99999 over 10 hour period
Rsimplex(t) = e - t
MTTFsimplex = e t dt 1/
)1(2
3 23 tttTMR eeetR
6
5
3
2
2
3TMRMTTF
MTTFsimplex > MTTFTMR
Lecture 2, Slide 19ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Effect of Voter
• Previous expression for reliability assumed voter 100% reliable
• Assume voter reliability Rv
RTMRV RV (Rm
3 3
2
Rm
2 (1 Rm ))
Lecture 2, Slide 20ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Voting in Hardware & Software
• Guarantee majority vote on the input data to the voter
• Ability of detecting own errors (self-checking)
• Determine the faulty replica/node (building the exclusion logic)
• Voting in networked systems (software)
– requires synchronization of inputs to the voter
– may be difficult to determine voter timeout
• different relative speed of machines
• varying network communication delays
• Voting in hardware systems
– generally does not require an external synchronization of inputs to the voter
– lock step mode or loosely synchronized mode
– CPUs internally can be out of synch because of non-deterministic execution of instructions
Lecture 2, Slide 21ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Voters Example (Tandem Integrity)
• Voting on CPU initiated operations
– Voter divided into two parts: majority voter and vote analyzer
• the majority voter generates a bit by bit majority vote from the three inputs to the voter
• the vote analyzer is a three part comparator and determines whether one of the inputs is faulty
– Voting logic is duplicated and compared
• a failure in the voting logic results in a self-check error
• Voting on external I/O operations
– distributed, majority voting performed locally on each CPU
CPU1 CPU2 CPU3
ExternalInterrupt
Lecture 2, Slide 22ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Ridondanza attiva
• E' da notare che in questo caso non c'è alcun tentativo di prevenzione affinché guasti non diano origine ad errori ed a malfunzionamenti, ma esistono solo azioni di rimedio per riportare il sistema al corretto funzionamento.
• Quindi tale tipo di ridondanza risulterà più appropriata per tutte quelle applicazioni in cui la presenza, se pur temporanea, di errori e malfunzionamenti è accettabile.
Lecture 2, Slide 23ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Lecture 2, Slide 24ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Hardware / Dynamic Fault Tolerance
• Use dynamic or standby redundancy
• Detect fault, locate fault, replace fault with spare
• Use duplication and comparison for detection
Switch
Comparator
Lecture 2, Slide 25ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Coverage
• The more fault a test set detects, the better the test set is
• Fault coverage• Ratios of faults detected by a test set to
the total number of possible faults in the circuit
• Metric obtained through simulation
Lecture 2, Slide 26ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Effect of Coverage• Failure detection is not perfect
• Reconfiguration may not succeed
• Attach a coverage “c”
One spare system
Rsys = R1 + c (1-R1) R2
n-1 spare system
Rsys = Rm ci (1-Rm)i
2
3
n
1
i=0
n-1
Lecture 2, Slide 27ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Effect of Coverage (cont.)
• If coverage is 100%, then given low module reliability, can increase system reliability arbitrarily
Rm = 0.9
0.989
0.999
0.999
0.972
0.978
0.978
Rm = 0.7
0.908
0.988
0.996
0.868
0.918
0.921
Rm = 0.5
0.748
0.931
0.990
0.700
0.812
0.833
C=0.99, n=2
C=0.99, n=4
C=0.99, n=inf
C= 0.8 , n=2
C= 0.8 , n=4
C=0.8, n=inf
With low coverage,reliability saturates
Lecture 2, Slide 28ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
• Una forma particolare di ridondanza attiva è la cosiddetta riserva fredda, in cui per ogni modulo soggetto a ridondanza esiste una sua copia non attiva, che viene attivata in caso di guasto della copia originale, da cui il nome di riserva fredda. In tal caso, la riconfigurazione ha lo scopo di sostituire la copia originale con la riserva fredda. E' da notare che, durante il periodo di riconfigurazione necessario all'attivazione della riserva, la funzionalità del sistema viene interrotta. Per minimizzare la durata di questo periodo è possibile utilizzare riserve calde, che a differenza di quelle fredde, sono attive contemporaneamente al modulo per cui fungono da ridondanza. Lo svantaggio principale è che queste riserve consumano costantemente energia per rimanere attive, anche quando non forniscono reali servizi.
Lecture 2, Slide 29ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Ridondanza ibrida
• Infine, un terzo approccio classico alla ridondanza hardware, denominato ridondanza ibrida, combina le caratteristiche salienti delle due soluzioni precedenti. In particolare, in questa soluzione viene adottata sia una tecnica di mascheramento dei guasti per prevenire gli errori, sia una tecnica di diagnosi dei guasti stessi con relative azioni di riconfigurazione per isolare il componente guasto. In generale la ridondanza ibrida è implementata tramite una combinazione di ridondanza NMR in cui sono presenti anche riserve (fredde o calde). Le riserve subentreranno ad eventuali componenti guasti facenti parte dell' insieme originale di N repliche.
Lecture 2, Slide 30ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023
Lecture 2, Slide 31ECE 442 / CS 436 Spring 2004 Tuesday, April 11, 2023