Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
1
Zuverlässigkeit und Fehlertoleranz
Einführung und Begriffsklärung
M. Schölzel
Begriffe
Zuverlässigkeit Verlässlichkeit
Wartbarkeit
Sicherheit Fehlertoleranz
Verfügbarkeit
Fehler
Störung Ausfall
Fehlervermeidung
Fehlerbeseitigung
Verlässlichkeit
Zusammenfassender Ausdruck für viele Eigenschaften, die die Verlässlichkeit beeinflussen: Zuverlässigkeit
− Funktionsfähigkeit − Verfügbarkeit − Wartbarkeit
Sicherheit und Vertraulichkeit
3
Die Verlässlichkeit (Dependability) beschreibt den Grad der Vertrauenswürdigkeit in ein System, der aus nachvollziehbaren Gründen in den bereitgestellten Dienst des Systems
gesetzt werden kann.
Adaptiert von Jean-Claude Laprie: Dependable Computing and Fault Tolerance: Concepts and Terminology, 15th Fault Tolerant Computing Symposium, pp. 2-11,1985.
Nach DIN 40041 und IEC 191
Was beeinflusst die Verlässlichkeit?
Verlässlichkeit
Attribute
Verbesserungsmethoden
Bedrohungen
Zuverlässigkeit (Reliability)
Sicherheit (Safety + Security)
Vertraulichkeit (Confidentiality)
Wartbarkeit (Maintainability)
Fehlerbeseitigung
Fehlervorhersage
Fehlervermeidung
Fehlertoleranz
Fehler (Fault)
Störung (Error)
Ausfall (Failure)
Verfügbarkeit (Availability)
Kontinuität der Funktion
Unterschiedliche Attribute der Verlässlichkeit
Verlässlichkeit
Attribute
Verbesserungsmethoden
Bedrohungen
Zuverlässigkeit (Reliability)
Sicherheit (Safety + Security)
Vertraulichkeit (Confidentiality)
Wartbarkeit (Maintainability)
Fehlerbeseitigung
Fehlervorhersage
Fehlervermeidung
Fehlertoleranz
Fehler (Fault)
Störung (Error)
Ausfall (Failure)
Verfügbarkeit (Availability)
Kontinuität der Funktion
6
Zuverlässigkeit (Reliability)
Die Zuverlässigkeit eines Systems ist eine Funktion der Zeit, R(t), die definiert ist als die bedingte Wahrscheinlichkeit, dass das System korrekt in dem Zeitintervall [t0,t] gearbeitet
hat, vorausgesetzt, es hat zum Zeitpunkt t0 korrekt gearbeitet.
Dient der Charakterisierung von Systemen, für die ein kurzer Ausfall nicht tolerierbar oder eine Reparatur nicht möglich ist. Beispiele: Sicherheitskritische Regelsysteme wie Systeme in der Luft- und Raumfahrt.
7
Verfügbarkeit (Availability)
Verfügbarkeit (Availability): Ist eine Funktion A(t) von der Zeit, die die Wahrscheinlichkeit angibt, dass ein System zum Zeitpunkt t korrekt seine Funktion
ausführt.
Zuverlässigkeit bezieht sich auf einen Zeitintervall, Verfügbarkeit auf einen Zeitpunkt. Dient der Charakterisierung von Systemen, für die ein kurzer Ausfall tolerierbar ist und das System nach einem Ausfall repariert werden kann. Beispiele: Internetdienste, z.B. Flugbuchungssysteme, Bankportale.
Anmerkung: Ein System kann eine hohe Verfügbarkeit haben und trotzdem oft ausfallen; dann muss die Reparaturdauer aber sehr kurz sein.
8
Wartbarkeit (Maintainability)
Wartbarkeit (Maintainability): Ist eine Funktion M(t), die angibt, mit welcher Wahrscheinlichkeit ein defektes System in der Zeit t repariert werden kann.
Dabei umfasst der Reparaturprozess: die Zeit zum lokalisieren des Fehlers, die Zeit zum Austausch der Komponente oder die Rekonfiguration, die Zeit, um das reparierte System in Betriebsbereitschaft zu versetzen.
9
Sicherheit (Safety)
Sicherheit (Safety): Ist die Wahrscheinlichkeit S(t), dass ein System, das zum Zeitpunkt t0 korrekt funktionierte im Zeitintervall [t0,t] seine Funktion korrekt ausgeführt hat oder bei einem Ausfall in einen Fail-Safe Zustand übergegangen ist. Im Fail-Safe Zustand ist
abgesichert, dass das ausgefallene Systems die Operation anderer Systeme nicht stört.
Beispiele für Fail-Safe Zustand: Motoreinspritzsteuerung: Konstanter Zeitpunkt und konstante Kraftstoffmenge, ESP: Ausschalten.
Negative Einflüsse
Verlässlichkeit
Attribute
Verbesserungsmethoden
Bedrohungen
Zuverlässigkeit (Reliability)
Sicherheit (Safety + Security)
Vertraulichkeit (Confidentiality)
Wartbarkeit (Maintainability)
Fehlerbeseitigung
Fehlervorhersage
Fehlervermeidung
Fehlertoleranz
Fehler (Fault)
Störung (Error)
Ausfall (Failure)
Verfügbarkeit (Availability)
Kontinuität der Funktion
Hierarchisch aufgebautes System
Top-Level-System besteht aus Sub-Systemen
Jedes Sub-System kann aus weiteren Sub-Systemen aufgebaut sein
11
Memory (Software)
Processor
Memory (Software)
Processor
Processor Memory
(Software)
HW HW HW
global bus
Inte
rfac
e In
terf
ace
Beispiel
Eingabe
Ausgabe
Ausfall (Failure)
Korrektes Verhalten ist nicht das spezifizierte Verhalten
Dadurch schließt die Definition ein: − Ausfälle auf Grund von Fehlern in der Spezifikation − Ausfälle auf Grund nicht spezifizierter Zustände
12
Als Ausfall wird eine Situation bezeichnet, in der das beobachtbare Verhalten des Top-Level-Systems vom korrekten Verhalten abweicht.
Störung/Fehlerzustand (Error)
Eine Störung muss keinen Ausfall verursachen
Erkannte Störung: Störung wurde entdeckt und im System angezeigt
Latente Störung: Störung ist vorhanden, wurde aber noch nicht erkannt
13
Als Störung in einem System wird der Ausfall wenigstens eines seiner echten Sub-Systeme bezeichnet.
Fehler/Fehlerursache (Fault)
Lässt externe Ursachen (Ursachen, die sich außerhalb der Systemgrenzen befinden) zu
14
Ein Fehler ist die nachgewiesene oder vermutete Ursache einer Störung.
Ein Fehler ist ein physikalischer Defekt, eine Unvollkommenheit oder eine Schwachstelle innerhalb einer Hardware- oder Softwarekomponente des Systems.
Ein Fehler ist die Repräsentation einer physischen Vorbedingung, die die Ursache für ein Fehlverhalten der Schaltung sein kann.
Liegt innerhalb des Systems
Zusätzlicher Aspekt der Modellierung eines Fehlers in einem Modell des Systems Aktiver Fehler: Erzeugt eine Störung Ruhender Fehler: Voraussetzung für eine Störung ist da, Störung ist aber noch nicht
aufgetreten
15
Zusammenhang
Fehler Störung Ausfall
Fehler Störung Ausfall
Fehler Störung Ausfall
Hier
arch
ie
16
Fehler im Entwurfs- und Fertigungsprozess
Entwurfs- und Fertigungsprozess Nutzung des Systems
System- spezifikation
System- entwurf
Implementierung Hardware
Fertigung Hardware
Implementierung Software
Test/Verifikation Hardware
Test/Verifikation Software
Produktions- test
Spezifikations- fehler
Entwurfs- fehler
Implementierungs- fehler
Test-/Verifikations- fehler
Fertigungs- fehler
Verwendung
Test Escapes
Beispiel: ungeeignetes
Bussystem
Beispiel: falscher
Vergleich im Programm
Beispiel: Ein Programmpfad
wurde nicht getestet
Beispiel: unterbrochene
Leitung
Beispiel: Ein Fehler wird
durch die Testmuster nicht
aktiviert
Beispiel
…
Klassifikation
Einordnung bzgl. der Eigenschaften von 8 elementaren Klassen
Damit bis zu 256 verschiedene Fehlerarten
Nicht alle sinnvoll…
17
Elementary class Property Description
Fau
lts
Phase of creation or
occurrence
Development faults Occur during system
development
Operational faults Occur during operational phase
Dimension
Hardware faults originate in or affect hardware
Software faults affect software (program and
data)
Persistence Permanent faults Presence is continuous in time
Temporary faults Presence is bounded in time
System boundaries
Internal faults Originate inside system
boundaries
External faults Originate outside system
boundaries
Phenomenological
cause
Natural faults Caused by natural phenomena
Human-Made faults Result from human actions
Intent (Absicht) Deliberate faults Result of a harmful decision
Non-Deliberate faults Introduced without awareness
Capability
(Fähigkeit)
Accidental faults Introduced inadvertently
(Ausversehen)
Incompetence faults Result from lack of professional
competence
Objective (Ziel)
Malicious faults Introduced with objective of
causing harm
Non-Malicious faults Introduced without malicious
objectives
?
?
Persistenz
Temporäre Fehler: Nur für ein bestimmtes Zeitintervall vorhanden Können in dieser Zeit Störungen verursachen Fehler Verschwinden danach wieder; Störungen können ohne
weiteres Zutun evtl. zu Ausfällen führen Weitere Unterteilung in:
− Transiente Fehler: Typischerweise durch externe Einflüsse verursacht − Intermittierende Fehler: Treten in unregelmäßigen Abständen immer
wieder auf; Ursache sind oft nicht erkannt Fertigungsfehler oder Alterungsfehler
Permanente Fehler: Bleiben für immer im System bestehen Erzeugte Störungen sind reproduzierbar (wichtig für Test)
18
Natürliche Fehler
Natürliche Fehler sind Hardwarefehler, die ohne menschliche Interaktion entstanden sind: Herstellungsfehler Interne Fehler; z.B. durch Verschleiß/Alterung Externe Fehler; z.B. durch Umwelteinflüsse
19
31 sinnvolle Kombinationen
20 Aus: A. Avizienis et. al.: "Basic Concepts and Taxonomy of Dependable and Secure Systems Computing". IEEE Transactions on Dependable and Secure Computing, Vol.1 Issue 1, 2004.
Herstellungsfehler
Alterung
Zufällige Fehler
Ursachen für zufällige Fehler
Partikel: Alpha-Teilchen Protonen Neutronen Elektrische Ursachen Elektromagnetische Interferenz Störung der Stromversorgung Strahlung (Röntgenstrahlung, Gammastrahlung) Wirkung: Akkumulativ Unmittelbar (Single Event Effects)
21
Single Event Effect (SEE)
Single-Event-Upset (SEU): Invertierter Wert einer Speicherzelle nicht destruktiv Single-Event-Transient (SET): Wirkt auf kombinatorische Logik nicht destruktiv Single-Event-Latchup (SEL): Betrifft Transistoren kann diese zerstören
22
Ursachen für SEE
Hoch energetische Neutronen werden in der Atmosphäre durch hoch energetische kosmische Strahlung erzeugt Treten unterhalb von 15km Höhe auf ca. 20 Neutronen mit mehr als 10 MeV pro cm² und Stunde auf
Meereshöhe Alpha Partikel entstehen durch Zerfallsprozesse: z.B. im Blei, das für Lötkontakte verwendet wird Strahlung aus dem Weltraum: 93% Protonen 6 % Alpha Partikel 1% Andere elektrisch geladene Teilchen
23
Physikalischer Mechanismus
Direkte Ionisierung: Alpha-Partikel erzeugen Elektronen/Löcher-Paare im Halbleiter Indirekte Ionisierung: Neutronen oder Protonen erzeugen beim Eindringen in den Halbleiter u.a. Alpha-Partikel Wirkung von Alpha-Partikeln: Erzeugen durch Ionisierung Elektronen/Löcher-Paare Elektrisches Feld im Bauelement trennt die erzeugten Ladungen Ansammlung von Elektronen bildet eine Ladung, die z.B. Speicherzustände in DRAM- oder SRAM-
Zellen ändern kann (SEU)
24
Substrat (p+)
n+
+
+ +
+ +
+ +
+ +
- -
-
-
-
-
-
-
- -
+ +
Substrat (p+)
n+
+
+ +
+ +
+ +
+ +
- -
- -
-
-
-
- -
-
+
+
Minoritätsträger aus der Verarmungsregion sammeln sich am
Knoten
SEU in DRAM-Zelle
25
Word Line
Bit Line
Entladung der Speicherzelle möglich
Erzeugte Ladungsträger
Speicherzelle
Single Event Transient
Ladung erzeugt am Ausgang eines Logikgatters kurzzeitig einen falschen Wert Unproblematisch in sequentiellen Schaltungen, wenn der falsche Wert nicht in einem Register gespeichert wird: Zeitliche Maskierung
Logische Maskierung
26
FF ³1 D
clk
D
clk
falscher Wert wird
gespeichert
unkritisch
& ³1
0 FF
D
clk
1
Single Event Latchup
Hochenergetischer Partikel erzeugt freie Ladungsträger, in der Basis der parasitären pnp- bzw. npn-Transistoren.
Beide Transistoren werden leitend und führen zu einem Kurzschluss zwischen USS und UDD
Hoher Stromfluss erzeugt lokal Hitze, die die Schaltung dauerhaft zerstören kann
Spannungsversorgung muss rechtzeitig unterbrochen werden, um Funktionalität wieder herzustellen
27
Partikel
- - - - -
Akkumulative Wirkung
Ladungsträger sammeln sich in Oxidschicht zwischen Kanal und Gate
Die Folgen sind: − Schaltverhalten des Transistors ändert sich
(schaltet schneller an, später aus) − Verzögerungen beim Ausschalten
28
++++++++
Kanal
Gate Gate Oxid
Alterungserscheinungen
Degradierung: Negative Bias Temperature Instability (NBTI) Positive Bias Temperature Instability (PBTI) Hot Carrier Injection (HCI)
Destruktiv: Time Dependent Dielectric Breakdown (TDDB) Electromigration (EM)
29
NBTI
Betrifft Gate-Oxid von PMOS Feldeffekttransistoren bei negativer Vorspannung des Gates (Stress)
Dadurch: Löcher wandern an die Grenze zwischen Kanal und Gate-Oxid.
Dort lösen sie die Bindung von Wasserstoff- und Siliziumatomen
Wasserstoffatome wandern in das Gate-Oxid und verursachen dort eine positive Ladung
Schwellspannung des Transistors ändert sich
Effekt ist teilweise reversibel
30
Vth
Zeit
Stre
ss
Ruhe
Ruhe
Ruhe
Stre
ss
Stre
ss
Si Si Si Si Si
H H H
Si Si Si Si Si
O O O O O
H+
Kanal
Gate-Oxide
HCI
Betrifft NMOS Feldeffekttransistoren
Elektronen im Kanal werden stark durch elektrisches Feld beschleunigt
Durch Zusammenstöße mit gebundenen Elektronen werden Elektron/Loch-Paare erzeugt
Ladungsträger dringt in das Gate-Oxid ein
Ladungsträger sammeln sich im Gate-Oxid und verändern die Schwellspannung
Keine Regenerierung beobachtet
31
Si Si Si Si Si
H H H
Si Si Si Si Si
O O O O O
Kanal
Gate-Oxide
-
-
-
TDDB Betrifft Gate-Oxid in Feldeffekttransistoren
Dünnes Gate Oxid (ca. 2 nm) ist hohen elektrischen Feldstärken ausgesetzt
Dadurch können Elektronen durch das Gate-Oxid tunneln und erzeugen weitere Störstellen (Traps)
Störstellen verringern den Widerstand und bilden eine leitende Verbindung zwischen Gate und Kanal
Transistor kann nicht mehr über Gate gesteuert werden
32
Gate
Kanal
EM
Betrifft Leitungen und Verbindungen
Transport von Metallatomen durch starke elektrische Felder
Abriss einer Verbindung möglich
Ablagerung von transportiertem Metall kann Kurzschluss verursachen
33
Fertigungsfehler (1)
Verunreinigungen des Wafers Fehlende Kontakte oder Kurzschlüsse bei der Metallisierung
34
Fertigungsfehler (2)
Störstellen in Oxidschichten (Isolation Kanal/Gate) führen zu Kurzschlüssen oder vorzeitigem TDDB
Lithographieprobleme erzeugen Geometrieprobleme
Stochastische Effekte bei der Dotierung: − bei 40 nm Strukturgröße ca. 100 dotierte Atome im Kanal eines
Transistors − geringe Schwankungen führen bereits zu Veränderungen der
Schwellspannung − es entstehen Verzögerungsfehler
35
Aktuelle Problematik in Nano-Scaled CMOS
Random effects causing permanent faults: Random Dopant Fluctuations Line Edge Roughness Line Width Roughness Gate oxide variability and defects Systematic Faults: Design Flaws ...
Aging causes performance degradation and permanent faults: NBTI, PBTI, HCI, Gate Oxide Break Down, Metal Migration Temporal Effects causing permanent faults: Single Event Effects (Latch-Ups) Temporal Effects causing temporary faults Electromagnetic Interference Single Event Effects (SEU, SET, …)
Manufacturing-Phase Operational-Phase
Time
Failu
re ra
te
Infant mortality moves into
operational phase Aging
reduces life time
Reduced margins and temporal effects increase failure rate during useful
operational phase
Infant Mortality
Phase Useful Operational Phase
Wear Out Phase
Zusammenfassung
Große Vielfalt an physikalischen Effekten die physikalische Fehler erzeugen
Probleme: − Anwendung einer speziellen Methode zur Behandlung eines möglichen
Fehlers erfordert zu hohen Aufwand − Korrekte Modellierung aller möglichen realen Fehler nicht möglich
Daher: − Abstraktion von Fehlern durch Reduktion auf einige wesentliche
Eigenschaften − Entwicklung von Methoden zur Behandlung von Fehlern mit diesen
Eigenschaften
37
Was beeinflusst die Verlässlichkeit positiv?
Verlässlichkeit
Attribute
Verbesserungsmethoden
Bedrohungen
Zuverlässigkeit (Reliability)
Sicherheit (Safety + Security)
Vertraulichkeit (Confidentiality)
Wartbarkeit (Maintainability)
Fehlerbeseitigung
Fehlervorhersage
Fehlervermeidung
Fehlertoleranz
Fehler (Fault)
Störung (Error)
Ausfall (Failure)
Verfügbarkeit (Availability)
Kontinuität der Funktion
39
Fehlervermeidung im Entwurfsprozess
Entwurfs- und Fertigungsprozess Nutzung des Systems
System- spezifikation
System- entwurf
Implementierung Hardware
Fertigung Hardware
Implementierung Software
Test/Verifikation Hardware
Test/Verifikation Software
Produktions- test
Spezifikations- fehler
Entwurfs- fehler
Implementierungs- fehler
Test-/Verifikations- fehler
Fertigungs- fehler
Verwendung
Test Escapes Bedienungsfehler, transiente Fehler,
Stress, Alterung Die Fehlervermeidung beschäftigt sich mit der Thematik, wie Fehler bereits beim Bau des Systems vermieden werden
können.
Beispiele: Spezifikationsreviews Regeln für den Entwurf eines Systems erstellen (z.B. ISO26262 im Automotivbereich, DO 178 für Avionic) Zwei Programmierer Reinraumregeln Wiederverwendung
40
Fehlerbeseitigung im Entwurfsprozess
Entwurfs- und Fertigungsprozess Nutzung des Systems
System- spezifikation
System- entwurf
Implementierung Hardware
Fertigung Hardware
Implementierung Software
Test/Verifikation Hardware
Test/Verifikation Software
Produktions- test
Spezifikations- fehler
Entwurfs- fehler
Implementierungs- fehler
Test-/Verifikations- fehler
Fertigungs- fehler
Verwendung
Test Escapes Bedienungsfehler, transiente Fehler,
Stress, Alterung
Durch Fehlerbeseitigung wird versucht Störungen zu entdecken und zu beseitigen.
Beispiele: Simulation zur Beseitigung von Spezifikations- und Entwurfsfehlern. Testen und/oder Verifikation der Software und/oder Hardware zur Beseitigung von Implementierungsfehlern.
41
Fehlertoleranz
Entwurfs- und Fertigungsprozess Nutzung des Systems
System- spezifikation
System- entwurf
Implementierung Hardware
Fertigung Hardware
Implementierung Software
Test/Verifikation Hardware
Test/Verifikation Software
Produktions- test
Spezifikations- fehler
Entwurfs- fehler
Implementierungs- fehler
Test-/Verifikations- fehler
Fertigungs- fehler
Verwendung
Test Escapes Bedienungsfehler, transiente Fehler,
Stress, Alterung
Fehlertoleranz bezeichnet die Eigenschaft eines Systems die ihm zugedachte Aufgabe auch dann weiterhin korrekt zu erfüllen, wenn Fehler vorliegen. Ein solches System wird dann auch fehlertolerantes
System genannt.
Beispiele: Rekonfiguration: Erkennung, Lokalisierung und Eliminierung einer defekten Komponente. Fehlermaskierung (z.B. TMR, Codes).
42
Fehlervorhersage
Entwurfs- und Fertigungsprozess Nutzung des Systems
System- spezifikation
System- entwurf
Implementierung Hardware
Fertigung Hardware
Implementierung Software
Test/Verifikation Hardware
Test/Verifikation Software
Produktions- test
Spezifikations- fehler
Entwurfs- fehler
Implementierungs- fehler
Test-/Verifikations- fehler
Fertigungs- fehler
Verwendung
Test Escapes Bedienungsfehler, transiente Fehler,
Stress, Alterung
Fehlervorhersage: Anwenden empirischer und statistischer Mittel zur Vorhersage des Auftretens von Fehlern und deren Auswirkung. Quantifizierung durch Maße.
Zusammenfassung
Fehler im Entwurfsprozess sind unvermeidbar: Maßnahmen zur Vermeidung Maßnahmen zur Erkennung und Beseitigung
Trotzdem: Ruhende Fehler verbleiben im System und werden im Feld
aktiv Weitere Fehler entstehen im Feld Lösung: Fehlertoleranz
43
44
Beispiel Spezifikationsfehler
Quelle:
Zurück