Upload
ledat
View
215
Download
0
Embed Size (px)
Citation preview
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior de
Engenharia
09-06-2012
Tolerância a Falhas em Circuitos
Integrados Nanométricos
Jorge Semião
INSTITUTO SUPERIOR DE ENGENHARIA
Universidade do Algarve
Faro, 23 de Maio de 2012
IV Jornada Técnica de Electrotecnia
Sistemas Tolerantes a Falhas
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 Tolerância a Falhas em Circuitos Integrados Nanométricos 2
Resumo
• Introdução
• Erros em Circuitos e Causas Possíveis
• Tolerância a Falhas em Sistemas Seguros
• Tolerância a Falhas em Nanotecnologias
• Investigação no ISE sobre Tolerância a Falhas
• Conclusão
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 3
Há sistemas que não podem falhar…
Introdução
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 4
Outros sistemas, aceitamos que errem…
Introdução
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 5
Introdução
• Tolerância a Falhas – É a capacidade para preservar o funcionamento correcto do
sistema, mesmo na presença de erros.
– O sistema evita erros, ou detecta erros e recupera deles sem ajuda externa
– Envolve: Redundância.
• Uma Falta – A violação de um pressuposto num sistema.
• Um Erro – É um estado dos dados internos que reflecte uma falta.
• Uma Falha – É um desvio das especificações observado do exterior.
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 6
Introdução
• Utilização de métodos tolerantes a falhas
– Tradicionalmente a tolerância a falhas era utilizada em sistemas onde a segurança é crítica
“Safety-critical applications”
– Sistemas electrónicos, electromecânicos, ou computorizados, cuja falha pode resultar em ferida ou morte de seres humanos.
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 7
Introdução
• A tradição já não é o que era…
– A miniaturização da electrónica traz consigo o aumento da probabilidade de ocorrência de falhas nos sistemas electrónicos
– A Tolerância a Falhas começa a ser utilizada em circuitos onde a segurança não é crítica
– A existência de circuitos tolerantes a falhas permite:
– Aceitar como bons circuitos que contêm algumas falhas
– Ultrapassar/evitar falhas durante a vida útil do circuito
São necessários novos métodos para aumentar a Tolerância a Falhas em circuitos de nanotecnologias
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 8
Erros em Circuitos
• Erros Permanentes – Podem ocorrer durante o processo de fabrico
Circuito descartado
– Podem ocorrer na vida útil do circuito
Circuito substituído
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
Erros em Circuitos
09-06-2012 9 Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 10
Erros em Circuitos
• Erros Intermitentes – Erros ocasionais, que se repetem em determinadas condições de
funcionamento
– Podem ser activados por mudanças de temperatura, tensão, etc.
– Normalmente precedem os erros permanentes
Chip temperature map
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 11
Erros em Circuitos
Muitos componentes falham cedo, devido a defeitos residuais latentes
Podem também terminar a sua vida devido ao envelhecimento.
No meio das duas regiões com alta mortalidade está o periodo de vida útil.
Tempo
Taxa
de
Falhas
Mortalidade
infantil
Fim de vida Vida Útil
(taxa de falhas baixa e
constante)
Mecânica
Electrónica
Normalmente devido a defeitos latentes
l
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 12
Erros em Circuitos
• Erros Transientes – Erros que ocorrem temporariamente
– São aleatórios e não produzem marcas permanentes nos circuitos
– Podem ser causados por factores externos (por exemplo a radiação), ou ruído de outras partes do circuito
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 13
Algumas Causas de Erros
• Diafonia (Crosstalk) – Interferência indesejada entre sinais
• Interferência Electromagnética (EMI) – Provoca variações em sinais, ou até na alimentação dos circuitos
• Variações do processo de fabricação – Afecta tamanhos dos transístores, condução, etc.
• Condições de operação e ambiente – Podem ser causados por factores externos (por exemplo a
radiação), ou ruído de outras partes do circuito
• Radiação – Soft errors, podendo ou não originar falhas (SEU, SET)
• Envelhecimento – Degradação lenta e cumulativa do funcionamento (BTI, HCI, etc.)
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 14 Tolerância a Falhas em Circuitos Integrados Nanométricos
• Radiação – Soft Errors
– Aumentam com redução da tecnologia
– Aumenta com altitude
Algumas Causas de Erros:
exemplo
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 15
Tolerância a Falhas em
Sistemas Seguros
• Tolerâncias a Falhas Estática
– A tolerância está construída na estrutura do sistema e é passiva
– Normalmente implica redundância:
– No hardware (ex.: Redundância Modular Tripla ou TMR)
– No tempo (ex.: repetir a execução para evitar erros)
– Na informação (ex.: repetir informação, ECC ou códigos de correcção de erros, como Hamming codes, bits de paridade, etc.)
– Híbrido (uma combinação das anteriores, ex.: Time Shared Triple Modular Redundancy - TSTMR)
– Utilizada em blocos críticos do sistema e não necessariamente no sistema todo
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 16
Tolerância a Falhas em
Sistemas Seguros
• Tolerâncias a Falhas Estática: exemplos
Tolerância a Falhas em Circuitos Integrados Nanométricos
Arquitectura
“Triple-Modular Redundancy” “Hamming codes with
4 data bits and 3 parity bits”
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 17
Tolerância a Falhas em
Sistemas Seguros
• Tolerâncias a Falhas Dinâmica
– É baseada em acções activa para prevenir a manifestação do erro
– Implica a utilização de um circuito de controlo especial e, eventualmente, de elementos de circuito especiais
– A operação pode ser dividida em 4 fases:
– Detecção da falta
– Localização da faulta
– Isolamento do erro
– Recuperação de falhas (pode envolver reconfiguração do circuito)
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 18
Tolerância a Falhas em
Sistemas Seguros
• Tolerâncias a Falhas Dinâmica: exemplos
Tolerância a Falhas em Circuitos Integrados Nanométricos
Arquitectura
“N-Redundancy with k-spare” Arquitectura
“Triple-duplex”
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 19
Tolerância a Falhas em
Sistemas Seguros
• Projecto de Sistemas Seguros
– Utilizar tecnologias estáveis, com processos controlados e bem experimentados (ex: tecnologias mais antigas)
– Utilizar grandes margens de segurança durante a operação (ex: frequências baixas)
– Utilizar redundância (ex: duplicar sinais, informação, hardware)
– Utilizar diversidade (ex: utilizar diferentes implementações do mesmo sistema, como acontece no software)
– O nível de tolerância é definido de acordo com: custo, área, erros admissíveis/corrigíveis
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 20
Tecnologias
Não-silício
Microelectrónica
em Silício
Nano electrónica em Silício
1 µm 100 nm 10 nm
1970 1980 2000 2010 2020
5 µm
Nanotecnologias
Tolerância a Falhas em Circuitos Integrados Nanométricos
• Aumenta a variabilidade – Variações grandes
entre circuitos iguais
– Maior vulnerabilidade
– Envelhecimento
– Sujeito a radiação
– etc. Inter and
Intra-die
Variations
10
100
1000
10000
1000 500 250 130 65 32
Technology Node (nm) # d
op
an
t ato
ms Source: Intel
Random dopant
fluctuation
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 21
• Em nanotecnologias, o aumento da variabilidade traz: – Incerteza no comportamento dos circuitos
– As variações a longo prazo, devido ao envelhecimento, são cumulativas e tornam-se relevantes
O Circuito tem maior probabilidade de Falhar!
Processo
de fabricação
Temperatura
Tensão de
alimentação
Envelhecimento
Nanotecnologias
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 22 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias
• Projecto de Sistemas Mais Tolerantes a Falhas
– Utilizar redundância, mas com conta peso e medida
– Garantir que o aumento do Hardware não é proibitivo
– Utilizar Tolerância para aumentar as condições de funcionamento normal dos circuitos
– Utilizar métodos de tolerância a falhas para optimizar funcionamento (diminuir potência, aumentar desempenho)
– Os Métodos de Projecto de Circuitos Tolerantes a Falhas estão em franco desenvolvimento
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 23 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 24
Q Q
Clock
Caminho crítico
Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias: exemplos
• Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 25 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias: exemplos
• Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura
– Inserir Buffers com atraso dinâmico para aumentar tolerância na captura dos sinais com maior atraso de propagação
Q Q
DDB
Clock
Caminho crítico Caminho não-crítico
Flip-flop crítico
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 26 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias: exemplos
• Razor I
– Permite detectar sinais que cheguem atrasados, corrigindo capturas incorrectas
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 27 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias: exemplos
• Razor II
– Permite detectar e corrigir erros provocados por variações PVT e Soft Errors
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 28 Tolerância a Falhas em Circuitos Integrados Nanométricos
Tolerância a Falhas em
Nanotecnologias: exemplos
• Predictive Fault Detection
– Prevê a ocorrência de erros de performance, alertando para a proximidade de ocorrência de falhas de desempenho
New library cell
FFj
OUT_CL
OUT_AS
ABC
PWD
Q
Aging
Sensor
Critical
Path
Programmable
Tg
Sensor ON/OFF
CLK
0 slack
CLKCLK/20
CLK
Observation interval
Illegal
OUT_CL
transition
OUT_CL CLK
th
SU
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
• Sensor de Performance
/ Sensor de Envelhecimento
– Flip-flop + DE + SC
– Inserção local
– Pouco incremento
de área e potência
– Não introduz atrasos
– Adapta-se a variações
de tensão, de
temperatura e ao
envelhecimento
09-06-2012 29
Investigação no ISE sobre
Tolerância a Falhas
Solução Inovadora
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 30
Conclusões
• A probabilidade de ocorrência de falhas em circuitos de nanotecnologias é cada vez maior
• Têm vindo a aumentar as práticas de projecto tolerante a falhas, mesmo para sistemas onde a segurança não é crítica (electrónica de consumo)
A Tolerância a Falhas será utilizada no futuro
em quase todas as aplicações electrónicas
• No futuro os sistemas tolerantes a falhas deverão poder recuperar de múltiplos erros simultâneos
Tolerância a Falhas em Circuitos Integrados Nanométricos
Instituto Superior de Engenharia da Universidade do Algarve
ISE Instituto Superior
de Engenharia
09-06-2012 31
Obrigado pela atenção!
Perguntas?
Tolerância a Falhas em Circuitos Integrados Nanométricos