34
1 Doutoramento em Eng Doutoramento em Engª Electrot Electrotécnica e cnica e de Computadores de Computadores 1 Sistemas Inteligentes Sistemas Inteligentes e soft soft computing computingPaulo Salgado Paulo Salgado [email protected] [email protected] Doutoramento em Eng Doutoramento em Engª Electrot Electrotécnica e cnica e de Computadores de Computadores 2

Sistemas Inteligentes e “soft computinghome.utad.pt/~psal/Dout_Elect_acetatos_Parte1.pdf · Constituintes da SC Fuzzy systems => imprecisão Neural networks => aprendizagem Probabilistic

Embed Size (px)

Citation preview

1

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 11

Sistemas InteligentesSistemas Inteligentesee

““softsoft computingcomputing””

Paulo SalgadoPaulo [email protected]@utad.pt

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 22

2

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 33

ConteConteúúdodo

Sistemas InteligentesSistemas InteligentesSoftSoft computingcomputingÁÁreas de Aplicareas de AplicaççãoãoRedes NeuronaisRedes NeuronaisFuzzyFuzzy LogicLogic (L(Lóógica Difusa)gica Difusa)Sistemas Evolutivos Sistemas Evolutivos ( ( Prof. Paulo Oliveira Prof. Paulo Oliveira ))

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 44

Sistemas InteligentesSistemas Inteligentes

Inteligência: Os Sistemas devem realizar operações sem significado.

Interpretar as informações.

Compreender as relações entre fenómenos e objectos.

Aplicar os conhecimentos adquiridos a novas condições.

3

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 55

Objectivos dos sistemas inteligentesObjectivos dos sistemas inteligentes

Rotinas das necessidades humanasRotinas das necessidades humanas: : visão , processamento de linguagem, visão , processamento de linguagem, razão, aprendizagem, robrazão, aprendizagem, robóótica.tica.Rotinas ArtificiaisRotinas Artificiais: jogos, matem: jogos, matemáática, tica, llóógica, programagica, programaçção.ão.ExpertExpert systemssystems (ES)(ES)

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 66

AproximaAproximaçções tradicionaisões tradicionais

Modelos MatemModelos Matemááticos: ticos: BlackBlack boxes (caixa negra), boxes (caixa negra), FFíísicos (baseados nas leis sicos (baseados nas leis da conservada conservaçção da massa, ão da massa, energia, energia, ……).).Sistemas baseados em Sistemas baseados em Regras (disjuntas & Regras (disjuntas & bivalente): bivalente): Lista de regras numerosas.Lista de regras numerosas.

4

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 77

BlackBlack BoxBox

Entradas Saídas Entradas Saídas

OpenOpen BoxBox

ModelosModelos

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 88

Soft computing (SC)Soft computing (SC)

Objectivo:Objectivo:Imitar a razão humana (linguImitar a razão humana (linguíística stica

ou outra)ou outra)

ÁÁreas principais:reas principais:-- FuzzyFuzzy systemssystems-- Neural Neural networksnetworks-- EvolutionaryEvolutionary computingcomputing-- ProbabilisticProbabilistic reasoningreasoning

5

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 99

Constituintes da SCConstituintes da SC

FuzzyFuzzy systemssystems => imprecisão=> imprecisãoNeural Neural networksnetworks => aprendizagem=> aprendizagemProbabilisticProbabilistic reasoningreasoning => incerteza=> incertezaEvolutionaryEvolutionary computingcomputing => => optimizaoptimizaççãoão--

--pesquisapesquisa

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1010

Vantagens da Vantagens da SoftSoft ComputingComputing

Modelos baseados na razão humana. Modelos baseados na razão humana. Os modelos podem ser:Os modelos podem ser:-- lingulinguíísticos sticos -- simples (simples (não exaustivosnão exaustivos),),-- compreenscompreensííveis (veis (opostos opostos ààs s blackblack boxesboxes), ), -- rráápidos de executar (pidos de executar (computacionalmentecomputacionalmente), ), -- bons do ponto de vista prbons do ponto de vista práático. tico.

6

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1111

PossPossííveis tipos de dados & veis tipos de dados & operaoperaççõesões

Dados numDados numééricos:ricos:5, em torno de 5, 5 para 6, em torno de 5 5, em torno de 5, 5 para 6, em torno de 5 para 6para 6Dados LinguDados Linguíísticos:sticos:barato, muito alto, não alto, mbarato, muito alto, não alto, méédio ou maudio ou mauFunFunçções & relaões & relaçções:ões:f(xf(x), em torno de ), em torno de f(xf(x), muito similar, muito ), muito similar, muito maiormaior

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1212

Neural networks (NN, 1940's)Neural networks (NN, 1940's)

Neural Neural networksnetworks(redes neuronais) (redes neuronais) oferecem um oferecem um poderoso mpoderoso méétodo todo para explorar, para explorar, classificar, e classificar, e identificar padrões identificar padrões nos dados.nos dados.Inputs

Neurons(1 layer) Outputs

7

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1313

Aprendizagem supervisionadaAprendizagem supervisionada

Reconhecimento de Reconhecimento de Padrões baseados Padrões baseados nos treinos de nos treinos de dados.dados.ClassificaClassificaçção ão supervisionada por supervisionada por um instrutor.um instrutor.Neural (disjunto Neural (disjunto orordifuso), difuso), neuroneuro--fuzzyfuzzye e fuzzyfuzzy modelsmodels..

Pêssego

Ameixa?

Instrutor

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1414

Aprendizagem não supervisionadaAprendizagem não supervisionada

Reconhecimento de Reconhecimento de Padrões baseado no Padrões baseado no treino de dados.treino de dados.ClassificaClassificaçção baseada ão baseada na estrutura dos dados na estrutura dos dados (agrupamentos).(agrupamentos).Neural (disjunto ou Neural (disjunto ou difuso), difuso), neuroneuro--fuzzyfuzzy e e fuzzyfuzzy modelsmodels..

Pêssego

Ameixas

Nectarinas

Rótulos

8

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1515

SistemasSistemas DifusosDifusos ((ZadehZadeh, 1960's), 1960's)

Lidam com entidades imprecisas em ambientes Lidam com entidades imprecisas em ambientes automatizados (automatizados (computercomputer environmentsenvironments))BaseiamBaseiam--se na teoria dos conjunto difusos e na se na teoria dos conjunto difusos e na llóógica difusa.gica difusa.A maior parte das aplicaA maior parte das aplicaçções são em controlo e ões são em controlo e tomada de decisões (tomada de decisões (decisiondecision makingmaking).).

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1616

AplicaAplicaçções: controloões: controlo

Industria pesada Industria pesada ((MatsushitaMatsushita, , SiemensSiemens, , StoraStora--EnsoEnso))AplicaAplicaçções ões domesticas (domesticas (CanonCanon, , SonySony, , GoldstarGoldstar, , SiemensSiemens))AutomobilAutomobilíística stica ((NissanNissan, , MitsubishiMitsubishi, , DaimlerDaimler--ChryslerChrysler, , BMW, BMW, VolkswagenVolkswagen))Espacial (NASA) e Espacial (NASA) e militarmilitar

9

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1717

AplicaAplicaçções: robões: robóóticaticaControlo

+Planeamento

+inteligência

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1818

Outras aplicaOutras aplicaççõesões

• Técnicas Financeiras

• Estatística

• Ciências Sociais

• Ciência do ambiente

• Biologia

• Medicina

10

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 1919

SoftSoft ComputingComputing e as Te as Téécnicas cnicas TradicionaisTradicionais

SoftSoft ComputingComputing e os me os méétodos todos convencionais podem ser usados em convencionais podem ser usados em conjunto.conjunto.

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2020

ReferenciasReferencias

J. Bezdek & S. Pal, Fuzzy models for pattern recognition (IEEE Press, New York, 1992).L. Zadeh, Fuzzy logic = Computing with words, IEEE Transactions on Fuzzy Systems, vol. 2, pp. 103-111, 1996.L. Zadeh, From Computing with Numbers to Computing with Words -- From Manipulation of Measurements to Manipulation of Perceptions, IEEE Transactions on Circuits and Systems, 45, 1999, 105-119.L. Zadeh, Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems 90/2 (1997) 111-127.H.-J. Zimmermann, Fuzzy set theory and its applications (Kluwer, Dordrecht, 1991).

11

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2121

Redes NeuronaisRedes Neuronais

MMéétodo todo RepropopagaRepropopagaççãoão

Paulo SalgadoPaulo SalgadoUTAD, 2006UTAD, 2006

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2222

ÍÍndicendice

PerceptronsPerceptronsAprendizagemAprendizagemRedes MultiRedes Multi--camada. camada. MMéétodo de todo de BackpropagationBackpropagationBiasBias, , OverfittingOverfitting e 1e 1ªª paragemparagem(Exemplos: Reconhecimento facial)(Exemplos: Reconhecimento facial)

12

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2323

CCéérebro Humanorebro Humano

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2424

NeurNeuróóniosnios

13

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2525

Aprendizagem HumanaAprendizagem Humana

Numero de neurNumero de neuróónios:nios: ~ 10~ 101111

LigaLigaçções por neurões por neuróónio:nio: ~ 10~ 104 4 to 10to 1055

Tempo de processamento:Tempo de processamento: ~ 0.001 segundo~ 0.001 segundoTempo de reconhecimentoTempo de reconhecimentode uma cena:de uma cena: ~ 0.1 segundo~ 0.1 segundo

100 etapas de inferência não parecem ser muitas!100 etapas de inferência não parecem ser muitas!

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2626

NN’s são constituídas por uma grande número de elementos de processamento (nós ou unidades) fortemente interligadas, que usualmente operam em paralelo e estão configuradas numa arquitectura regular.

Partes constituintes do Neurónio:• Núcleo da célula (cell body) ou soma.• Dendrites• Axom• Sinapses (são excitadores/inibidores que deixam passar impulsos que causam o disparo/inibição do neurónio receptor).

14

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2727

Em resumo, as NN é uma estrutura de processamento de informação paralela com as seguintes propriedades:

1. O seu modelo matemático é inspirada nos neurónios.2. Consiste num largo número de elementos de processamento,

cujas interligações são pesadas.3. As suas ligações (pesadas) retêm o conhecimento.4. Um elemento de processamento responde dinamicamente aos

estímulos de entrada e a resposta depende unicamente da informação em si localizada; isto é, os sinais de entrada chegam aos elemento de processamento através das ligações e dos seus pesos.

5. Possui a habilidade de aprender, relembrar-se e generalizar a partir dos dados de treino, pelo assinalar ou ajuste dos pesos das ligações.

6. Apenas de forma colectiva demonstra poder computacional. Um único neurónio não contém informação especifica ( propriedade ⇒ representação distribuída).

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2828

Elemento de processamento Elemento de processamento

Função de integração linear

1

m

i i ij j ij

f net w x θ=

= ⋅ −∑

Função esférica

( )22

1

m

i j ij ij

f x wρ θ−

=

= − −∑

ρ → raio ; wij → centro da esfera. Função quadrática

2

1

m

i ij j ij

f w x θ=

= ⋅ −∑

Função polinomial ou sigma-pi (ΣΠ)

1 1

j k

m m

i ijk j k j k ij k

f w x x x xα α θ= =

= + + −∑∑

Fun

Fun çç

ão d

e in

tegr

aão

de

inte

gra çç

ãoão

15

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 2929

Elemento de processamento (EP) Elemento de processamento (EP) Fu

nFu

n çção

de

activ

aão

de

activ

a ççãoão Função degrau

( )1 ; se 00 ; se 0

fa f

f≥⎧

= ⎨ <⎩

Hard limiter (função threshold)

( ) ( )1 ; se 0

sgn1 ; se 0

fa f f

f≥⎧

= = ⎨− <⎩

Função rampa

( )1 ; se 1

; se 0 10 ; se 0

fa f f f

f

≥⎧⎪= ≤ <⎨⎪ <⎩

Função sigmoid unipolar

( ) 11 fa f

e λ−=+

Função sigmoid bipolar

( ) 2 11 fa f

e λ−= −+

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3030

16

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3131

LigaLigaçções/Estruturaões/Estrutura

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3232

n EP - cada EP com m pesos

Matriz de pesos ou matriz de ligações

em que

wij → peso da ligação entre do jesimo EP (nó fonte) para o iesimo EP (nó destino).

Regras de aprendizagemRegras de aprendizagem

AprendizagemAprendizagem

Paramétrica Estrutural

11 12 11

21 22 22

1 2

Tm

Tm

Tn n nmn

w w ww w w

w w w

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

ww

W

w

17

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3333

Aprendizagem paramAprendizagem paraméétricatrica

(a) Supervisionada

(b) reforçada (reinforcement learning)

(c) Não supervisionada

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3434

Regra de aprendizagem supervisionada

( ), ,r i ir f d= w x

( ) ( ) ( ) ( ) ( )1 t t tid tr t r

dtη η+= ⋅ ⋅ = + ⋅ ⋅i i

wx w w x

Sinal de supervisão

18

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3535

PerceptronPerceptron

w2 wnw1

w0

x0=1

o u t p u t y

x2 xnx1. . .

i n p u t x

∑=

=n

i

iixwnet0

y = 1 if net > 00 otherwise{

( ) ( )

( )

11

1 ; 0

0 ;

m

i ij j ij

y t a w x t

se neta net

outros

θ=

⎛ ⎞+ = ⋅ −⎜ ⎟

⎝ ⎠

≥⎧= ⎨

Pode realizar operações lógicas elementares como :NOT, OR e AND.

Modelo Matemático (McCulloch e Pitts (1943))

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3636

NegaNegaççãoão

outputinput x1

01

10

x1

w1= −11

w0= 0.5

19

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3737

OROR

output output input input x2x2

input input x1x1

111111110011111100000000

x2x1

w2=1w1=1

w0= −0.5

1

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3838

ANDAND

output output input input x2x2

input input x1x1

111111000011001100000000

x2x1

w2=1w1=1

w0= −1.5

1

20

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 3939

XORXOR

output output input input x2x2

input input x1x1

001111110011111100000000

x2x1

Impossível!

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4040

Separabilidade linearSeparabilidade linear

x1

x2

+−

+ +

OR

x1

x2

−−

− +

ANDAND

x1+−

+ −

XORXOR

0 para cada com saida desejada = +1

0 para cada com saida desejada = -1

Ti

Ti

>

<

w x x

w x x

O problema de separação linear por um perceptron só é realizável se for possível encontrar os vectores de pesos wi , i=1,2, ..., n , tais que:

21

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4141

XORXOR

ouputouputinput input x2x2

input input x1x1

001111110011111100000000 h1

x1

o

x1

h1

1

−1.5

AND

11

−0.5

OR

1

1

−0.5

XOR

−1

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4242

Regra de aprendizagem do Regra de aprendizagem do PerceptronPerceptron

i i iw w w← + Δ

i iw r xηΔ =

step size

saída do perceptron

entradaSinal de erro

incremento

peso novo incrementopeso velho

i ir d y−saída desejada

( ) 2 se sgn

0 outrosi j i iT

ij i i

d x y dd

ηη

≠⎧⎡ ⎤Δ = ⋅ − ⋅ = ⎨⎣ ⎦ ⎩jw w x x

22

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4343

[ ] [ ] [ ]{ }[ ] [ ] [ ]{ }

1,0 , 1.5, 1 , 1, 2 : Classe 1

2,0 , 2.5, 1 , 1, 2 : Classe 2

T T T

T T T

− − − − −

− −

Exemplo:

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4444

Convergência, SeConvergência, Se……

…… os dados de treino forem linearmente os dados de treino forem linearmente separseparááveisveis

…… tamanho do passo tamanho do passo ηη suficientemente suficientemente pequenopequeno

…… sem unidades escondidas (sem unidades escondidas (““hiddenhidden””))

23

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4545

Redes neuronais feedforward multicamada

Como treinar redes Como treinar redes MultiMulti--LayerLayer PerceptronsPerceptrons?? h1

x1

o

x1

h1

MMéétodo do gradiente descendentetodo do gradiente descendente

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4646

FunFunççãoão SigmoidalSigmoidal

1( )1 xx

eσ −=

+

w2 wnw1

w0

x0=1

o u t p u t

x2 xnx1. . .

i n p u t

∑=

=n

i

iixwnet0

neteo −+

=1

1 ( ) ( )(1 ( ))x x xσ σ σ′ = −

24

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4747

MMéétodo de Gradiente Descendentetodo de Gradiente Descendente

Adaptar os pesos Adaptar os pesos wwii que minimiza a soma que minimiza a soma dos erros quadrdos erros quadrááticosticos

21[ ] ( )2 k k

k DE w d y

ε

= −∑

D = Dados de treino

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4848

Gradiente DescendenteGradiente Descendente

Gradiente:0 1

[ ] , ,...,n

E E EE ww w w

⎡ ⎤∂ ∂ ∂∇ = ⎢ ⎥∂ ∂ ∂⎣ ⎦

ii

Eww

η ∂Δ = −

∂Regra de treino: [ ]w E wηΔ = − ∇

25

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 4949

GradienteGradiente Descente (Descente (umauma camadacamada))

2

2

,

1 ( )2

1 ( )21 2( ) ( )2

( ) ( ( ))

( ) ( ( ))

( ) ( ) (1 ( ))

k kki i

k kk i

k k k kk i

k k k kk i

k k kk i

k k k k i kk

E d yw w

d yw

d y d yw

d y d w xw

d y w xw

d y w x w x x

σ

σ

σ σ

∂ ∂= −

∂ ∂∂

= −∂

∂= − −

∂∂

= − − ⋅∂

∂= − − ⋅

= − − ⋅ − ⋅

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5050

Batch LearningBatch Learning

Iniciar cada peso Iniciar cada peso wwii com um pequeno com um pequeno valor aleatvalor aleatóóriorioRepetir atRepetir atéé : : ΔΔwwii = 0= 0

Para cada exemplo de treino kPara cada exemplo de treino k fazerfazeryykk ←← σσ((ΣΣii wwii xxi,ki,k))ΔΔwwii ←← ΔΔwwii + + η η ((ddkk −− yykk) ) σσkk (1(1-- σσ kk) ) xxi,ki,k

wwii ←← wwii + + ΔΔwwii

26

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5151

Aprendizagem Incremental (Aprendizagem Incremental (OnlineOnline))

Iniciar cada peso Iniciar cada peso wwii com um pequeno com um pequeno valor aleatvalor aleatóóriorioRepetir atRepetir atéé : : ΔΔwwii = 0= 0

Para cada exemplo de treino Para cada exemplo de treino k fazerk fazeroodd ←← ΣΣii wwii xxi,ki,k

ΔΔwwii ←← ΔΔwwii + + η η ((ddkk −− yykk) ) σσkk (1(1-- σσ kk) ) xxi,ki,k

wwii ←← wwii + + ΔΔwwii

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5252

Algoritmo de Algoritmo de RetropropagaRetropropagaççãoão

GeneralizaGeneralizaçção para mão para múúltiplas camadas e ltiplas camadas e mmúúltiplas unidades de saltiplas unidades de saíída.da.

27

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5353

BackpropagationBackpropagation AlgorithmAlgorithm

“activações”“erros”

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5454

Dados um par de dados entrada saída (x(k), d(k)), o algoritmo de back-

propagation realiza-se em duas fases:

1º O vector de entrada x(k) é propagado da camada de entrada para a de saída

e, como resultado deste fluxo directo dos dados, é produzido a saída y(k).

2º O sinal de erro resultante da diferença entre d(k) e y(k) é back-propagated

da camada de saída para as camadas precedentes, adaptando os seus pesos.

28

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5555

AlgoritmoAlgoritmo BackpropagationBackpropagation

Iniciar os pesos com valores pequenos e aleatIniciar os pesos com valores pequenos e aleatóóriosriosPara cada exemplo de treino fazerPara cada exemplo de treino fazer–– Para cada unidade escondida Para cada unidade escondida h:h:

–– Para cada unidade de saPara cada unidade de saíída da k:k:

–– Para cada unidade de saPara cada unidade de saíída da k:k:

–– Para cada unidade escondida Para cada unidade escondida h:h:

Actualizar cada peso da rede Actualizar cada peso da rede wwijij::

ijjij xw δη=Δ

∑=i

ihih xwo )(σ

∑=k

hkhk xwo )(σ

)()1( kkkkk otoo −−=δ

∑−=k

khkhhh woo δδ )1(

comijijij www Δ+←

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5656

Exemplo de aprendizagemExemplo de aprendizagem

0000000100000001→→00000001000000010000001000000010→→00000010000000100000010000000100→→00000100000001000000100000001000→→00001000000010000001000000010000→→00010000000100000010000000100000→→00100000001000000100000001000000→→01000000010000001000000010000000→→1000000010000000

OutputOutputInputInput

29

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5757

Aprendizagem das camadas Aprendizagem das camadas escondidasescondidas

.60 .94 .01.60 .94 .01

.80 .01 .98.80 .01 .98

.22 .99 .99.22 .99 .99

.03 .05 .02.03 .05 .02

.99 .97 .71.99 .97 .71

.01 .97 .27.01 .97 .27

.01 .11 .88.01 .11 .88

.89 .04 .08.89 .04 .08

→→

→→

→→

→→

→→

→→

→→

→→

0000000100000001→→00000001000000010000001000000010→→00000010000000100000010000000100→→00000100000001000000100000001000→→00001000000010000001000000010000→→00010000000100000010000000100000→→00100000001000000100000001000000→→01000000010000001000000010000000→→1000000010000000

OutputOutputInputInput

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5858

ErroErro de de TreinoTreino

30

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 5959

PesosPesos

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6060

Teorema: A arquitectura de uma rede neuronal multicamada com pelo

menos uma camada intermédia (hidden) usando funções de activação compacta e

funções de integração linear ou polinomial pode virtualmente aproximar qualquer

(medida de Borel) função de interesse a qualquer desejado grau de exactidão,

desde que existam suficiente número de unidades nas camadas intermédias. A

função a: [ ]0,1→M (ou [-1,1]) é uma função compacta se ela é não decrescente,

( )lim 1aλ λ→∞ = , e ( )lim 0 (ou -1)aλ λ→−∞ = , em que λ é um parâmetro da função.

31

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6161

Redes neuronais com atrasos temporais

( ) ( )( ) ( )101

x t a x tb x t

t x tττ

∂ ⋅ −= − ⋅

∂ + −

Série caótica de Mackey-Glass

a=0.2, b=0.1 e τ=17

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6262

Reconhecimento de Voz Reconhecimento de Voz

[Haung/Lippman 1988]

32

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6363

GD com momentoGD com momentoerro E

peso wijwij wijnew

ijwE

∂∂ ij

ij wEw

∂∂

−←Δ η

Gradiente descente

ijij

ij wwEw Δ+

∂∂

−←Δ μη

GD com Momento

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6464

( ) ( ) ( )1w t E t w tη αΔ = ∇ + Δ −

Pode a estrutura cair num mPode a estrutura cair num míínimo localnimo localPesos podem divergirPesos podem divergir

……mas trabalhar bem na praticamas trabalhar bem na pratica

33

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6565

ProblemaProblema do do OverfittingOverfitting

(1(1ªª paragem) Parar aprendizagem quando da validaparagem) Parar aprendizagem quando da validaçção comeão começça a subir.a a subir.

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6666

left strt right up

Imagens de entrada típicas

Pose da cabeça(1-of-4): 90% accuracyReconhecimento da face (1-of-20): 90% accuracy

ANNsANNs no reconhecimento de Facesno reconhecimento de Faces

34

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 6767

PrPróóximos temasximos temas

Redes recorrentesRedes recorrentesAprendizagem não supervisionadaAprendizagem não supervisionadaAprendizagem reforAprendizagem reforççada (ada (reinforcement learning)