Sistemas Inteligentes e “soft computinghome.utad.pt/~psal/Dout_Elect_acetatos_Parte1.pdf · Constituintes da SC Fuzzy systems => imprecisão Neural networks => aprendizagem Probabilistic

1

Doutoramento em EngDoutoramento em Engªª ElectrotElectrotéécnica e cnica e de Computadoresde Computadores 11

Sistemas InteligentesSistemas Inteligentesee

““softsoft computingcomputing””

Paulo SalgadoPaulo [email protected]@utad.pt


2


ConteConteúúdodo

Sistemas InteligentesSistemas InteligentesSoftSoft computingcomputingÁÁreas de Aplicareas de AplicaççãoãoRedes NeuronaisRedes NeuronaisFuzzyFuzzy LogicLogic (L(Lóógica Difusa)gica Difusa)Sistemas Evolutivos Sistemas Evolutivos ( ( Prof. Paulo Oliveira Prof. Paulo Oliveira ))


Sistemas InteligentesSistemas Inteligentes

Inteligência: Os Sistemas devem realizar operações sem significado.

Interpretar as informações.

Compreender as relações entre fenómenos e objectos.

Aplicar os conhecimentos adquiridos a novas condições.

3


Objectivos dos sistemas inteligentesObjectivos dos sistemas inteligentes

Rotinas das necessidades humanasRotinas das necessidades humanas: : visão , processamento de linguagem, visão , processamento de linguagem, razão, aprendizagem, robrazão, aprendizagem, robóótica.tica.Rotinas ArtificiaisRotinas Artificiais: jogos, matem: jogos, matemáática, tica, llóógica, programagica, programaçção.ão.ExpertExpert systemssystems (ES)(ES)


AproximaAproximaçções tradicionaisões tradicionais

Modelos MatemModelos Matemááticos: ticos: BlackBlack boxes (caixa negra), boxes (caixa negra), FFíísicos (baseados nas leis sicos (baseados nas leis da conservada conservaçção da massa, ão da massa, energia, energia, ……).).Sistemas baseados em Sistemas baseados em Regras (disjuntas & Regras (disjuntas & bivalente): bivalente): Lista de regras numerosas.Lista de regras numerosas.

4


BlackBlack BoxBox

Entradas Saídas Entradas Saídas

OpenOpen BoxBox

ModelosModelos


Soft computing (SC)Soft computing (SC)

Objectivo:Objectivo:Imitar a razão humana (linguImitar a razão humana (linguíística stica

ou outra)ou outra)

ÁÁreas principais:reas principais:-- FuzzyFuzzy systemssystems-- Neural Neural networksnetworks-- EvolutionaryEvolutionary computingcomputing-- ProbabilisticProbabilistic reasoningreasoning

5


Constituintes da SCConstituintes da SC

FuzzyFuzzy systemssystems => imprecisão=> imprecisãoNeural Neural networksnetworks => aprendizagem=> aprendizagemProbabilisticProbabilistic reasoningreasoning => incerteza=> incertezaEvolutionaryEvolutionary computingcomputing => => optimizaoptimizaççãoão--

--pesquisapesquisa


Vantagens da Vantagens da SoftSoft ComputingComputing

Modelos baseados na razão humana. Modelos baseados na razão humana. Os modelos podem ser:Os modelos podem ser:-- lingulinguíísticos sticos -- simples (simples (não exaustivosnão exaustivos),),-- compreenscompreensííveis (veis (opostos opostos ààs s blackblack boxesboxes), ), -- rráápidos de executar (pidos de executar (computacionalmentecomputacionalmente), ), -- bons do ponto de vista prbons do ponto de vista práático. tico.

6


PossPossííveis tipos de dados & veis tipos de dados & operaoperaççõesões

Dados numDados numééricos:ricos:5, em torno de 5, 5 para 6, em torno de 5 5, em torno de 5, 5 para 6, em torno de 5 para 6para 6Dados LinguDados Linguíísticos:sticos:barato, muito alto, não alto, mbarato, muito alto, não alto, méédio ou maudio ou mauFunFunçções & relaões & relaçções:ões:f(xf(x), em torno de ), em torno de f(xf(x), muito similar, muito ), muito similar, muito maiormaior


Neural networks (NN, 1940's)Neural networks (NN, 1940's)

Neural Neural networksnetworks(redes neuronais) (redes neuronais) oferecem um oferecem um poderoso mpoderoso méétodo todo para explorar, para explorar, classificar, e classificar, e identificar padrões identificar padrões nos dados.nos dados.Inputs

Neurons(1 layer) Outputs

7


Aprendizagem supervisionadaAprendizagem supervisionada

Reconhecimento de Reconhecimento de Padrões baseados Padrões baseados nos treinos de nos treinos de dados.dados.ClassificaClassificaçção ão supervisionada por supervisionada por um instrutor.um instrutor.Neural (disjunto Neural (disjunto orordifuso), difuso), neuroneuro--fuzzyfuzzye e fuzzyfuzzy modelsmodels..

Pêssego

Ameixa?

Instrutor


Aprendizagem não supervisionadaAprendizagem não supervisionada

Reconhecimento de Reconhecimento de Padrões baseado no Padrões baseado no treino de dados.treino de dados.ClassificaClassificaçção baseada ão baseada na estrutura dos dados na estrutura dos dados (agrupamentos).(agrupamentos).Neural (disjunto ou Neural (disjunto ou difuso), difuso), neuroneuro--fuzzyfuzzy e e fuzzyfuzzy modelsmodels..

Pêssego

Ameixas

Nectarinas

Rótulos

8


SistemasSistemas DifusosDifusos ((ZadehZadeh, 1960's), 1960's)

Lidam com entidades imprecisas em ambientes Lidam com entidades imprecisas em ambientes automatizados (automatizados (computercomputer environmentsenvironments))BaseiamBaseiam--se na teoria dos conjunto difusos e na se na teoria dos conjunto difusos e na llóógica difusa.gica difusa.A maior parte das aplicaA maior parte das aplicaçções são em controlo e ões são em controlo e tomada de decisões (tomada de decisões (decisiondecision makingmaking).).


AplicaAplicaçções: controloões: controlo

Industria pesada Industria pesada ((MatsushitaMatsushita, , SiemensSiemens, , StoraStora--EnsoEnso))AplicaAplicaçções ões domesticas (domesticas (CanonCanon, , SonySony, , GoldstarGoldstar, , SiemensSiemens))AutomobilAutomobilíística stica ((NissanNissan, , MitsubishiMitsubishi, , DaimlerDaimler--ChryslerChrysler, , BMW, BMW, VolkswagenVolkswagen))Espacial (NASA) e Espacial (NASA) e militarmilitar

9


AplicaAplicaçções: robões: robóóticaticaControlo

+Planeamento

+inteligência


Outras aplicaOutras aplicaççõesões

• Técnicas Financeiras

• Estatística

• Ciências Sociais

• Ciência do ambiente

• Biologia

• Medicina

10


SoftSoft ComputingComputing e as Te as Téécnicas cnicas TradicionaisTradicionais

SoftSoft ComputingComputing e os me os méétodos todos convencionais podem ser usados em convencionais podem ser usados em conjunto.conjunto.


ReferenciasReferencias

J. Bezdek & S. Pal, Fuzzy models for pattern recognition (IEEE Press, New York, 1992).L. Zadeh, Fuzzy logic = Computing with words, IEEE Transactions on Fuzzy Systems, vol. 2, pp. 103-111, 1996.L. Zadeh, From Computing with Numbers to Computing with Words -- From Manipulation of Measurements to Manipulation of Perceptions, IEEE Transactions on Circuits and Systems, 45, 1999, 105-119.L. Zadeh, Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems 90/2 (1997) 111-127.H.-J. Zimmermann, Fuzzy set theory and its applications (Kluwer, Dordrecht, 1991).

11


Redes NeuronaisRedes Neuronais

MMéétodo todo RepropopagaRepropopagaççãoão

Paulo SalgadoPaulo SalgadoUTAD, 2006UTAD, 2006


ÍÍndicendice

PerceptronsPerceptronsAprendizagemAprendizagemRedes MultiRedes Multi--camada. camada. MMéétodo de todo de BackpropagationBackpropagationBiasBias, , OverfittingOverfitting e 1e 1ªª paragemparagem(Exemplos: Reconhecimento facial)(Exemplos: Reconhecimento facial)

12


CCéérebro Humanorebro Humano


NeurNeuróóniosnios

13


Aprendizagem HumanaAprendizagem Humana

Numero de neurNumero de neuróónios:nios: ~ 10~ 101111

LigaLigaçções por neurões por neuróónio:nio: ~ 10~ 104 4 to 10to 1055

Tempo de processamento:Tempo de processamento: ~ 0.001 segundo~ 0.001 segundoTempo de reconhecimentoTempo de reconhecimentode uma cena:de uma cena: ~ 0.1 segundo~ 0.1 segundo

100 etapas de inferência não parecem ser muitas!100 etapas de inferência não parecem ser muitas!


NN’s são constituídas por uma grande número de elementos de processamento (nós ou unidades) fortemente interligadas, que usualmente operam em paralelo e estão configuradas numa arquitectura regular.

Partes constituintes do Neurónio:• Núcleo da célula (cell body) ou soma.• Dendrites• Axom• Sinapses (são excitadores/inibidores que deixam passar impulsos que causam o disparo/inibição do neurónio receptor).

14


Em resumo, as NN é uma estrutura de processamento de informação paralela com as seguintes propriedades:

1. O seu modelo matemático é inspirada nos neurónios.2. Consiste num largo número de elementos de processamento,

cujas interligações são pesadas.3. As suas ligações (pesadas) retêm o conhecimento.4. Um elemento de processamento responde dinamicamente aos

estímulos de entrada e a resposta depende unicamente da informação em si localizada; isto é, os sinais de entrada chegam aos elemento de processamento através das ligações e dos seus pesos.

5. Possui a habilidade de aprender, relembrar-se e generalizar a partir dos dados de treino, pelo assinalar ou ajuste dos pesos das ligações.

6. Apenas de forma colectiva demonstra poder computacional. Um único neurónio não contém informação especifica ( propriedade ⇒ representação distribuída).


Elemento de processamento Elemento de processamento

Função de integração linear

1

m

i i ij j ij

f net w x θ=

= ⋅ −∑

Função esférica

( )22

1

m

i j ij ij

f x wρ θ−

=

= − −∑

ρ → raio ; wij → centro da esfera. Função quadrática

2

1

m

i ij j ij

f w x θ=

= ⋅ −∑

Função polinomial ou sigma-pi (ΣΠ)

1 1

j k

m m

i ijk j k j k ij k

f w x x x xα α θ= =

= + + −∑∑

Fun

Fun çç

ão d

e in

tegr

aão

de

inte

gra çç

ãoão

15


Elemento de processamento (EP) Elemento de processamento (EP) Fu

nFu

n çção

de

activ

aão

de

activ

a ççãoão Função degrau

( )1 ; se 00 ; se 0

fa f

f≥⎧

= ⎨ <⎩

Hard limiter (função threshold)

( ) ( )1 ; se 0

sgn1 ; se 0

fa f f

f≥⎧

= = ⎨− <⎩

Função rampa

( )1 ; se 1

; se 0 10 ; se 0

fa f f f

f

≥⎧⎪= ≤ <⎨⎪ <⎩

Função sigmoid unipolar

( ) 11 fa f

e λ−=+

Função sigmoid bipolar

( ) 2 11 fa f

e λ−= −+


16


LigaLigaçções/Estruturaões/Estrutura


n EP - cada EP com m pesos

Matriz de pesos ou matriz de ligações

em que

wij → peso da ligação entre do jesimo EP (nó fonte) para o iesimo EP (nó destino).

Regras de aprendizagemRegras de aprendizagem

AprendizagemAprendizagem

Paramétrica Estrutural

11 12 11

21 22 22

1 2

Tm

Tm

Tn n nmn

w w ww w w

w w w

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎣ ⎦

ww

W

w

17


Aprendizagem paramAprendizagem paraméétricatrica

(a) Supervisionada

(b) reforçada (reinforcement learning)

(c) Não supervisionada


Regra de aprendizagem supervisionada

( ), ,r i ir f d= w x

( ) ( ) ( ) ( ) ( )1 t t tid tr t r

dtη η+= ⋅ ⋅ = + ⋅ ⋅i i

wx w w x

Sinal de supervisão

18


PerceptronPerceptron

w2 wnw1

w0

x0=1

o u t p u t y

x2 xnx1. . .

i n p u t x

∑=

=n

i

iixwnet0

y = 1 if net > 00 otherwise{

( ) ( )

( )

11

1 ; 0

0 ;

m

i ij j ij

y t a w x t

se neta net

outros

θ=

⎛ ⎞+ = ⋅ −⎜ ⎟

⎝ ⎠

≥⎧= ⎨

⎩

∑

Pode realizar operações lógicas elementares como :NOT, OR e AND.

Modelo Matemático (McCulloch e Pitts (1943))


NegaNegaççãoão

outputinput x1

01

10

x1

w1= −11

w0= 0.5

19


OROR

output output input input x2x2

input input x1x1

111111110011111100000000

x2x1

w2=1w1=1

w0= −0.5

1


ANDAND


input input x1x1

111111000011001100000000

x2x1

w2=1w1=1

w0= −1.5

1

20


XORXOR


input input x1x1

001111110011111100000000

x2x1

Impossível!


Separabilidade linearSeparabilidade linear

x1

x2

+−

+ +

OR

x1

x2

−−

− +

ANDAND

x1+−

+ −

XORXOR

0 para cada com saida desejada = +1

0 para cada com saida desejada = -1

Ti

Ti

>

<

w x x

w x x

O problema de separação linear por um perceptron só é realizável se for possível encontrar os vectores de pesos wi , i=1,2, ..., n , tais que:

21


XORXOR

ouputouputinput input x2x2

input input x1x1

001111110011111100000000 h1

x1

o

x1

h1

1

−1.5

AND

11

−0.5

OR

1

1

−0.5

XOR

−1


Regra de aprendizagem do Regra de aprendizagem do PerceptronPerceptron

i i iw w w← + Δ

i iw r xηΔ =

step size

saída do perceptron

entradaSinal de erro

incremento

peso novo incrementopeso velho

i ir d y−saída desejada

( ) 2 se sgn

0 outrosi j i iT

ij i i

d x y dd

ηη

≠⎧⎡ ⎤Δ = ⋅ − ⋅ = ⎨⎣ ⎦ ⎩jw w x x

22


[ ] [ ] [ ]{ }[ ] [ ] [ ]{ }

1,0 , 1.5, 1 , 1, 2 : Classe 1

2,0 , 2.5, 1 , 1, 2 : Classe 2

T T T

T T T

− − − − −

− −

Exemplo:


Convergência, SeConvergência, Se……

…… os dados de treino forem linearmente os dados de treino forem linearmente separseparááveisveis

…… tamanho do passo tamanho do passo ηη suficientemente suficientemente pequenopequeno

…… sem unidades escondidas (sem unidades escondidas (““hiddenhidden””))

23


Redes neuronais feedforward multicamada

Como treinar redes Como treinar redes MultiMulti--LayerLayer PerceptronsPerceptrons?? h1

x1

o

x1

h1

MMéétodo do gradiente descendentetodo do gradiente descendente


FunFunççãoão SigmoidalSigmoidal

1( )1 xx

eσ −=

+

w2 wnw1

w0

x0=1

o u t p u t

x2 xnx1. . .

i n p u t

∑=

=n

i

iixwnet0

neteo −+

=1

1 ( ) ( )(1 ( ))x x xσ σ σ′ = −

24


MMéétodo de Gradiente Descendentetodo de Gradiente Descendente

Adaptar os pesos Adaptar os pesos wwii que minimiza a soma que minimiza a soma dos erros quadrdos erros quadrááticosticos

21[ ] ( )2 k k

k DE w d y

ε

= −∑

D = Dados de treino


Gradiente DescendenteGradiente Descendente

Gradiente:0 1

[ ] , ,...,n

E E EE ww w w

⎡ ⎤∂ ∂ ∂∇ = ⎢ ⎥∂ ∂ ∂⎣ ⎦

ii

Eww

η ∂Δ = −

∂Regra de treino: [ ]w E wηΔ = − ∇

25


GradienteGradiente Descente (Descente (umauma camadacamada))

2

2

,

1 ( )2

1 ( )21 2( ) ( )2

( ) ( ( ))

( ) ( ( ))

( ) ( ) (1 ( ))

k kki i

k kk i

k k k kk i

k k k kk i

k k kk i

k k k k i kk

E d yw w

d yw

d y d yw

d y d w xw

d y w xw

d y w x w x x

σ

σ

σ σ

∂ ∂= −

∂ ∂∂

= −∂

∂= − −

∂∂

= − − ⋅∂

∂= − − ⋅

∂

= − − ⋅ − ⋅

∑

∑

∑

∑

∑

∑


Batch LearningBatch Learning

Iniciar cada peso Iniciar cada peso wwii com um pequeno com um pequeno valor aleatvalor aleatóóriorioRepetir atRepetir atéé : : ΔΔwwii = 0= 0

Para cada exemplo de treino kPara cada exemplo de treino k fazerfazeryykk ←← σσ((ΣΣii wwii xxi,ki,k))ΔΔwwii ←← ΔΔwwii + + η η ((ddkk −− yykk) ) σσkk (1(1-- σσ kk) ) xxi,ki,k

wwii ←← wwii + + ΔΔwwii

26


Aprendizagem Incremental (Aprendizagem Incremental (OnlineOnline))

Iniciar cada peso Iniciar cada peso wwii com um pequeno com um pequeno valor aleatvalor aleatóóriorioRepetir atRepetir atéé : : ΔΔwwii = 0= 0

Para cada exemplo de treino Para cada exemplo de treino k fazerk fazeroodd ←← ΣΣii wwii xxi,ki,k

ΔΔwwii ←← ΔΔwwii + + η η ((ddkk −− yykk) ) σσkk (1(1-- σσ kk) ) xxi,ki,k

wwii ←← wwii + + ΔΔwwii


Algoritmo de Algoritmo de RetropropagaRetropropagaççãoão

GeneralizaGeneralizaçção para mão para múúltiplas camadas e ltiplas camadas e mmúúltiplas unidades de saltiplas unidades de saíída.da.

27


BackpropagationBackpropagation AlgorithmAlgorithm

“activações”“erros”


Dados um par de dados entrada saída (x(k), d(k)), o algoritmo de back-

propagation realiza-se em duas fases:

1º O vector de entrada x(k) é propagado da camada de entrada para a de saída

e, como resultado deste fluxo directo dos dados, é produzido a saída y(k).

2º O sinal de erro resultante da diferença entre d(k) e y(k) é back-propagated

da camada de saída para as camadas precedentes, adaptando os seus pesos.

28


AlgoritmoAlgoritmo BackpropagationBackpropagation

Iniciar os pesos com valores pequenos e aleatIniciar os pesos com valores pequenos e aleatóóriosriosPara cada exemplo de treino fazerPara cada exemplo de treino fazer–– Para cada unidade escondida Para cada unidade escondida h:h:

–– Para cada unidade de saPara cada unidade de saíída da k:k:

–– Para cada unidade de saPara cada unidade de saíída da k:k:

–– Para cada unidade escondida Para cada unidade escondida h:h:

Actualizar cada peso da rede Actualizar cada peso da rede wwijij::

ijjij xw δη=Δ

∑=i

ihih xwo )(σ

∑=k

hkhk xwo )(σ

)()1( kkkkk otoo −−=δ

∑−=k

khkhhh woo δδ )1(

comijijij www Δ+←


Exemplo de aprendizagemExemplo de aprendizagem

0000000100000001→→00000001000000010000001000000010→→00000010000000100000010000000100→→00000100000001000000100000001000→→00001000000010000001000000010000→→00010000000100000010000000100000→→00100000001000000100000001000000→→01000000010000001000000010000000→→1000000010000000

OutputOutputInputInput

29


Aprendizagem das camadas Aprendizagem das camadas escondidasescondidas

.60 .94 .01.60 .94 .01

.80 .01 .98.80 .01 .98

.22 .99 .99.22 .99 .99

.03 .05 .02.03 .05 .02

.99 .97 .71.99 .97 .71

.01 .97 .27.01 .97 .27

.01 .11 .88.01 .11 .88

.89 .04 .08.89 .04 .08

→→

→→

→→

→→

→→

→→

→→

→→

0000000100000001→→00000001000000010000001000000010→→00000010000000100000010000000100→→00000100000001000000100000001000→→00001000000010000001000000010000→→00010000000100000010000000100000→→00100000001000000100000001000000→→01000000010000001000000010000000→→1000000010000000

OutputOutputInputInput


ErroErro de de TreinoTreino

30


PesosPesos


Teorema: A arquitectura de uma rede neuronal multicamada com pelo

menos uma camada intermédia (hidden) usando funções de activação compacta e

funções de integração linear ou polinomial pode virtualmente aproximar qualquer

(medida de Borel) função de interesse a qualquer desejado grau de exactidão,

desde que existam suficiente número de unidades nas camadas intermédias. A

função a: [ ]0,1→M (ou [-1,1]) é uma função compacta se ela é não decrescente,

( )lim 1aλ λ→∞ = , e ( )lim 0 (ou -1)aλ λ→−∞ = , em que λ é um parâmetro da função.

31


Redes neuronais com atrasos temporais

( ) ( )( ) ( )101

x t a x tb x t

t x tττ

∂ ⋅ −= − ⋅

∂ + −

Série caótica de Mackey-Glass

a=0.2, b=0.1 e τ=17


Reconhecimento de Voz Reconhecimento de Voz

[Haung/Lippman 1988]

32


GD com momentoGD com momentoerro E

peso wijwij wijnew

ijwE

∂∂ ij

ij wEw

∂∂

−←Δ η

Gradiente descente

ijij

ij wwEw Δ+

∂∂

−←Δ μη

GD com Momento


( ) ( ) ( )1w t E t w tη αΔ = ∇ + Δ −

Pode a estrutura cair num mPode a estrutura cair num míínimo localnimo localPesos podem divergirPesos podem divergir

……mas trabalhar bem na praticamas trabalhar bem na pratica

33


ProblemaProblema do do OverfittingOverfitting

(1(1ªª paragem) Parar aprendizagem quando da validaparagem) Parar aprendizagem quando da validaçção comeão começça a subir.a a subir.


left strt right up

Imagens de entrada típicas

Pose da cabeça(1-of-4): 90% accuracyReconhecimento da face (1-of-20): 90% accuracy

ANNsANNs no reconhecimento de Facesno reconhecimento de Faces

34


PrPróóximos temasximos temas

Redes recorrentesRedes recorrentesAprendizagem não supervisionadaAprendizagem não supervisionadaAprendizagem reforAprendizagem reforççada (ada (reinforcement learning)

Documents

Sistemas Inteligentes e “soft computinghome.utad.pt/~psal/Dout_Elect_acetatos_Parte1.pdf · Constituintes da SC Fuzzy systems => imprecisão Neural networks => aprendizagem Probabilistic