Redes neurais artificiais com arquiteturas arbitráriaslboccato/topico_8.2_redes_arquiteturas_a… · Redes neurais artificiais com arquiteturas arbitrárias Departamento de Engenharia

Redes neurais artificiais com arquiteturas

arbitrárias

Departamento de Engenharia de

Computação e Automação IndustrialFaculdade de Engenharia Elétrica e de

ComputaçãoUNICAMP

Wilfredo Jaime Puma Villanueva (POSDOC/FEEC/Unicamp)

Tópico preparado para a disciplina IA-353 Redes Neurais

▪ Introdução

▪ Marco teórico

▪ Síntese de redes ACFNNs

• Abordagens evolutivas e construtiva

• Exemplos práticos e comparativos

Conteúdo

2Tópico preparado para a discipl ina IA -353 Redes Neurais

Introdução


Por que estudar redes com arquitetura arbitrárias?

Motivações:

▪ Potencial das redes com arquiteturas arbitrárias:

• Ganhos em desempenho

• Redes mais compactas

• Modelos híbridos, mapeamento linear e não-linear

▪ Melhor uso do custo computacional (uso de memória e tempo de processamento).

Desafios:

▪ Sintetizar uma arquitetura para cada problema;

• Elaboração de propostas de metodologias que sintetizam automaticamente este

tipo de redes;

Introdução


Arquiteturas Tradicionais x Arquiteturas Arbitrárias

Puma-Villanueva, W. J. Síntese automática de redes neurais artificiais com conexões à frente arbitrárias. Tese de

Doutorado, Faculdade de Engenharia Elétrica e de Computação, Unicamp, Dezembro, 2011.

Fonte: (Puma-Villanueva, 2011)

Introdução


Outro exemplo de rede com diferentes funções de ativação

Kordík, P.; Koutník, J.; Drchal, J.; Kovárík, O.; Cepek, M. & Snorek, M. Meta-learning approach to neural network optimization.

Neural Networks, vol. 23, no. 4, pp. 568-582, 2010.

Fonte: (Kordík et al., 2012)

Introdução


Marco teórico

ACFNNs

Arbitrarily Connected Feedforward Neural Networks


Evolving arbitrarily connected feedforward neural neworks via genetic algorithms. Brazilian

Symposium on Artificial Neural Networks (SBRN), São Bernardo do Campo – SP, 2010.

A new evolutionary system for evolving artificial neural networks. IEEE Transactions on Neural

Networks, vol. 8, no. 3, pp. 694-713, 1997.

Programação Evolutiva: EPNet (Yao & Liu, 1997)

Algoritmo genético: ACFNN-GA (Puma-Villanueva & Von Zuben, 2010)

Principais trabalhos sobre RNAs com arquiteturas arbitrárias

Computing gradient vector and Jacobian matrix in arbitrarily connected neural networks. IEEE

Transactions on Industrial Electronics, vol. 55, no. 10, pp. 3784- 3789, October 2008.

Cálculo do vetor gradiente de ACFNNs (Wilamowski et al., 2008)

Meta-learning approach to neural network optimization. Neural Networks, vol. 23, no. 4, pp. 568-

582, 2010.

Algoritmo genético+niching para ACFNNs com neurônios heterogêneos: GAME (Kordík et al., 2010)

A constructive algorithm to synthesize arbitrarily connected feedforward neural networks.

Neurocomputing, vol. 75, pp. 14–32, 2012.

Algoritmo construtivo: CoACFNN (Puma-Villanueva et al., 2012)

Marco Teórico


Arquitetura de uma rede: ACFNN

“Neurônio atual” Neurônios conectados ao

“Neurônio atual”

4 1

5 2

6 2 4 5

7 1 2 4 6

w1,4

w2,5

w2,6

w1,7

wb,4

wb,5

w4,6

w2,7

w5,6

w4,7

wb,6

w6,7 wb,7

g1,4

g2,5

g2,6

g1,7

gb,4

gb,5

g4,6

g2,7

g5,6

g4,7

gb,6

g6,7 gb,7

Arquitetura arbitrária Pesos das conexões GradienteA W G

N

i

ii yyE1

ˆ2

1

w01

w11

w21

1

x1

x2

n

i

iiwxu1

)(ufy

Marco Teórico

Representação da arquitetura:

x1

1 110 00

6

4

5

7

x3

y1

3

x22

w1,4

w2,5

w2,6

w1,7

wb,4wb,5

w4,6w2,7

w5,6

w4,7

wb,6

w6,7

wb,7


Tópico preparado para a discipl ina IA -353 Redes Neurais 9

Treinamento da ACFNN

MLP (múltiplas camadas)

2 1

0 0 0

)1()2()3(

1))((ˆ

M

i

M

j

m

llljjjiii

xwwwy

i

iw

y

)3(

1

ˆ

jii

ji

ww

y

)1(

ˆ 2)3(

1)2(

2

0

2)2(2)3(

1)1()1()1(

ˆ M

i

ljjiii

lj

xwww

y

Saída da rede (MLP múltiplas camadas)

Derivadas dos pesos em relação à saída da rede

W (3)

W (2)

W (1)

No caso das ACFNNs, deve ser

“neurônio por neurônio”

(Wilamowski et al., 2008)

Cálculo do vetor gradiente:

Marco Teórico

x1

xm

y...

... ...

x2

1

2

M1

1

2

M2

1

w(1) w(2) w(3)


ACFNN

x1

1 110 00

6

4

5

7

x3

y1

3

x22




Como ajustar os pesos

sinápticos?

Métodos de otimização não-linear

irrestrita

Descida do Gradiente;

Gradiente Conjugado;

Quase-Newton;

Levenberg-Marquardt;

Gauss-Newton

… etc!

Marco Teórico

Meta-heurísticas de otimização

Algoritmos Evolutivos (AG, EE, PE);

Enxame de Partículas (PSO, ACO);

Simulated Annealing;

... etc!

x1

1 110 00

6

4

5

7

x3

y1

3

x22

w1,4

w2,5

w2,6

w1,7

wb,4wb,5

w4,6w2,7

w5,6

w4,7

wb,6

w6,7

wb,7




Evitando sobre-ajuste via “validação cruzada” (Bishop, 1995)

ER

RO

ÉPOCAS

E. Treinamento

E. Validação

Seleção do modelo

x1 x2 x3 x4 ... xm y

Treinamento

50%

Validação

25%

Teste

25%

x1 x2 x3 x4 ... xm y

Treinamento

50%

Validação

25%

Teste

25%

Dados Validação cruzada

x1

1 110 00

6

4

5

7

x3

y1

3

x22

Marco Teórico


Síntese das redes ACFNNs


Puma-Villanueva W.J.; Von Zuben F.J. Evolving arbitrarily connected feedforward neural

neworks via genetic algorithms. Brazilian Symposium on Artificial Neural Networks (SBRN),

São Bernardo do Campo - SP, October 23-28, 2010.

Yao, X.; Liu, Y. A new evolutionary system for evolving artificial neural networks. IEEE

Transactions on Neural Networks, vol. 8, no. 3, pp. 694-713, 1997.

Programação Evolutiva: EPNet (Yao & Liu; 1997)

Algoritmos Genéticos: ACFNN-GA (Puma-Villanueva & Von Zuben; 2010)

Síntese de ACFNNs via algoritmos evolutivos

Síntese de redes ACFNNs


ACFNN-GA1. Codificação do problema

2. Inicialização da população e factibilização

3. A função de avaliação: fitness

4. Operadores: seleção, crossover e mutação

5. Busca localCodificação do problema:

Inicialização da população e factibilização :

a. Neurônios ocultos sem conexões de entrada/saída;

b. Conexões verticais;

c. Neurônios de saída isolados;

d. Nenhum neurônio de entrada com conexão.

0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1

0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 1 0 1 0 0 0

0 1 1 1 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1

0 0 0 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 0 0 0

1 0 1 1 0 1 0 0 1 1 1 0 1 0 0 1 1 1 1 1 1

0 0 1 0 1 1 1 0 0 1 1 0 0 0 1 0 1 0 1 0 1

1 1 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 1 0 1 0

0 0 1 0 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 1

0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 10 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1

0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 1 0 1 0 0 00 0 1 0 0 1 1 0 1 0 1 0 1 0 1 1 0 1 0 0 0

0 1 1 1 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 10 1 1 1 0 1 0 0 0 1 1 0 0 0 0 0 1 0 1 1 1

0 0 0 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 0 0 00 0 0 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 0 0 0

1 0 1 1 0 1 0 0 1 1 1 0 1 0 0 1 1 1 1 1 11 0 1 1 0 1 0 0 1 1 1 0 1 0 0 1 1 1 1 1 1

0 0 1 0 1 1 1 0 0 1 1 0 0 0 1 0 1 0 1 0 10 0 1 0 1 1 1 0 0 1 1 0 0 0 1 0 1 0 1 0 1

1 1 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 1 0 1 01 1 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 1 0 1 0

0 0 1 0 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 10 0 1 0 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 1


x1

1 110 00

6

4

5

7

x3

y1

3

x22

Vetor cromossomo

representado pelos

valores binários da

triangular superior

Vetor cromossomo

1 2 3 4 5 6 7

1 0 0 1 0 0 1

2 0 0 1 1 1

3 0 0 0 0

4 0 1 1

5 1 0

6 1

7

1 2 3 4 5 6 7

1

2

3

4

5

6

7

0 0 1 0 0 1 0 0 1 1 1 0 0 0 0 0 1 1 1 0 1



1. Codificação do problema




5. Busca local

Função de fitness:

validação1

1

EQMfitness

Op. seleção, crossover e mutação :

4 tipos de mutação:

• Tipo 1: Tradicional (troca aleatória de genes 0 x 1);

• Tipo 2: Elimina aleatoriamente um neurônio oculto;

• Tipo 3: Insere aleatoriamente um neurônio oculto. Incrementando ou criando uma camada oculta;

• Tipo 4: Elimina a camada oculta com menor número de neurônios.

Seleção via roleta e crossover de N pontos.

ACFNN-GA

Treinamento dos pesos sináptios das redes

ACFNNs:

Método quase-Newton



1. Codificação do problema




5. Busca local

Busca local:

1: Elimina neurônio oculto

Ordem aleatória

2: Elimina conexão

Ordem via análise de sensibilidade

3: Inserção de novas conexões

Ordem aleatória

ACFNN-GA



Problema de permutação: (Competing Conventions Problem)

Genótipo 1 ≠ Genótipo 2

Fenótipo 1 ≈ Fenótipo 2

ACFNN-GA

1 10 0

y

x1

x3

x2

1 110 00

y

x1

x3

x2

0 1 0 0 1 0 0 1 1 1 0 0 0 0 0 1 1 1 0 10 0 1 0 0 1 0 0 1 1 1 0 0 0 0 0 1 1 00 00

Progenitor 1 Progenitor 2

crossover

Descendentes tendem a ter fitness inferior ao dos progenitores



EPNet (Yao & Liu, 1997)

Combina 3 abordagens:

A new evolutionary system for

evolving artificial neural

networks

1: Programação Evolutiva

Framework principal

2: Backpropagation modificado: MBP

Ajuste local dos pesos da rede

3: Simulated Annealing: SA

Ajuste global dos pesos da rede


FIM

sim

nãoCritério

de

parada

EPNet

População

inicializada de forma

aleatória

Treinamento inicial parcial

Seleção baseada em

ranking

Mutações (6)

Obtenção da nova

geração

Treinamento adicional

Sucesso?

Sucesso?

Sucesso?

Treinamento híbrido:

MBP & SA

Elimina neurônio

Elimina conexão

Adição de conexão / neurônio

sim

sim

sim

Início

Fonte: (Yao & Liu; 1997)


Tipo Nº Entradas Nº Classes Nº amostras por classe Nº total de amostras

1 Wine Real - Indústria 13 3 C1=59, C2=71, C3=48 178

2 Two Spirals 2D Artificilal 2 2 C1=472, C2=472 944

Problemas

Simulações: ACFNN-GA e EPNet

Principais parâmetros:

2 problemas de classificação de dados (UCI – Machine Learning Repository)

Nº máximo de

neurônios ocultos

10 para Wine

15 para Two Spirals.

Tamanho do vetor cromossomo: de

325 e 171 elementos.

Tamanho da população 20 indivíduos.

Nº de progenitores P 4

Nº máximo de gerações 200

Nº de épocas de

treinamento

(quasi-Newton)

500

Nºde neurônios ocultos [minN

e maxN] iniciais

Para Wine: [2 até 5];

Para Two Spirals: [5 até 10].

Tamanho da população 20 indivíduos

Nº máximo de gerações 500

Nº de épocas de treinamento via

MBP e SA: K0 (MBP-inicialização),

K1 (MBP-Mutação #1) e

K2 (SA-Mutação #2)

500, 750 e 250

ACFNN-GA EPNet




0 50 100 150 2000

0.2

0.4

0.6

0.8

1

Evolução do Fitness

Gerações

Fitness

Melhor

Média

0

50

100

150

200

250

300

264

136

Desempenho do Crossover

F(descen.) < F(progen.) F(descen.) >= F(progen.)

Unid

ades

50 100 150 200

0

2

4

6

8

10

Gerações

Nº

neuro

nio

s

Neurônios ocultos utilizados

Média

Melhor

Resultado final ACFNN-GA | 4/10 neurônios ocultos

100%

Treinamento

100%

Validação

98%

Teste

50 100 150 200

88

90

92

94

96

98

100

Taxas de classificação (gerações)

Gerações

% a

cert

os

Tre

Val

Tes

0 100 200 300 400 5000

0.01

0.02

0.03

0.04

0.05Error dos Individuos (fitness)

E

Gerações

Melhor

Média

0 5 10 15 200

20

40

60

80

Uni

dade

s

Individuos

Nº neurônios e conexões da população

100 200 300 400 500

2

3

4

5

6

7

Gerações

Nº

neur

onio

s

Neurônios ocultos usados

Média

Melhor

100 200 300 400 500

94

96

98

100


Gerações

% a

cert

os

Tre

Val

Tes

EPNet | 3 neurônios ocultos

100%

Treinamento

100%

Validação

100%

Teste

Simulações: ACFNN-GA e EPNet

ACFNN-GA EPNet (*)

Problema Wine



Tópico preparado para a discipl ina IA -353 Redes Neurais

(*) Testes a partir de uma implementação própria baseada no EPNet (Yao & Liu, 1997), pode não ser exatamente igual ao original!

21

0 50 100 150 2000

0.2

0.4

0.6

0.8

1

Evolução do Fitness

Gerações

Fitness

Melhor

Média

0

50

100

150

200

250

239

161

Desempenho do Crossover

F(descen.) < F(progen.) F(descen.) >= F(progen.)

Unid

ades

50 100 150 200

0

5

10

15

Gerações

Nº

neuro

nio

s


Média

Melhor

Resultado final ACFNN-GA | 12/15 neurônios ocultos

100%

Treinamento

100%

Validação

100%

Teste

50 100 150 2000

20

40

60

80

100


Gerações

% a

cert

os

Tre

Val

Tes

0 100 200 300 400 5000

0.05

0.1

0.15

0.2

0.25Error dos Individuos (fitness)

E

Gerações

Melhor

Média

0 5 10 15 200

20

40

60

80

Uni

dade

s

Individuos


100 200 300 400 500

4

6

8

10

12

Gerações

Nº

neur

onio

s

Neurônios ocultos usados

Média

Melhor

100 200 300 400 500

60

70

80

90

100


Gerações

% a

cert

os

Tre

Val

Tes

EPNet | 9 neurônios ocultos

100%

Treinamento

100%

Validação

100%

Teste

Simulações: ACFNN-GA e EPNet Problema Two Spirals

ACFNN-GA EPNet





22

0 100 200 300 400 500 600 7000

0.05

0.1

0.15

0.2

0.25Erro dos Indivíduos (fitness)

E

Gerações

Melhor

Média

0 5 10 15 200

20

40

60

80

100

Uni

dade

s

Individuos


100 200 300 400 500 600 700

2

4

6

8

10

12

14

Gerações

Nº

neur

onio

s


Média

Melhor

100 200 300 400 500 600 700

60

70

80

90

100


Gerações

% a

cert

os

Tre

Val

Tes

Resultado final EPNet | 8 neurônios ocultos

100%

Treinamento

100%

Validação

100%

Teste

0 100 200 300 400 500 600 7000

0.05

0.1

0.15

0.2


E

Gerações

Melhor

Média

0 5 10 15 200

20

40

60

80

100

Uni

dade

s

Individuos


100 200 300 400 500 600 700

2

4

6

8

10

12

14

Gerações

Nº

neur

onio

s


Média

Melhor

100 200 300 400 500 600 700

60

70

80

90

100


Gerações

% a

cert

os

Tre

Val

Tes


100%

Treinamento

100%

Validação

100%

Teste

0 100 200 300 400 500 600 7000

0.05

0.1

0.15

0.2


E

Gerações

Melhor

Média

0 5 10 15 200

50

100

150

Uni

dade

s

Individuos


100 200 300 400 500 600 700

12

14

16

18

Gerações

Nº

neur

onio

s


Média

Melhor

100 200 300 400 500 600 700

70

80

90

100


Gerações%

ace

rtos

Tre

Val

Tes


100%

Treinamento

100%

Validação

99%

Teste

0 100 200 300 400 500 600 7000

0.05

0.1

0.15

0.2


E

Gerações

Melhor

Média

0 5 10 15 200

50

100

150

Un

ida

de

s

Individuos


100 200 300 400 500 600 700

12

14

16

18

Gerações

Nº

ne

uro

nio

s


Média

Melhor

100 200 300 400 500 600 700

70

80

90

100


Gerações

% a

cert

os

Tre

Val

Tes


100%

Treinamento

100%

Validação

99%

Teste

EPNet – Caso 1 EPNet – Caso 2

Problema Two SpiralsSimulações: ACFNN-GA e EPNet

Inicialização de nº de neurônios sub-estimada

(de 3 a 5 neurônios ocultos)

Inicialização de nº de neurônios sobre-estimada

(de 13 até 18 neurônios ocultos)





23

Síntese de ACFNNs via um algoritmo construtivo: CoACFNNA

“... a possibilidade de adaptação da rede neural para um determinado problema é uma das

vantagens das técnicas construtivas... (elas) têm também importantes efeitos na velocidade da

convergência do processo de treinamento. Em muitos métodos construtivos, a adição de um novo

neurônio oculto implica na atualização de um pequeno grupo de pesos sinápticos, geralmente só aqueles

associados ao neurônio a ser adicionado” (MUSELLI, 1998).

Informação mútua mede a quantidade de informação que uma variável contém sobre uma outra variável. É

uma medida de dependência entre duas variáveis (Shannon, 1949).

Informação mútua

Idéias e/ou conceitos preliminares:

Algoritmos construtivos de RNAs

Permite escapar de mínimos locais.

Relaxamento ou folga do erro



Algoritmos construtivos:

Redes neurais construtivas :

• Tower: Novo neurônio a inserir é conectado a todas as entradas e ao último

neurônio inserido;

• Pyramid: Similar a Tower com a diferença de que o novo neurônio conecta-

se também com todos os neurônios previamente inseridos;

✓ Trabalha com saída única;

✓ Ajuste dos pesos via algoritmo Pocket-Ratchet-Modification (PRM);

✓ Funções tipo Umbral (Threshold) nos neurônios ocultos.

Tower e Pyramid (Gallant, 1994)

✓ Conectividade de cada neurônio similar a Pyramid;

✓ Trabalha com múltiplas saídas;

✓ Treinamento desacoplado com duas funções-objetivo;

✓ Função tipo tanh nos neurônios ocultos.

Cascade Correlation (Fahlman & Lebiere, 1991)

...

...

...

...

Tower

Pyramid

Upstart (Frean, 1990) Tiling & M-Tiling (Parekh, 1997)

Cascade Correlation

CoACFNNAIdéias e/ou conceitos preliminares



Outras redes:

25


Redes neurais construtivas : Algoritmo Cascade Correlation (Fahlman & Lebiere, 1991)

...

... YYEY ˆ, X

1 Ajuste conexões da rede mínima via min(EQ)

2

1

ˆ2

1

P

p

ppyyEQ

...

...X Y

4Congela conexões de entrada do n-ésimo candidato

e ajusta conexões de saída da rede via min(EQ)

...

...X Y, E

...

V

V

V

o p

ooppS ))((

,EEVV

2

op

pipoopo

i

Ifw

S

,

,

'

,)( EE

Ajuste conexões de entrada de neurônios candidatos via max(S)

w

ww

...

...X Y

...

V

V

V

)max(S

x Repete passos a partir de: ... 2

... até critério de parada ser atingido!!!

w

ww

w

...

...X Y

3 Escolha do melhor candidato, descarta o resto

...

...X Y

Rede final!!!



Fonte: (Fahlman & Lebiere, 1991)



Algoritmo Cascade Correlation em regressão e classificação de dados

TWO SPIRALS 2D TWO DONUTS 3D THREE SPIRALS 3D

Ite: 0 | EQval: 57.6553 | 66.5254 [63.5593] 64.8305

Ite: 1 | EQval: 53.6905 | 62.7119 [59.322] 59.7458

Ite: 2 | EQval: 44.4113 | 68.8559 [65.678] 61.8644

Ite: 3 | EQval: 36.5056 | 73.7288 [75] 67.7966

Ite: 4 | EQval: 26.9158 | 89.8305 [84.322] 82.6271

Ite: 5 | EQval: 17.2259 | 95.7627 [94.9153] 89.8305

Ite: 6 | EQval: 16.9015 | 95.9746 [95.7627] 90.2542

Ite: 7 | EQval: 12.6921 | 97.4576 [97.8814] 94.0678

Ite: 8 | EQval: 8.3089 | 98.7288 [100] 98.3051

99%

Treinamento

100%

Taxas de classificacao correta: NN

Validacao

Implemented by Wilfredo J. Puma-Villanueva

98%

Teste

Cascade-Correlation Algorithm: 8 hn

0 100 200 300 400 500-2

-1

0

1

2Predição de séries temporais

Implemented by Wilfredo J. Puma-Villanueva

Cascade-Correlation Algorithm: 11 hn

Ite: 0 | EQval: 101.4096

Ite: 1 | EQval: 64.9081

Ite: 2 | EQval: 62.022

Ite: 3 | EQval: 54.0021

Ite: 4 | EQval: 51.1339

Ite: 5 | EQval: 45.4887

Ite: 6 | EQval: 44.6197

Ite: 7 | EQval: 29.6125

Ite: 8 | EQval: 27.4129

Ite: 9 | EQval: 27.3721

Ite: 10 | EQval: 27.2915

Ite: 11 | EQval: 27.8427

stop by errormin diff: -0.55123



Fonte: © Wilfredo JPV


Idéias e/ou conceitos preliminares

Correlação via Informação Mútua (MI)

)()(

),(log),()Y,X(

YX

XY

21 1

XY

ji

jiN

i

N

jji

yPxP

yxPyxPMI

Cellucci (2005): utiliza histograma uniforme para o cálculo das probabilidades conjunta e marginais

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Corr(X,Y) = -0.0388

MI(X,Y) = 0.1171

Corr(X,Y) = 1.0

MI(X,Y) = 3.7004

Corr(X,Y) = -0.1280

MI(X,Y) = 0.8757 (0.2187)

Exemplo:

Informação mútua:CoACFNNA




Exemplo do uso de Informação Mútua na identificação da janela de atrasos (predição de séries temporais)

0 20 40 60 80 100 1200.4

0.6

0.8

1

1.2

1.4

1.6

1.8x 10

4

0 200 400 600 8000

20

40

60

80

100

120

140

Série temporal: Clothing store Função de auto-correlação Informação Mútua

Série temporal: IPI Durable Consumer Goods Função de auto-correlação Informação Mútua

Informação mútua:CoACFNNA




Folga ou relaxamento do erroCoACFNNA


PE

E’ < E , E’ > E ou E’ = E

E’

PSErE SE NE

SE = E × SEr

SEr ≥ 1,0

SE ≥ E

Se P for “bem sucedido”

E’ = NE

caso contrário

E’ = E

? E’

Sem relaxamento:

Com relaxamento:




Algoritmo construtivo: CoACFNNA

Começa com rede

vazia

Adição de

Conexões

Eliminação de

conexõesFIM

SIM

NÃO

Cálculo de I.M. & Adição de primeiras

conexões

Ajuste da “Taxa de

folga do erro” ( SEr )

CRITERIO

PARADA

Adição de 1

neurônio

Adição de

Conexões

Eliminação de

conexões

Adição de 1

neurônio

No. max de

neurônios

alcançado?

Háneurônios na rede?

Eliminação de 1

neurônio

NÃO

No. max de

neurônios

alcançado?

SIM

SIM

SIM

NÃO

NÃO

SOMENTE

NA

PRIMEIRA VEZ

última “Adição

1 neurônio”

bem sucedida?

SIM

NÃO

Fluxograma principal do CoACFNNA

Critério de Parada: Insucesso consecutivo dos

4 procedimentos (cinza) num mesmo ciclo


Demo:





P. “Calculo de MI (entradas) e Adiciona as primeiras conexões”

noi

no

jji

1

,MI

NMI

yx

...

...

Entradas Saídas

x1

x2

xni

y1

ynoX Y

x1 x2 ... xni y1 yno...

1. Dados

...

...

Entradas Saídas

x1

x2

xni

y1

yno

Quantas entradas conectar?

2. Rede inicial

3. Calcula MI das entradas 4. Adiciona as primeiras conexões e treina

✓ Número de entradas <= 3 : conecta a entrada com maior MI

✓ Número de entradas > 3 : conecta 50% das entradas com maior MI





P. “Adição de Conexões”

2. Cria uma lista com “conexões candidatas”

3. Ordena a lista por MI neurônio de origem 4. Visita cada linha e tenta estabelecer a conexão

1. Recalcula MI para neurônios ocultos

1

2

3

6

7

x1

x2

x3

y1

y2

4

5

1

2

3

6

7

x1

x2

x3

y1

y2

4

5

Origem Destino MIO

Lista ordenada

Origem Destino MIO

Lista ordenada

✓

✓

✓

PARE

✓ Estabelece a conexão sempre que erro E diminui após re-treino da rede;

✓ Deixa de visitar a lista após N/4 tentativas mal-sucedidas;

✓ N é o número de linhas na lista.





P. “Adiciona 1 neurônio”

Op. 1: Incrementa camadas ocultas já constituídas

1

2

3

6

7

4

5

Onde inserir e com quem conectar?

1

2

3

6

7

4

5

Onde?: 2 opções

x

1

2

3

6

7

4

5

x

Op. 2: Criando uma nova camada oculta

Rede recebida

Com quem conectar?:

1

2

3

6

7

4

5

x

Usa MI para escolher os outros

neurônios com quem conectar

✓Avalia todas as opções de

inserção re-treinando a rede;

✓Escolhe a mais favorável (Best

improvement).





P. “Elimina conexões”

2. Cria uma lista com “conexões candidatas”

calculando E via “sensibilidade”

3. Visita cada linha tentando confirmar a eliminação

1. Rede recebida

1

2

3

6

7

x1

x2

x3

y1

y2

4

5

Origem Destino ES

Lista ordenada

✓

✓

✓

PARE

✓ “Rotinas de reparação da rede”

serão requeridas;

✓ Elimine a conexão sempre que

erro E diminui após re-treino da

rede;

✓ Deixa de visitar a lista após N/5

tentativas mal-sucedidas;

✓ N é o número de linhas na lista.

ES = E com conexão – E sem a conexão

Origem Destino ES

Lista ordenada





P. “Elimina 1 neurônio”

2. Cria uma lista com “neurônios candidatos” e

calcula MI para cada um deles

3. Visita cada linha tentando eliminar o neurônio

1. Rede recebida

✓ PARE

✓ “Rotinas de reparação da rede”

serão requeridas;

✓ Estratégia: Primeira melhora (First

improvement);

✓ Re-treina a rede para confirmar a

eliminação;

✓ Abandona à primeira melhora ou

após visitar toda a lista.

Neurônio MI

Lista ordenada

Neurônio MI

Lista ordenada

PARE

1

2

3

8

9

4

5

6 7





P. “Ajuste da taxa de folga do erro SEr”

PSErE SE NE

SE = E x SEr

SEr ≥ 1.0

SE ≥ E

Se P bem sucedido

E’ = NE

Então

E’ = E

Se E’

E_minE_max

SEr_minSEr_maxEE_maxSEr_maxSEr

SEr_minSEr_maxSEr_minSEr_max 750.

0 10 20 30 40 50 60 70 80 900.98

1

1.02

1.04

1.06

1.08

1.1

1.12

1.14

Steps

Valu

es

Behaviors of SEr

SEr max

SEr

SEr min

Final ACFNN architecture to Breast Tissue

2

0

2

4

6

8

10

x10 sec.

Uni

ts

0 20 40 60 800

1

2

3

4

5

6

7

8

9

Steps

Err

or: E

CoACFNNA: Sequence of actions for Breast Tissue

Error: E

77%Training

78%

Rates of correct classification

Validation69%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Escala do E Escala do SEr

E_max

E_min

SEr_max

SEr_min

SErE

E_min = 0,5 x E

E

I

GC

C

IG

G

Iterações

CG ≥ 4

GISe Então




0 20 40 60 80 100 1200.4

0.6

0.8

1

1.2

1.4

1.6

1.8x 10

4

0 50 100 150 200 250 3000

20

40

60

80

100

120

140

160

180

200

0 100 200 300 400 500 600 7000

20

40

60

80

100

120

140

Clothing store IPI Durable consumer goods

Sunspot

900 950 1000 1050 1100 1150 1200 1250 1300-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Two nonlinear processes (segmento)

CoACFNNA: Regressão de dados (Predição de séries temporais)

Predição de séries temporais



Estatísticas E. Treinamento E. Validação E. Teste No. Neurônios No. Conexões Tempo

mean ± std 9.61 ± 2.1 10.95 ± 2.87 12.2 ± 5.12 1 15 0.1 ± 0.05

min 7.36 6.93 5.95 1 15 0.01

max 16.23 15.88 23.82 1 15 0.18

mean ± std 7.31 ± 2.48 11.22 ± 2.68 14.84 ± 5.52 2 29 0.12 ± 0.03

min 4.31 5.76 4.15 2 29 0.03

max 12.77 16.07 28.54 2 29 0.16

mean ± std 6.58 ± 1.85 10.12 ± 2.04 14.59 ± 8.3 3 43 0.37 ± 0.1

min 3.53 5.48 6.44 3 43 0.13

max 10.93 13.84 46.93 3 43 0.55

mean ± std 7.61 ± 3.28 11.31 ± 2.47 14.67 ± 7.38 4 57 0.41 ± 0.16

min 2.77 7.43 6.58 4 57 0.02

max 14.62 15.88 40.75 4 57 0.62

mean ± std 6.93 ± 2.48 10.41 ± 2.3 14.26 ± 6.22 5 71 0.48 ± 0.13

min 3.78 7.34 7.46 5 71 0.08

max 15.58 14.89 40.35 5 71 0.60

mean ± std 7.65 ± 0.19 10.06 ± 0.58 10.83 ± 1.43 0.63 ± 0.85 22.1 ± 12.42 3.48 ± 1.93

min 7.10 8.83 6.98 0 13 1.87

max 7.77 10.47 13.47 3 58 8.78

mean ± std 9.84 ± 2.91 6.39 ± 1.16 5.09 ± 1.62 0.2 ± 0.48 7.5 ± 7.31 3.28 ± 5.31

min 5.96 5.07 2.80 0 2 0.41

max 17.85 9.27 8.89 2 34 29.64

Clothing store

CoACFNNA

MLP 5hn

CasCorr

MLP 2hn

MLP 3hn

MLP 4hn

MODELOS

MLP 1hn

1

0.5

0

0.5

1

sec.

Units

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

Steps

Err

or:

E

Entire CoACFNNA processes to Clothingstore

Error: E

min|W|=0.9437 med|W|=0.9437 max|W|=0.9437

Final CoACFNNAs network to Clothingstore

Training MRPE=8.0666

Validation MRPE=5.1225

Test MRPE=2.8017

Serie Prediction

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Resultados da série:

Clothing store

0 20 40 60 80 100 1200.4

0.6

0.8

1

1.2

1.4

1.6

1.8x 10

4





mean ± std 5.59 ± 0.39 3.46 ± 0.21 10.58 ± 2.92 1 15 0.11 ± 0.05

min 5.31 3.04 5.45 1 15 0.02

max 6.59 3.70 16.53 1 15 0.24

mean ± std 5.31 ± 0.5 3.55 ± 0.38 10.23 ± 3.02 2 29 0.16 ± 0.05

min 4.63 2.99 6.87 2 29 0.03

max 6.57 5.19 18.03 2 29 0.21

mean ± std 4.93 ± 0.64 3.41 ± 0.37 10.49 ± 5.4 3 43 0.37 ± 0.15

min 4.01 2.88 5.02 3 43 0.11

max 6.13 4.51 28.66 3 43 0.63

mean ± std 4.53 ± 0.58 3.28 ± 0.31 12.85 ± 6.95 4 57 0.47 ± 0.18

min 3.79 2.84 6.43 4 57 0.16

max 5.83 4.30 38.01 4 57 0.75

mean ± std 4.43 ± 0.53 3.34 ± 0.37 12.37 ± 6.69 5 71 0.6 ± 0.22

min 3.85 2.88 5.38 5 71 0.21

max 5.49 4.48 34.48 5 71 0.89

mean ± std 5.36 ± 0.01 3.24 ± 0.01 5.15 ± 0.02 0.13 ± 0.43 14.9 ± 6.23 2.59 ± 1.01

min 5.30 3.20 5.14 0 13 2.12

max 5.38 3.24 5.26 2 42 6.87

mean ± std 5.2 ± 0.16 3.03 ± 0.14 4.73 ± 0.51 0.87 ± 0.78 20.93 ± 8.09 9.64 ± 8.83

min 4.91 2.67 3.86 0 12 1.16

max 5.57 3.21 6.11 2 37 36.58

MLP 4hn

MLP 5hn

CasCorr

CoACFNNA

MODELSIPI Durable consumer goods

MLP 1hn

MLP 2hn

MLP 3hn

0

2

4

6

8

10

12

sec.

Units

0 1 2 3 4 5 6 7 8 90

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

Steps

Err

or:

E

Entire CoACFNNA processes to IPI Durable Consumer Goods

Error: E

min|W|=0.0605 med|W|=0.12 max|W|=0.67

Final CoACFNNAs network to IPI Durable Consumer Goods



Test MRPE=3.8647

Serie Prediction

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Resultados da Série:

IPI Durable

Consumer Goods

0 100 200 300 400 500 600 7000

20

40

60

80

100

120

140





mean ± std 76.4 ± 12.57 88.62 ± 9.31 43.1 ± 4.4 1 15 0.04 ± 0.03

min 49.54 74.83 35.57 1 15 0.02

max 111.00 117.44 51.90 1 15 0.14

mean ± std 72.82 ± 10.7 85.51 ± 9.53 47.83 ± 29.18 2 29 0.13 ± 0.03

min 51.90 68.67 32.93 2 29 0.08

max 89.17 100.34 197.31 2 29 0.22

mean ± std 68.56 ± 12.9 80.3 ± 10.75 42.38 ± 13.51 3 43 0.34 ± 0.12

min 46.71 47.59 32.67 3 43 0.14

max 96.94 104.38 111.08 3 43 0.51

mean ± std 65.43 ± 21.09 80.58 ± 13.42 43.83 ± 19.11 4 57 0.43 ± 0.15

min 43.55 57.49 29.31 4 57 0.08

max 163.79 133.49 140.62 4 57 0.63

mean ± std 65.57 ± 12.18 80.25 ± 9.95 40.29 ± 4.72 5 71 0.6 ± 0.14

min 45.44 57.47 33.64 5 71 0.13

max 108.43 104.62 53.00 5 71 0.75

mean ± std 73.37 ± 4.47 95.13 ± 2.21 45.38 ± 1.18 1.23 ± 1.87 32.1 ± 31.19 4.8 ± 4.39

min 59.04 92.69 41.36 0 13 1.97

max 78.11 102.65 49.15 8 153 21.37

mean ± std 67.07 ± 9.68 62.75 ± 6.28 29.56 ± 2.62 0.43 ± 0.68 12.13 ± 7.71 4.71 ± 5.1

min 47.78 48.62 25.23 0 4 0.55

max 85.27 74.09 33.85 2 31 18.99

MLP 4hn

MLP 5hn

CasCorr

CoACFNNA

MODELOSSunspot

MLP 1hn

MLP 2hn

MLP 3hn

1

0

1

2

3

4

5

sec.

Units

0 2 4 6 8 10 12 14 16 18 200

0.2

0.4

0.6

0.8

1

1.2

1.4

Steps

Err

or:

E

Entire CoACFNNA processes to Sunspot

Error: E

min|W|=0.0362 med|W|=0.13 max|W|=0.89

Final CoACFNNAs network to Sunspot



Test MRPE=25.2332

Serie Prediction

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Sunspot


0 50 100 150 200 250 3000

20

40

60

80

100

120

140

160

180

200





mean ± std 128.48 ± 13.18 237.76 ± 33.34 156.76 ± 26.22 2 9 0.1 ± 0.05

min 107.04 106.84 110.08 2 9 0.04

max 147.90 261.41 208.95 2 9 0.26

mean ± std 98.18 ± 6.61 118.16 ± 26.31 106.16 ± 15.2 6 25 0.7 ± 0.16

min 85.60 71.32 86.01 6 25 0.33

max 110.84 165.29 147.94 6 25 0.92

mean ± std 84.66 ± 5.55 81.09 ± 17.69 93.78 ± 6.8 10 41 1.77 ± 0.24

min 72.42 53.33 84.57 10 41 0.62

max 96.48 122.21 112.26 10 41 1.93

mean ± std 85.16 ± 4.89 81.88 ± 17.04 96.81 ± 6.02 14 57 1.83 ± 0.21

min 76.14 50.76 86.96 14 57 1.03

max 92.95 121.31 109.29 14 57 2.08

mean ± std 82.29 ± 4.58 79.16 ± 14.32 101.76 ± 5.61 18 73 1.9 ± 0.24

min 72.27 54.76 86.23 18 73 0.81

max 91.01 108.52 111.43 18 73 2.12

mean ± std 129.01 ± 10.83 200.44 ± 27.97 158.68 ± 37.21 2.87 ± 2.33 19.77 ± 16.7 6.3 ± 4.4

min 110.60 165.62 98.85 0 3 1.34

max 153.27 322.95 218.97 8 63 17.06

mean ± std 86.71 ± 8.69 81.19 ± 27.33 87.31 ± 6.37 6.1 ± 1.32 36.13 ± 9.34 107.36 ± 59.46

min 71.38 46.59 72.55 3 15 23.13

max 112.46 159.57 99.42 9 55 290.82

MLP 14hn

MLP 18hn

CasCorr

CoACFNNA

MODELOSTwo nonlinear processes

MLP 2hn

MLP 6hn

MLP 10hn

1

0.5

0

0.5

1

x10 sec.

Units

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100

Steps

Err

or:

E

Entire CoACFNNA processes to Two Nonlinear Processes

Error: E

min|W|=0.0885 med|W|=4.77 max|W|=258.93

Final CoACFNNAs network to Two Nonlinear Processes



Test MRPE=72.5516

Serie Prediction

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Two Nonlinear

Processes

(Weigend et al., 1995)


900 950 1000 1050 1100 1150 1200 1250 1300-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1




UCI Machine Learning Repository

Problemas diversos

CoACFNNA: Classificação de dados

TipoNo.

Entradas

No.

ClassesNo. amostras por classe

Total de

amostras

1 Two Spirals 2D Artificilal 2 2 C1=472, C2=472 944

2 Two Donuts 3D Artificial 3 2 C1=500, C2=500 1000

3 Three Spirals 3D Artificial 3 3 C1=590, C2=590, C3=590 1770

4 Iris Real - Biologia 4 3 C1=50, C2=50, C3=50 150

5 Wine Real - Indústria 13 3 C1=59, C2=71, C3=48 178

6 Breast Cancer Wisconsin Real - Saúde 9 2 C1=444, C2=239 683

7 Breast Tissue Real - Saúde 6 6 C1=21, C2=15, C3=18, C4=16, C5=14, C6=22 106

8 Wall-Following Robot Navigation Real - Indústria 4 4 C1=2205, C2=826, C3=2097, C4=328 5456

Problemas

Two Spirals Two Donuts Three Spirals Iris Wine Breast Cancer Breast TissueWall-following

Robot Navigation



MLP2HL &

MHEs

Two Spirals

(2D)

Two Donuts

(3D)

Three Spirals

(3D)Iris Wine

Breast Cancer

WisconsinBreast Tissue

Wall-Following

Robot

Navigation

MLP2HL-A 6 - 6 6 - 6 4 - 4 2 - 2 2 - 2 1 - 1 3 - 3 5 - 5

MLP2HL-B 7 - 7 7 - 7 5 - 5 3 - 3 3 - 3 2 - 2 4 - 4 6 - 6

MHE-A (10,10)7 (6,6)6 (8,8)5 (3,L)L (L,L)L (L,L)L (L,L)L (11,L)L

MHE-B (11,11)7 (7,7)6 (9,9)5 (2,2)2 (2,L)L (L,L)2 (4,L)L (12,L)L

MLP (2 camadas ocultas)

x1

xm

y

...

... ...

x2

1

2

M1

1

2

M2

1

w(1) w(2) w(3)

x1

xm

y

...

... ...

x2

1

2

M1

1

2

M2

1

w(1) w(2) w(3)

MLP (1 camada oculta)

1, 2, …, 15 neurônios ocultos

1

2

n

x1

xm

w1,1

w1,2

w1,3

w1,1

w2,1

wn,1

y

...

...

wm,n

x1

xm

wa

1,

1wa

1,2

wa

1,3

wd

1,1

wd

2,1

wd

n,1

y

...

...

wa

m,n

1

2

n

x1

xm

w1,1

w1,2

w1,3

w1,1

w2,1

wn,1

y

...

...

wm,n

x1

xm

wa

1,

1wa

1,2

wa

1,3

wd

1,1

wd

2,1

wd

n,1

y

...

...

wa

m,n

Comitê de Máquinas

(Mistura de Especialistas)

Máquina

X

Máquina

Gating

m

2

1

gm

g2

g1

Y

ym

y2

y1

Máquina

Maquina

Máquina

X

Máquina

Gating

m

2

1

gm

g2

g1

Y

ym

y2

y1

Máquina

Maquina

Cascade Correlation

...

...

XY

x1

xn

yx2

...

CoACFNNA


Outros classificadores




4

3

2

1

0

1

2

3

x10 sec.

Un

its

0 5 10 15 20 25 300

10

20

30

40

50

60

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Two Spirals

Error: E

Final ACFNN architecture to Two Spirals

100%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Tra Val Tes

MLP 1hn 65.3±2.1 62.0±1.9 64.1±2.4

MLP 2hn 65.0±3.4 60.0±4.0 64.0±3.4

MLP 3hn 68.5±3.4 63.8±4.3 67.2±3.2

MLP 4hn 72.7±4.4 69.4±5.5 70.4±4.6

MLP 5hn 78.1±3.7 75.3±5.9 76.1±3.3

MLP 6hn 79.9±4.9 76.6±6.1 78.0±4.5

MLP 7hn 85.2±6.4 82.7±7.4 82.6±7.0

MLP 8hn 93.0±5.5 90.4±7.0 91.0±6.4

MLP 9hn 96.2±5.9 94.5±6.7 94.1±6.9

MLP 10hn 98.4±3.7 97.5±4.4 97.4±4.3

MLP 11hn 99.2±2.4 98.4±3.0 98.2±3.4

MLP 12hn 99.7±1.2 99.2±2.0 99.1±2.2

MLP 13hn 99.1±4.7 98.9±4.3 98.7±5.5

MLP 14hn 99.9±0.5 99.6±1.2 99.7±1.4

MLP 15hn 100 99.9±0.2 100

MLP 6-6 100±0.1 99.8±0.4 99.7±0.8

MLP 7-7 100±0 100±0.1 100±0.1

MHE (10,10)7 99.9±0.2 99.4±0.6 99.6±0.5

MHE (11,11)7 100 99.9±0.2 100

ACFNN 99.7±0.4 99.7±0.5 99.6±0.7

ModelTwo Spirals (2D)

Resultados: Two Spirals


Treinamento: 100% Validação: 100% Teste: 100%

Cas-Corr 97,3±3,5 96,9±3,9 94,8±5,6

Cascade Correlation

CoACFNNA

ESTATISTICAS NEURÔNIOS CONEXÕES TEMPO

MLP 1HL 15 90 6,70

MLP 2HL 14 98 6,11

MHE 29 174 400,17

CoACFNNA 6,9±2 51 290,12

Cas-Corr 11,3±4,2 129 98,66





Final ACFNN architecture to Donuts

1

0

1

2

3

4

5

6

x10 sec.

Un

its

0 5 10 15 20 250

10

20

30

40

50

60

70

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Donuts

Error: E

100%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Tra Val Tes

MLP 1hn 67.6±4.6 68.0±3.7 70.0±3.8

MLP 2hn 93.1±5.1 92.2±6.3 92.1±5.1

MLP 3hn 97.4±1.9 97.4±2.5 97.0±1.8

MLP 4hn 98.6±0.9 98.6±0.9 98.4±1.3

MLP 5hn 99.3±0.9 99.1±1.0 99.1±1.1

MLP 6hn 99.7±0.6 99.5±0.9 99.5±0.9

MLP 7hn 99.8±0.5 99.8±0.5 99.8±0.5

MLP 8hn 99.8±0.5 99.8±0.6 99.8±0.7

MLP 9hn 100 100 100

MLP 10hn 100 100 100

MLP 11hn 100 100 100

MLP 12hn 100 100 100

MLP 13hn 100 100 100

MLP 14hn 100 100 100

MLP 15hn 100 100 100

MLP 6-6 99.8±0.4 99.4±0.9 99.5±0.7

MLP 7-7 100±0 99.9±0.4 100±0.2

MHE (6,6)6 99.7±0.5 99.5±0.7 99.3±0.8

MHE (7,7)6 100 100 100

ACFNN 100 100 99.8±0.5

ModelTwo Donuts (3D)

Resultados: Two Donuts



Cas-Corr 99,9±0,2 100 99,8±0,3

Cascade Correlation

CoACFNNA


MLP 1HL 9 63 2,60

MLP 2HL 14 105 1,70

MHE 20 140 39,57

CoACFNNA 5,9±1,1 50 128,98

Cas-Corr 4,4±2,3 44 29,92





Tra Val Tes

MLP 1hn 43.4±2.0 45.8±1.4 37.8±1.6

MLP 2hn 49.1±4.3 51.6±2.5 44.9±4.9

MLP 3hn 64.6±5.8 63.0±4.4 61.8±7.0

MLP 4hn 76.9±5.3 74.0±4.8 75.4±6.5

MLP 5hn 85.7±3.2 83.2±3.3 84.4±3.5

MLP 6hn 94.4±2.2 93.3±2.8 93.7±2.2

MLP 7hn 98.9±1.8 98.3±2.4 98.3±2.4

MLP 8hn 99.8±0.4 99.8±0.5 99.7±0.5

MLP 9hn 99.9±0.4 99.8±0.5 99.8±0.5

MLP 10hn 100 100 100

MLP 11hn 100 100 100

MLP 12hn 100 100 100

MLP 13hn 100 100 100

MLP 14hn 100 100 100

MLP 15hn 100 100 100

MLP 4-4 98.2±1.8 97.6±2.5 97.2±2.4

MLP 5-5 100±0.1 100±0.2 99.9±0.3

MHE (8,8)5 100 99.9±0.4 99.8±0.3

MHE (9,9)5 100 100 100

ACFNN 100 100 99.9±0.1

ModelThree Spirals (3D)

Final ACFNN architecture to Three Spirals

2

1

0

1

2

3

4

5

x10 sec.

Un

its

0 5 10 15 20 250

20

40

60

80

100

120

140

160

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Three Spirals

Error: E

100%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Resultados: Three Spirals



Cas-Corr 99,3±0,8 99,1±0,9 98,3±1,3


MLP 1HL 10 80 8,10

MLP 2HL 10 70 23,67

MHE 23 179 271,78

CoACFNNA 6,6±1 70 476,49

Cas-Corr 26,6±9,3 579,3 182,04

Cascade Correlation

CoACFNNA





Tra Val Tes

MLP 1hn 72.5±6.8 86.8±7.6 63.6±5.4

MLP 2hn 98.4±0.8 96.8±1.1 98.9±1.3

MLP 3hn 98.8±0.6 97.2±0.7 98.5±1.4

MLP 4hn 98.8±0.3 97.2±0.7 99.2±1.3

MLP 5hn 98.7±0.0 96.9±1.0 98.9±1.5

MLP 6hn 98.5±0.4 97.2±0.7 99.0±1.3

MLP 7hn 98.6±0.2 97.0±0.9 98.9±1.3

MLP 8hn 98.7±0.0 97.0±0.9 98.9±1.3

MLP 9hn 98.6±0.2 96.8±1.1 99.0±1.3

MLP 10hn 98.6±0.2 97.2±0.7 98.9±1.3

MLP 11hn 98.5±0.4 97.2±0.7 99.5±1.0

MLP 12hn 98.5±0.4 97.4±0.0 99.3±1.2

MLP 13hn 98.5±0.5 97.2±0.7 99.6±0.9

MLP 14hn 98.4±0.5 97.4±0.0 99.6±0.9

MLP 15hn 98.6±0.3 97.2±0.7 99.5±1.1

MLP 2-2 98.5±0.5 96.4±1.3 98±1.4

MLP 3-3 98.5±0.6 97±0.9 99.1±1.3

MHE (3,L)L 99.3±1.5 94.2±2.3 94.1±1.9

MHE (2,2)2 99.6±0.6 97.4±1.3 99.2±0.9

ACFNN 98.6±0.8 100 99.1±0.5

ModelIris

Final ACFNN architecture to Iris

0

2

4

6

8

10

x10 sec.

Un

its

0 5 10 150

1

2

3

4

5

6

7

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Iris

Error: E

97%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Resultados: Iris


Cas-Corr 96,4±2 96,8±1,3 96±2


MLP 1HL 4 36 0,20

MLP 2HL 6 39 0,42

MHE 6 52 5,69

CoACFNNA 2,4±1,1 30 25,20

Cas-Corr 2,7±1,3 39,36 3,92

Cascade Correlation

CoACFNNA





Tra Val Tes

MLP 1hn 72.2±4.7 67.9±7.1 71.1±6.1

MLP 2hn 100 95.3±1.6 96.4±2.8

MLP 3hn 100 95.2±1.8 97.1±1.9

MLP 4hn 100 95.3±2.1 97.1±2.1

MLP 5hn 100 95.0±1.3 97.7±1.8

MLP 6hn 100 95.3±1.5 97.8±1.6

MLP 7hn 100 94.8±1.3 97.2±1.3

MLP 8hn 100 95.0±1.4 97.3±1.3

MLP 9hn 100 95.3±1.1 97.7±1.2

MLP 10hn 100 95.3±1.1 97.3±1.4

MLP 11hn 100 95.3±1.1 97.3±0.9

MLP 12hn 100 95.2±1.3 97.7±1.0

MLP 13hn 100 95.3±1.4 97.4±1.4

MLP 14hn 100 94.9±1.2 97.5±1.1

MLP 15hn 100 95.0±1.2 97.6±1.0

MLP 2-2 100±0 94.4±2.5 97.1±1.8

MLP 3-3 100±0.2 94.2±2.4 97.7±1.8

MHE (L,L)L 99.9±0.3 95.3±3 97±2

MHE (2,L)L 100 93.3±2.5 96.2±3.1

ACFNN 99.4±1.1 100 97.2±1.9

ModelWine

0

5

10

15

20

sec.

Un

its

0 5 10 150

2

4

6

8

10

12

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Wine

Error: E

Final ACFNN architecture to Wine

99%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

Resultados: Wine


Cas-Corr 100±0,2 95±2,6 97,1±1,3


MLP 1HL 2 36 0,10

MLP 2HL 4 42 0,32

MHE 0 104 0,65

CoACFNNA 2,3±0,7 62 37,76

Cas-Corr 2,8±2,1 93,56 13,01

Cascade Correlation

CoACFNNA





Resultados: Breast Cancer Wisconsin

Tra Val Tes

MLP 1hn 96.9±0.5 96.3±0.7 97.7±0.4

MLP 2hn 97.0±0.3 96.0±0.7 97.6±0.2

MLP 3hn 96.9±0.3 96.0±0.7 97.6±0.3

MLP 4hn 96.9±0.2 96.3±0.5 97.7±0.2

MLP 5hn 96.8±0.2 96.4±0.6 97.7±0.2

MLP 6hn 96.8±0.2 96.4±0.5 97.8±0.3

MLP 7hn 96.8±0.2 96.4±0.5 97.6±0.3

MLP 8hn 96.8±0.2 96.6±0.6 97.6±0.2

MLP 9hn 96.8±0.2 96.6±0.6 97.7±0.3

MLP 10hn 96.8±0.2 96.6±0.6 97.7±0.3

MLP 11hn 96.7±0.2 96.6±0.6 97.6±0.4

MLP 12hn 96.8±0.2 96.6±0.5 97.6±0.3

MLP 13hn 96.8±0.2 96.5±0.7 97.6±0.4

MLP 14hn 96.7±0.2 96.5±0.5 97.6±0.3

MLP 15hn 96.8±0.2 96.6±0.6 97.7±0.4

MLP 1-1 96.7±0.4 96.9±1 98±0.6

MLP 2-2 96.8±0.6 96.6±0.7 98±0.6

MHE (L,L)L 96.8±0.4 95±1.3 97.2±0.8

MHE (L,L)2 97±0.3 95.1±1.5 97.3±0.6

ACFNN 97±0.6 98.7±0.4 97.8±0.6

ModelBreast Cancer Wisconsin

2

0

2

4

6

8

10

12

14

16

min.

Un

its

0 10 20 30 400

2

4

6

8

10

12

14

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Breast Cancer Wisconsin

Error: E

Final ACFNN architecture to Breast Cancer Wisconsin

96%Training

99%


Validation99%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Cas-Corr 97,2±0,3 95,9±0,8 97,6±0,3


MLP 1HL 8 104 1,70

MLP 2HL 2 15 0,63

MHE 2 62 4,67

CoACFNNA 1,7±0,7 29 135,08

Cas-Corr 3,7±1 69,4 36,52

Cascade Correlation

CoACFNNA





Resultados: Breast Tissue

Tra Val Tes

MLP 1hn 37.8±1.2 36.8±3.4 36.0±3.1

MLP 2hn 55.1±2.9 48.5±10.3 41.4±4.6

MLP 3hn 70.9±3.2 61.6±5.1 46.2±4.2

MLP 4hn 67.4±11.3 59.5±4.1 47.8±7.0

MLP 5hn 65.0±9.5 57.2±4.8 46.0±6.3

MLP 6hn 65.3±9.6 58.0±4.2 46.5±4.4

MLP 7hn 64.8±7.9 58.0±5.2 44.2±4.5

MLP 8hn 66.2±6.8 55.4±5.1 46.5±5.6

MLP 9hn 61.6±6.9 58.5±3.9 44.7±3.8

MLP 10hn 63.3±8.4 58.1±4.3 45.9±4.5

MLP 11hn 63.6±6.9 55.9±5.2 45.0±4.2

MLP 12hn 62.1±5.8 58.1±5.6 46.4±4.4

MLP 13hn 61.4±5.6 58.3±5.3 45.6±4.8

MLP 14hn 62.6±6.1 57.5±5.3 46.5±3.8

MLP 15hn 63.0±7.7 57.0±4.7 44.1±5.2

MLP 3-3 63.5±9.3 56.9±8.9 45.5±4.5

MLP 4-4 68±13.2 57.5±11 46.2±8.5

MHE (L,L)L 83.3±5.8 52.8±5.4 55.3±4.6

MHE (4,L)L 80.1±7.5 57.7±8.7 52.1±7.5

ACFNN 67.6±8.1 66.4±5.9 56.1±5.7

ModelBreast Tissue

Final ACFNN architecture to Breast Tissue

2

0

2

4

6

8

10

x10 sec.

Un

its

0 20 40 60 800

1

2

3

4

5

6

7

8

9

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Breast Tissue

Error: E

77%Training

78%


Validation69%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Cas-Corr 75,5±0 54,7±3,3 47,4±2,3


MLP 1HL 3 42 0,70

MLP 2HL 8 76 3,57

MHE 4 112 27,17

CoACFNNA 5,2±1,2 45 315,65

Cas-Corr 0,6±0,8 50,4 1,99

Cascade Correlation

CoACFNNA





Resultados: Wall-Following Robot Navigation

Tra Val Tes

MLP 1hn 78.3±3.5 76.5±3.4 79.2±3.3

MLP 2hn 81.7±5.1 79.8±5.3 82.1±4.7

MLP 3hn 87.9±6.0 86.4±6.2 87.8±5.6

MLP 4hn 92.3±5.9 90.5±6.1 91.5±5.6

MLP 5hn 94.5±4.1 92.6±4.4 93.5±4.0

MLP 6hn 96.6±1.2 94.7±1.7 95.5±1.4

MLP 7hn 97.1±1.1 94.9±1.6 95.7±1.4

MLP 8hn 97.0±0.7 94.9±1.0 95.6±0.9

MLP 9hn 97.3±0.9 95.3±1.3 96.1±1.2

MLP 10hn 97.7±1.1 95.8±1.5 96.5±1.3

MLP 11hn 97.5±1.0 95.6±1.4 96.3±1.3

MLP 12hn 98.0±0.9 96.0±1.4 96.7±1.3

MLP 13hn 97.8±0.7 95.8±1.2 96.5±1.1

MLP 14hn 98.2±0.8 96.5±1.3 97.1±1.1

MLP 15hn 98.4±0.7 96.8±1.2 97.4±1.1

MLP 5-5 95±8.2 94.1±8.8 94.9±7.8

MLP 6-6 97.8±4.9 96.9±5.2 97.3±4.8

MHE (11,L)L 97.4±1.3 95.5±1.7 96.2±1.4

MHE (12,L)L 98±1.6 96.4±2.1 96.9±1.7

ACFNN 98,8±0,8 98,4±0,9 98,6±0,9

ModelWall-Following Robot Navigation

Final ACFNN architecture to Wall-Following Robot Navigation

4

2

0

2

4

6

8

x10 sec.

Un

its

0 5 10 15 200

50

100

150

200

250

300

350

Steps

Err

or:

E

CoACFNNA: Sequence of actions for Wall-Following Robot Navigation

Error: E

100%Training

100%


Validation100%

Test

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime


Cas-Corr 85,6±2,5 83,6±2,7 84,8±2,4


MLP 1HL 15 150 10,90

MLP 2HL 12 102 18,25

MHE 12 144 319,50

CoACFNNA 4,3±1 56 558,35

Cas-Corr 23,5±9,6 541,86 279,58

Cascade Correlation

CoACFNNA






Comparativo EPNet & CoACFNNA

Estatísticas Treinamento Validação Teste No. Neuroniôs No. Conexões Treinamento Validação Teste No. Neuroniôs No. Conexões

MEAN±STD 96,23±0,69 99,41±0,24 98,62±0,94 2±1,1 41±14,7 75,95±0,01 81,15±0,01 77,62±0,01 3,4±1,3 52,3±16,1

MIN 95,42 98,86 96,00 0 15 73,96 79,69 75,00 1 27

MAX 98,28 100,00 100,00 5 84 78,13 83,33 80,73 6 87

MEAN±STD 96,09±0,63 98,87±0,4 98,92±0,27 2,5±0,8 40,9±11,4 76,14±1,08 81,56±0,87 79,13±1,33 2,2±0,6 34,3±7,0

MIN 94,74 98,25 98,24 1 22 74,22 80,21 76,56 1 18

MAX 97,08 99,42 99,41 4 63 78,39 83,85 81,77 4 50

MEAN±STD 86,37±1,52 82,7±2 83,24±2,03 4,1±2,1 92,6±40,8 99,18±0,15 98,83±0,24 97,89±0,22 5,9±2,4 219,6±74,4

MIN 83,58 79,41 80,88 1 34 98,85 98,25 97,38 3 128

MAX 90,30 86,77 86,77 10 213 99,48 99,36 98,37 12 417

MEAN±STD 84,54±2,49 90,99±1,39 85,30±3,16 2,4±0,7 50,2±13,6 99,26±0,15 99,09±0,17 98,42±0,15 2,5±1 75,1±27,8

MIN 79,59 89,19 78,08 2 34 98,89 98,81 97,93 1 28

MAX 91,16 94,59 90,41 5 91 99,56 99,36 98,66 6 148

CoACFNNA

EPNet

CoACFNNA

Modelos

Breast Cancer Diabetes

Heart Disease Thyroid

EPNet

Breast Cancer Diabetes Heart Disease Thyroid


Fontes: Resultados publicados em (Yao & Liu, 1997) e (Puma-Villanueva et al., 2012)


Problemas diversos

CoACFNNA: Redução de dimensão

x1

xm

...

x2

...

1

m

2 ...

x1

xm

x2

1

m

2

ENTRADA: XSAÍDA

DESEJADA: XNOVA DIMENSÃO

Camadade Entrada

Camadas com neurônios e conexões arbitrários

Camada da nova dimensão (pre-definida)

Camadas com neurônios e conexões arbitrários

Camadade Saída

Two Spirals

2D→1D

Two Donuts

3D→2D

Three Spirals

3D→2D

Iris

4D→2D

Wine

13D→2D

Breast Cancer

9D→2D

Breast Tissue

6D→2D

Wall-following

Robot Navigation

4D→2D

ACFNN-PCA





4

3

2

1

0

1

2

3

4

5

sec.

Units

0 5 10 15 20 25 30 35 40 45 500

100

200

300

400

500

600

700

Steps

Err

or:

E

Entire CoACFNNA processes to Three Spirals

Error: E

min|W|=0.0622 med|W|=1.23 max|W|=10.61

Final CoACFNNAs network to Three Spirals

CoACFNNA | MSE=0.0245 | 1.07 minutes

AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

PCA algorithm: 0.20 minutes

Sammon algorithm: 2.95 minutes

CCA algorithm: 5.99 minutes

4

3

2

1

0

1

2

3

4

5

sec.

Units

0 5 10 15 20 25 30 35 40 45 500

100

200

300

400

500

600

700

Steps

Err

or:

E

Entire CoACFNNA processes to ThreeSpirals

Error: E

min|W|=0.0622 med|W|=1.23 max|W|=10.61

Final CoACFNNAs network to ThreeSpirals


AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

3

2

1

0

1

2

3

4

5

sec.

Units

0 2 4 6 8 10 120

50

100

150

200

Steps

Err

or:

E

Entire CoACFNNA processes to Donuts

Error: E

min|W|=0.0227 med|W|=0.82 max|W|=8.94

Final CoACFNNAs network to Donuts


AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime




3

2

1

0

1

2

3

4

5

sec.

Units

0 2 4 6 8 10 120

50

100

150

200

Steps

Err

or:

E

Entire CoACFNNA processes to Donuts

Error: E

min|W|=0.0227 med|W|=0.82 max|W|=8.94

Final CoACFNNAs network to Donuts


AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime

PCA

0,03 min.

Sammon

0,77 min.

CCA

1,69 min.

PCA

0,20 min.

Sammon

2,95 min.

CCA

5,99 min.

CoACFNNA 0,24 min.

CoACFNNA 1,07 min.

Two Donuts

3D→2D

Three Spirals

3D→2D





0

5

10

15

20

25

x10 sec.

Units

0 5 10 15 20 25 300

20

40

60

80

100

120

Steps

Err

or:

E

Entire CoACFNNA processes to Wine

Error: E

min|W|=0.0009 med|W|=0.54 max|W|=18.47

Final CoACFNNAs network to Wine


AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime




3

2

1

0

1

2

3

4

5

6

7

x10 sec.

Units

0 1 2 3 4 5 6 7 8 90

2000

4000

6000

8000

10000

12000

14000

16000

Steps

Err

or:

E

Entire CoACFNNA processes to Wall-following Robot Navigation

Error: E

min|W|=0.0001 med|W|=2.20 max|W|=867.87

Final CoACFNNAs network to Wall-following Robot Navigation


AddOne Neuron

AddConnections

DeleteConnections

DeleteOne Neuron

ElapsedTime




PCA

0,00 min.

Sammon

0,35 min.

CCA

0,10 min.

CoACFNNA 5,48 min.

PCA

5,13 min.

Sammon

58,51 min.

CCA

52,35 min.

CoACFNNA 1,10 min.

Wine

13D → 2D

Wall-following Robot Navigation

4D → 2D




GAME (Kordíki et al., 2010) Group of Adaptive Models Evolution

Kordík, P.; Koutník, J.; Drchal, J.; Kovárík, O.; Cepek, M. & Snorek, M. Meta-learning approach to neural network optimization.

Neural Networks, vol. 23, no. 4, pp. 568-582, 2010.


Redes do tipo ACFNNs com neurônios heterogêneos



GAME (Kordíki et al., 2010)

Algoritmo genético + estratégia de niching (DC – Deterministic Crowding)

Camada por camada, congela os pesos de camadas previas





Combina vários (18) métodos de otimização para treinar os neurônios da rede





Exemplo de rede resultante




Referências

Principais referências:

▪ Bishop C. M. Neural Networks for Pattern Recognition. Clarendon Press, Oxford, 1995.

▪ Fahlman, S.E.; Lebiere, C. The cascade correlation architecture, Advances in Neural information Processing Systems 2, Morgan

Kaufman, San Mateo, 1990, pp. 524-532.

▪ Frean, M. The upstart algorithm: a method for constructing and training feedforward neural networks, Neural Computation, vol. 2, pp.

198-209, 1990.

▪ Gallant, S.I. Neural Network Learning & Expert Systems, The MIT Press, England, 1994.

▪ Kordík, P.; Koutník, J.; Drchal, J.; Kovárík, O.; Cepek, M.; & Snorek, M. Meta-learning approach to neural network optimization. Neural

Networks, vol. 23, no. 4, pp. 568-582, 2010.

▪ Parekh, R.G.; Yang, J.; Honavar, V. Pruning strategies for the MTiling constructive learning algorithm. Proceedings of the IEEE/INNS

International Conference on Neural Networks (ACNN 1997), 3rd edition, pp. 1960-1965.

▪ Puma-Villanueva, W. J.; Von Zuben, F. J. Evolving arbitrarily connected feedforward neural neworks via genetic algorithms. Brazilian

Symposium on Artificial Neural Networks (SBRN), São Bernardo do Campo - SP, October 23-28, 2010.

▪ Puma-villanueva, W. J. Síntese automática de redes neurais artificiais com conexões à frente arbitrárias. Tese de Doutorado,

Faculdade de Engenharia Elétrica e de Computação, Unicamp, Dezembro, 2011.

▪ Puma-Villanueva, W. J.; dos Santos, E. P.; Von Zuben, F. J. A constructive algorithm to synthesize arbitrarily connected feedforward

neural networks. Neurocomputing, vol. 75, pp. 14-72, 2012.

• Weigend, A.S.; Mangeas, M. and Srivastava, A.N. "Nonlinear gated experts for time series: Discovering regimes and avoiding

overfitting", International Journal of Neural Systems, 6, pp. 373-399, 1995.

• Wilamowski, B. M., Cotton, N. J., Kaynak, O., Dundar, G. Computing gradient vector and Jacobian matrix in arbitrarily connected

neural networks. IEEE Transactions on Industrial Electronics, vol. 55, no. 10, pp. 3784- 3789, October 2008.

• Yao, X.; Liu, Y. A new evolutionary system for evolving artificial neural networks. IEEE Transactions on Neural Networks, vol. 8, no. 3,

pp. 694-713, 1997.


Documents

Redes neurais artificiais com arquiteturas arbitráriaslboccato/topico_8.2_redes_arquiteturas_a… · Redes neurais artificiais com arquiteturas arbitrárias Departamento de Engenharia