47
Predição genômica de caracteres quantitativos por meio de Redes Neurais Artificias Isabela de Castro Sant’Anna Supervisor: Moysés Nascimento Laboratório de Inteligência Computacional LICAE Programa de Pòs graduaçāo em Estatística Aplicada e Biometria Universidade Federal de Viçosa

Predição genômica de caracteres quantitativos por meio de ... · Seleção Genômica (SG) Modelar a arquitetura das características de acordo com os dados utilizados para seu

  • Upload
    voxuyen

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Predição genômica de caracteres

quantitativos por meio de

Redes Neurais Artificias

Isabela de Castro Sant’Anna

Supervisor: Moysés Nascimento

Laboratório de Inteligência Computacional – LICAE

Programa de Pòs graduaçāo em Estatística Aplicada e Biometria

Universidade Federal de

Viçosa

Universidade Federal de

Viçosa

2

Sant’Anna et al.,

Introdução

3

Sant’Anna et al.,

Introdução

4

Qual é o papel do Melhorista de plantas nos dias de hoje?

Sant’Anna et al.,

Introdução

5

Caráter Quantitativo

F= G + A

G= A + D + E

VF= VG + VA

?

Sant’Anna et al.,

Introdução

6

Epistasia

Fisher (1918) Bateson (1909)

Sant’Anna et al.,

Introdução

7

Caráter Quantitativo

Sant’Anna et al.,

Introdução

8

Valor Genotípico ( dois locos A/a e B/b)

A/a = ij B/b = kl

Yijkl = (αi + αj + δij) + (αk + αl + δkl) + αα + αδ + δδ

αα = αiαk + αiαl + αjαk + αjαl (aditiva x aditiva)

αδ = αiδkl + αjδkl + αkδij + αlδij(aditiva x dominante)

δδ = δijδkl (dominante x dominante)

E= αα + αδ + δδ

Sant’Anna et al.,

Introdução

9

Seleção Genômica (SG)

Modelar a arquitetura das características de acordo

com os dados utilizados para seu treinamento.

Escolher um modelo de SG

Treinamento

Validação

Sant’Anna et al.,

Introdução

10

Inteligência Computacional

Inferir sobre a Arquitetura das características pelos

dados utilizados em seu treinamento.

Não há necessidade de atender pressuposições sobre

as distribuições dos dados e dos resíduos.

Introdução

11Sant’Anna et al.,

Adaptação por experiência

Capacidade de aprendizado

Habilidade de generalização

Suporta ruídos e perda de informações

Sant’Anna et al.,

Introdução

12

Que animal é este ???

Sant’Anna et al.,

Introdução

13

Sant’Anna et al.,

Introdução

14

Introdução

Sant’Anna et al., 15

Introdução

Sant’Anna, Silva et al. 16

Introdução

Sant’Anna, Silva et al. 17

Objetivo Geral

Sant’Anna et al., 18

Uso de seleção genômica (GS) e redes neurais

artificiais (RNA’s), para fins de predição de valores

genéticos.

Observar se as interações epistáticas podem

melhorar as estimativas de predição no contexto

genotípico e fenotípico.

Utilizar um método de redução de

dimensionalidade: Sonda e Stepwise.

Sant’Anna et al., 19

P1 P2

F1

50 locos controladores das características

𝑌𝑖 = 𝜇 + 𝑗=150 𝑝𝑗𝛼𝑗 + 𝐸𝑖

𝑌𝑖 = 𝜇 + 𝑗=1

50

𝑝𝑗𝛼𝑗 + 𝑗=1

49

𝑝𝑗𝛼𝑗 𝛼𝑗+1 + 𝐸𝑖

Material e Métodos

Sant’Anna et al., 20

𝑌𝑖 = 𝜇 + 𝑗=150 𝑝𝑗𝛼𝑗 + 𝐸𝑖

𝑌𝑖 = 𝜇 + 𝑗=1

50

𝑝𝑗𝛼𝑗 + 𝑗=1

49

𝑝𝑗𝛼𝑗 𝛼𝑗+1 + 𝐸𝑖

d=0

d=0.5

d=1

h2 =30

h2=60

h2 =30

h2=60

Cenários

d=0

d=0.5

d=1

Material e Métodos

Sant’Anna et al., 21

Cenários

Característica Herdabilidade (%) Modelo Gmd

V1 - D0H30_Ad 30 aditivo 0

V2 -D0.5H30_Ado 30 aditivo-dominante 0.5

V3- D1H30_Ado 30 aditivo-dominante 1

V4 - D0H30_Ep 30 epistático 0

V5 -D0.5H30_Ep 30 epistático 0.5

V6 -D1H30_Ep 30 epistático 1

V7 - D0H60_Ad 60 aditivo 0

V8 - D0.5H60_Ado 60 aditivo-dominante 0.5

V9 - D1H60_Ado 60 aditivo-dominante 1

V10 - D0H60_Ep 60 epistático 0

V11 -D0.5H60_Ep 60 epistático 0.5

V12 - D1H60_Ep 60 epistático 1

Tabela 1. Características avaliadas no estudo com seus respectivos valores de herdabilidade,

modelo adotado e grau médio de dominância (Gmd).

Material e Métodos

Sant’Anna et al., 22

Predição Genômica

Meuwissen et al. (2001) onde:

y = Xb + Za + e,

y é o vetor de observações fenotípicas,

b é o vetor de efeitos fixos,

a é o vetor dos efeitos aleatórios dos marcadores e

e refere-se ao vetor de erros aleatórios.

X e Z são as matrizes de incidência para b e a.

A estrutura de médias e variâncias no modelo em questão é definida como: a~ N (0,G),

E(y)=Xb, e ~N (0,R=I ), Var(y)=V=ZGZ’+ R.

G= I𝜎𝑔

𝑛

2

G 𝐸BVs = 𝑦j= 𝑖𝑛 𝑍𝑖𝑗 𝑎i

Material e Métodos

Sant’Anna et al.,

Capitulo 1

23

5

3

1

0 1 2CC AT TT

2

Sant’Anna et al., 24

Rede de Base Radial

Figura 1. Arquitetura e topologia de uma Rede Funções de Base Radial com número de

entradas igual a 1000, K neurônios na camada intermediária (variando de 1 a 200) e uma

saída (Yn) que envolvia 400 observações no processo de treinamento e 100 no processo de

validação.

Material e Métodos

Sant’Anna et al.,

Capitulo 1

25

Simulação dos dados genotípicos e fenotípicos

ryr,y2 =

Cov(yr, y)

σyr2 σy

2

2

REQM = (𝑦𝑟 – 𝑦)2

𝑛

Material e Métodos

Sant’Anna et al.,

Resultados

26

Modelos Cenários R² REQM

RR-BLUPd0h30 0.580 91.85

d0.5h300.540 118.405

d1h300.083 157.173

RNA-RBFd0h30 0.314 5.243

d0.5h30 0.3175.473

d1h30 0.25014.549

R² REQM

0.100 ± 0.02 97.353 ± 2.14

0.120± 0.07 122.647 ± 3.02

0.003 ± 0.01 267.593 ± 21.72

0.11 ± 0.03 5.89 ± 0.12

0.120 ± 0.06 6.17 ± 0.14

0.10 ± 0.01 16.78 ± 1.19

Validação Genotípica Validação Fenotipica

Sant’Anna et al.,

Resultados

27

Modelos Cenários R² REQM

RR-BLUPd0h30e

0.134 155.658

d0.5h30e0.195 221.138

d1h30e0.257 329.691

RNA-RBFd0h30e

0.317 14.475

d0.5h30e0.268 16.584

d1h30e0.282 20.785

R² REQM

0.01 ± 0.02 278.61 ± 23.91

0.02 ± 0.06 366.06 ± 19.67

0.06 ± 0.00 575.41 ± 23.59

0.03 ± 0.02 16.85 ± 1.17

0.05 ± 0.02 18.51 ± 0.54

0.06 ± 0.05 23.84 ± 1.65

Validação Genotípica Validação Fenotipica

Sant’Anna et al.,

Resultados

28

Modelos Cenários R² REQM

RR-BLUPd0h60 0.77 81.619

d0.5h600.71 108.537

d1h600.63 134.403

RNA-RBFd0h60

0.313.82

d0.5h600.25

4.029

d1h600.61 4.271

R² REQM

0.362 ± 0.07 85.764 ± 2.92

0.30 ± 0.07 111.50 ± 3.87

0.19 ± 0.05 137.09 ± 3.89

0.38 ± 0.08 4.52 ± 0.12

0.34 ± 0.07 4.67 ± 0.19

0.18 ± 0.04 5.40 ± 0.16

Validação Genotípica Validação Fenotípica

Sant’Anna et al.,

Resultados

29

Modelos Cenários R² REQM

RR-BLUPd0h60e 0.314 148.638

d0.5h60e 0.363 209.792

d1h60e 0.464 335.007

RNA-RBFd0h60e 0.561 10.735

d0.5h60e 0.564 12.394

d1h60e 0.561 15.306

R² REQM

0.01 ± 0.02 278.61 ± 23.91

0.02 ± 0.06 366.06 ± 19.67

0.06 ± 0.00 575.41 ± 23.59

0.03 ± 0.02 16.85 ± 1.17

0.05 ± 0.02 18.51 ± 0.54

0.06 ± 0.05 23.84 ± 1.65

Validação Genotípica Validação Fenotipica

Sant’Anna et al.,

Conclusões Parte 1

30

Os modelos RNA-RBF se igualam ou superam um

modelo aditivo linear, RR-BLUP, na predição de valores

genéticos totais de caracteres quantitativos usando

marcadores SNP.

Número grande de marcadores, a demanda

computacional no RNA-RBF é intensiva sugerindo a

utilização de uma seleção de variáveis para melhoria do

processo preditivo.

Sant’Anna et al.,

PARTE 2

31

Utilização de métodos de Redução da

Dimensionalidade

Stepwise;

Sonda;

Métodos : RR-BLUP e RNA: RBF E MLP;

Estatístico;

Genético.

Sant’Anna et al., 32

Estatística utilizada para estudo da redução da dimensionalidade em modelo de

regressão Stepwise considerando uma variável resposta no cenário mais complexo e

um conjunto de 1000 marcadores moleculares.

Sant’Anna et al., 33

Estatística utilizada para estudo da redução da dimensionalidade em modelo de Sondas

considerando uma variável resposta no cenário mais complexo e um conjunto de 1000

marcadores moleculares.

Sant’Anna et al., 34

Rede de Base Radial

Arquitetura e topologia de uma Rede Funções de Base Radial com número de entradas igual a

100, K neurônios na camada intermediária (variando de 1 a 200) e uma saída (Yn) que

envolvia 400 observações no processo de treinamento e 100 no processo de validação.

Sant’Anna et al., 35

Estrutura da RNA

Backpropagation

Camadas 1 a 3;

Funções de ativação:Tansig, Logsig;

(M1) a (M100) Marcadores utilizados na camada de entrada. As camadas ocultas foram

compostas por ni (ni variando de 1 a 3 neurônios), com funções de ativação tansig ou

logsig. Na camada de saída, a RNA retornou o valor genético ou fenotípico predito.

Perceptron Multiplas Camadas

Sant’Anna et al., 36

Predição Genômica

Sondagem, iguais a 100.

RaioAlgoritmo de treinamentoExemplos!!!!

Sant’Anna et al.,

Resultados

37

R² REQMv

CENÁRIOS 1000 100 SW 100S 1000 100 SW 100 S

D0H30_Ad 0.03 ± 0.12 0.57 ± 0.03 0.24 ± 0.05 5.89 ± 0.1 4.9 ± 0.1 5.6 ± 0.2

D0H30_Ep 0.03 ± 0.00 0.47 ± 0.07 0.23 ± 0.03 16.85 ± 1.2 14.2 ± 0.6 15.6 ± 0.6

D0H60_Ad 0.38 ± 0.08 0.79 ± 0.03 0.52 ± 0.08 4.52 ± 0.1 3.5 ± 0.1 4.2 ± 0.1

D0H60_Ep 0.06 ± 0.03 0.58 ± 0.05 0.31 ± 0.06 13.55 ± 0.3 11.1 ± 0.3 12.6 ± 0.3

RBF

RRBLUP

R² REQMv

D0H30_Ad 0.19 ± 0.02 0.57 ± 0.03 0.27 ± 0.05 97 ± 2 90 ± 0 37 ± 4

D0H30_Ep 0.01 ± 0.01 0.42 ± 0.05 0.22 ± 0.04 278 ± 24 443 ± 48 244 ± 27

D0H60_Ad 0.36 ± 0.07 0.79 ± 0.03 0.56 ± 0.09 86 ± 3 71 ± 1 48 ± 3

D0H60_Ep 0.03 ± 0.05 0.57 ± 0.04 0.32 ± 0.08 197 ± 13 320 ± 36 154 ± 5

Sant’Anna et al.,

Resultados

38

R² REQM

CENARIOS MLP RBF RR-BLUP RBF MLP RR-BLUP

D0H30_Ad 0.59 ± 0.02 0.57± 0.03 0.57± 0.03 4.8± 0.1 4.9 ± 0.0 90.3 ± 0.0

D0.5H30_Ad 0.59 ± 0.03 0.59 ± 0.04 0.58 ± 0.05 5.0 ± 0.1 5.0 ± 0.1 138.2± 3.7

D1H30_Ad 0.56 ± 0.07 0.52 ± 0.07 0.54 ± 0.06 13.2 ± 0.2 13.5 ± 0.3 291.6 ± 17.7

D0H30_Ep 0.45 ± 0.05 0.47 ± 0.07 0.42 ± 0.05 14.2 ± 0.4 14.2 ± 0.5 442.6 ± 48.1

D0.5H30_Ep 0.58 ± 0.05 0.54 ± 0.04 0.54 ± 0.06 15.2 ± 0.2 15.5 ± 0.2 249.4 ± 18.9

D1H30_Ep 0.50 ± 0.05 0.44 ± 0.05 0.41 ± 0.04 19.9 ± 0.5 20.7 ± 0.2 427.9 ± 40.6

Sant’Anna et al.,

Resultados

39

D0H60_Ad 0.79 ± 0.03 0.78 ± 0.03 0.79 ± 0.03 3.4 ± 0.13 3.5 ± 0.06 71.4 ± 1

D0.5H60_Ad 0.74 ± 0.04 0.74 ± 0.03 0.73 ± 0.03 3.7 ± 0.11 3.7 ± 0.05 107.4 ± 1

D1H30_Ad 0.64 ± 0.02 0.59 ± 0.04 0.64 ± 0.01 4.4 ± 0.07 4.5 ± 0.15 145.9 ± 5

D0H60_Ep 0.58 ± 0.05 0.59 ± 0.03 0.57 ± 0.04 11.1 ± 0.28 10.9 ± 0.29 320.1 ± 36

D0.5H60_Ep 0.62 ± 0.04 0.60 ± 0.06 0.59 ± 0.05 12.4 ± 0.45 12.5 ± 0.55 280.9 ± 29

VD1H60_Ep 0.58 ± 0.08 0.59 ± 0.08 0.58 ± 0.09 15.7 ± 0.72 15.6 ± 0.55 473.8 ± 22

R² REQM

CENARIOS RBF MLP RR-BLUP RBF MLP RR-BLUP

Sant’Anna et al.,

Considerações Finais

40

As redes neurais do tipo Perceptron de múltiplas

camadas ou a rede de base radial (RBF-RNA) são

igualmente recomendáveis para a predição do valor

genético (efeitos da epistasia e dominância).

Reduzir o número de variáveis explicativas resolve

os problemas de multicolinearidade e de

dimensionalidade, sem que haja perda de

informações genéticas relevantes.

Sant’Anna et al.,

Como aprender?

41

BIO748

Sant’Anna et al., 42

nnetNeural netRSNNS

Neural Network Toolbox

TensorFlowKerasscikit-learn

Referências Bibliográficas

[1] HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical

Learning: Data Mining, Inference, and Prediction. 2ª ed. Nova York: Springer,

2009. 745p.

[2] HAYKIN, S. Redes Neurais – Princípios e Práticas. 2ª ed. Porto Alegre:

Bookman, 2009. 900p.

43Sant’Anna et al.

Sant’Anna et al., 44

45

Obrigada!!!

DÚVIDAS?

Duvidas!!!