Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
INTRODUÇÃO À CALIBRAÇÃO INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADAMULTIVARIADA
APLICAÇÃO NO CONTROLE DE QUALIDADE APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOSDE FÁRMACOS
Prof. Dr. Marcelo Martins de Sena
MÓDULO 03
1Unidade Universitária de Ciências Exatas e Tecnológicas
UnUCET – Anápolis
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
2 MÓDULO 03
Análise de Análise de Componentes Componentes
Principais (PCA)Principais (PCA)• do inglês Principal Component(s) Analysis
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
3 Correlação• É comum a presença de correlação em
qualquer tipo de dados!
18 20 22 24 26 28 3075
76
77
78
79
80
81
82
83
84
Idade (meses)
Altu
ra (
cm)
• Exemplo: altura média vs. idade de um grupo de crianças pequenas
• Observa-se uma forte relação linear entre altura e idade.
• Para crianças pequenas, altura e idade estão correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
4 Correlação em espectroscopiaCorrelação em espectroscopia
200 210 220 230 240 250 260 270 280 290 3000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Comprimento de onda (nm)
Abs
orbâ
ncia
λ230• Exemplo: um composto puro émedido em dois comprimentos de onda para várias concentrações
λ265
0,332
0,498
0,664
0,831
0,166
Intensidade a 230nm
0,181
0,270
0,362
0,453
0,090
Intensidade a 265nm
15
20
25
Conc. (MMol)
5
10
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
5 Correlação em espectroscopiaCorrelação em espectroscopia
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Absorbância a 230nm (unidades)A
bsor
bânc
ia a
265
nm (
unid
ades
)
• As intensidades a λ230 e a λ265 são altamente correlacionadas.
Aumento da concentração
• Os dados não têm duas dimensões, mas apenas uma.
• Existe apenas um fatorgerando os dados: concentraconcentraççãoão.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
6 A matriz de dadosA matriz de dados
variáveis
• Dados podem ser representados na forma de uma matriz:
65,078,022,015,0
33,085,024,013,081,093,034,014,029,065,045,012,0
L
MOMMM
K
K
K
objetos
• Por exemplo,– Espectroscopia: amostra × comprimento de onda
– Processo contínuo: tempo × T, P, taxa de fluxo etc.– Análises ambientais:
amostras (em função do espaço ou do tempo) × variáveis
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
7 Matriz de DadosMatriz de Dados• Dados químicos multivariados (espectros)
podem ser arranjados na forma de uma tabela de dados.
Variáveis
Am
ostr
as Matriz de Dados X
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
8 Grandes quantidades de dadosGrandes quantidades de dados• Na análise química e de processos, as matrizes
de dados obtidas podem ser muito grandes.
– Um espectro de infravermelho medido para 50 amostras produz uma matriz de dados de dimensões 50 × 800 = 40.000 números!
– 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 × 100 = 144.000 números!!
• É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
9 Principal Component Analysis• Redução dos dados
– A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas.
• Exploração dos dados – A PCA extrai os fatores mais importantes (componentes principais
- CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados.
• Interpretação dos dados– As CPs podem ser usadas para classificar amostras, identificar
compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
10 Diferentes visões da PCADiferentes visões da PCA• Estatisticamente, a PCA é uma técnica de análise
multivariada relacionada com– Análise de autovetores/autovalores– Decomposição em valores singulares (SVD)
• Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E):X = TPT + E
• Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
11 PCA: matemáticaPCA: matemática• A equação básica para a PCA é escrita como
ondeX (I × J) é uma matriz de dados,T (I × R) são os escores,P (J × R) são os pesos (“loadings”) e
E (I × J) são os resíduos.
R é o número de CPs usados para descrever X.
ETPEptptptX
+=
+++=T
TT22
T11 ... RR
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
12 Componentes Principais (Componentes Principais (CPsCPs))• Uma CP é definida por um par de vetores pesos e
vetores escores: rr ,pt
• As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância
18,1 87,63
1,3 88,94
23,9 69,52
45,6 45,61
% de X explicada
% total de X explicada
CP.
e assim por diante... até 100%
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
13 PCA: matrizesPCA: matrizes
pesos
= +X ... +escores
componente principal
=
T
PT+ E
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
14 Escores & pesosEscores & pesos• Escores
– relações entre objetos– ortogonais, TTT = matriz diagonal
• Pesos– relações entre variáveis– ortonormais, PTP = matriz identidade, I
• Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
15 PCA: projeção simplesPCA: projeção simples• Caso mais simples : duas variáveis correlacionadas
18 20 22 24 26 28 3075
76
77
78
79
80
81
82
83
84
Idade (meses)
Altu
ra (
cm)
-8 -6 -4 -2 0 2 4 6 8-8
-6
-4
-2
0
2
4
6
8
Escores CP 1 (99,77%)
Esc
ores
CP
2 (
0,23
%)
gráfico de escores
PCA
CP1
CP2
• A CP1 descreve 99,77% da variação total em X.
• A CP2 descreve a variação residual (0,23%).
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
16 PCA: projeçõesPCA: projeções
• A PCA é uma técnica de projeção.• Cada linha de cada matriz de dados X (I × J) pode
ser considerada como um ponto no espaço J-dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade.
– No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha.
– Agora, nós iremos projetar dados de J dimensões em um espaço de duas dimensões, ou seja, um plano.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
17
= +•••••••••••••••
EPTX T +=
•
•
•••••••••••••••• •
••
• •••••••••••••••••••••••••••••••
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
18
B
x1
x2CP1
23
4
56
t1
t2
A
x1
x2
θ2
θ1
p1=cosθ1p2=cosθ2
+∞
-∞
CP: reta na direção de maior variação das amostras
(A) “pesos” são os ângulos do vetor direção(B) “escores” são as projeções nas amostras na direção de CP
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
19 Exemplo:Exemplo: Dados ProteínasDados Proteínas
• Foi estudado o consumo de proteínas na Europa.• 9 variáveis descrevem diferentes fontes de proteína.• Os 25 objetos são os diferentes países.• A matriz de dados tem as dimensões 25 × 9.
• Quais países são semelhantes?
• Quais alimentos estão correlacionados com o consumo de carne vermelha?
Weber, A., Agrarpolitik im Spannungsfeld der internationalenErnaehrungspolitik, Institut fuer Agrarpolitik und marktlehre, Kiel (1973) .
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
20
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
21 PCA nos dados de proteínasPCA nos dados de proteínas
• Os dados são centrados na média e cada variável é autoescalada para variância um. A PCA é então aplicada.
Variância Percentual Capturada pelo Modelo PCA
Número de Autovalor % Variância % VariânciaComponentes de Capturada CapturadaPrincipais Cov(X) por este CP Total--------- ---------- ---------- ----------
1 4,01e+000 44,52 44,522 1,63e+000 18,17 62,683 1,13e+000 12,53 75,224 9,55e-001 10,61 85,825 4,64e-001 5,15 90,986 3,25e-001 3,61 94,597 2,72e-001 3,02 97,618 1,16e-001 1,29 98,909 9,91e-002 1,10 100,00
Quantos componentes principais você quer escolher?4
1 2 3 4 5 6 7 8 90
0.5
1
1.5
2
2.5
3
3.5
4
4.5Autovalores vs. Número de CPs
Número de CPs
Aut
oval
ores
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
22
Escores: CP1 Escores: CP1 vsvs CP2CP2
-3 -2 -1 0 1 2 3 4-5
-4
-3
-2
-1
0
1
2
Escores CP 1 (44,52%)
Esc
ores
CP
2 (
18,1
7%)
Albania
Austria
Belgium
Bulgaria
Czechoslovakia
Denmark East Germany
Finland
France Greece
Hungary Ireland
Italy
Netherlands
Norway
Poland
Portugal
Romania
Spain
Sweden
Switzerland
UK USSR West Germany
Yugoslavia
PC 2
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
23
PesosPesos
White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6P
esos
CP
CP1CP2
Red meat
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
24
GráficosGráficos BivariadosBivariados ((BiplotsBiplots))
PERMITEM VISUALIZAR OS
ESCORES E OS PESOS
SIMULTANEAMENTE
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
25
BiplotBiplot: CP1 : CP1 vsvs CP2CP2
-5 -4 -3 -2 -1 0 1 2 3 4 5-5
-4
-3
-2
-1
0
1
2
CP 1
CP
2Albania
Austria
Belgium
Bulgaria
Czechoslovakia
Denmark East Germany
Finland
France Greece
Hungary Ireland
Italy
Netherlands
Norway
Poland
Portugal
Romania
Spain
Sweden
Switzerland
UK USSR West Germany
Yugoslavia
Red meat
White meat
Eggs
Milk
Fish
Cereals
Starch
Beans/nuts/oil
Fruit & veg
CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes.
Europeus do SE comem muito cereais
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
26
BiplotBiplot: CP1 : CP1 vsvs CP3CP3
-5 -4 -3 -2 -1 0 1 2 3 4 5-3
-2
-1
0
1
2
3
4
CP 1
CP
3
Albania
Austria
Belgium Bulgaria
Czechoslovakia
Denmark
East Germany
Finland
France
Greece
Hungary
Ireland Italy
Netherlands
Norway
Poland
Portugal Romania
Spain
Sweden
Switzerland
UK
USSR
West Germany
Yugoslavia
Red meat
White meat
Eggs
Milk
Fish
Cereals
Starch
Beans/nuts/oil
Fruit & veg
Escandinavos comem muito peixe!
Carne vermelha e leite estão correlacionados
Os holandeses gostam de batata…
...com maionese!?
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
27 ResíduosResíduos• Também é importante examinar os resíduos do
modelo, E.
1 2 3 4 5 6 7 8 9-1
-0.5
0
0.5
1
1.5
Número da variável
Var
iaçã
o R
esid
ual
• Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído).
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
28 ResíduosResíduos• Os resíduos (quadrados) do modelo podem ser
somados ao longo da direção dos objetos ou das variáveis:
0 5 10 15 20 250
0.5
1
1.5
2
2.5
3
3.5
Número do objeto
Q (
som
a do
s re
sídu
os q
uadr
ados
)
∑=
=J
jiji eQ
1
2
País 23 (URSS) se ajusta ao modelo de
maneira pior
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
29 PréPré--processamento dos dadosprocessamento dos dados• Na maioria das vezes, nós estamos interessados nas
diferenças entre os objetos, não nos seus valores absolutos.– Dados de proteínas : diferenças entre países– Dados ambientais : diferenças entre amostras de diferentes
locais ou em função do tempo
• Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo.– Dados ambientais: pH e [Mg] possuem escalas muito diferentes
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
30 Centrando os dados na médiaCentrando os dados na média
• Subtrair a média de cada coluna de X:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
107111,387,6105482,363,6118575,355,6102452,376,6
⎦⎣⎥⎥⎥⎥⎤
⎢⎢⎢⎢⎡
−−−−
−−−
3.129,350,1175,03,292550,0225,0
1016250,1025,02,595450,0075,0
Centrar
na média
=x6,525 1084036,75
=x0,0 0,00,0
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
31 AutoescalandoAutoescalando os dadosos dados
• Dividir cada coluna de X por seu desvio padrão:
=σ0,171 704,81,139
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−−−−
−−−
3,129350,1175,03,292550.0,225,0
1016250,1025,02,595450,0075,0
Escalamento
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−−−−
−−−
183,0186.1,025,1415,0483,0318,1443.1,098,1146.0,845,0395,0439,0
1,01,01,0=σ
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
32 Quantos CP’s usar?Quantos CP’s usar?
X = TPT + E
• Poucos CP’s:– alguma variação sistemática deixa de ser descrita.– O modelo não consegue descrever os dados completamente.
resíduo (ruído)
variação sistemática
• Muitos CP’s:– Os últimos CP’s descrevem apenas ruído.– O modelo não é robusto quando aplicado a novos dados.
• Como selecionar o número correto de CP’s?
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
33 Quantos CP’s usar?Quantos CP’s usar?
• Gráfico de Autovalores
• Selecionar os componentes quando % variância explicada > nível do ruído
• Interpretar os escores e os pesos das CP’s: Eles fazem sentido?! Os resíduos têm estrutura?
• Validação cruzada
1 2 3 4 5 6 7 8 90
0.5
1
1.5
2
2.5
3
3.5
4
4.5Eigenvalue vs. PC Number
Eig
enva
lue
‘Saliência’ aqui selecionar 4 CP’s
PC Number
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
34 Amostras anômalas (Amostras anômalas (OutliersOutliers))
• Outliers são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos.
1 1.5 2 2.5 3 3.5 4 4.54
6
8
10
12
14
16
18
pH
T (o C
)
1 1.5 2 2.5 3 3.5 4 4.54
6
8
10
12
14
16
18
pHT
(o C)
Remover “outlier”
Experimento
anômalo
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
35 Amostras anômalas (Amostras anômalas (OutliersOutliers))
• Outliers também podem ser encontrados no espaço do modelo ou nos resíduos.
-8 -6 -4 -2 0 2 4 6 8-8
-6
-4
-2
0
2
4
6
Escores CP 1
Esc
ores
CP
2
22 24 26 28 30 32 34 36 38 40 420
2
4
6
8
10
12
14
Tempo (min)
Som
a-do
s-qu
adra
dos
dos
resí
duos
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
36 Amostras anômalas (Amostras anômalas (OutliersOutliers))• Podem ser avaliadas através dos resíduos, Qi, e do
seu peso no modelo (estimado pelo valor de T2 de Hotelling, Ti
2).• Ti
2 é a soma dos escores ao quadrado e é uma medida da variação (da influência) de cada amostra dentro do modelo PCA.
Ti2 = tiλ-1ti
T
onde ti é o vetor escore da i-ésima amostra e λ-1 é o autovalor correspondente à CP.
• Intervalos de confiança podem ser estimados para os valores de Qi e Ti
2. Espera-se que as distribuições de Qi e Ti
2 sigam a normalidade (lembre-se do TLC).• Amostras com altos resíduos (mal modeladas) e
altos valores de T2 (alta influência no modelo) devem ser consideradas outliers.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
37
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
38 A extrapolação do modelo não é A extrapolação do modelo não é recomendávelrecomendável
0 5 10 15 20 25 300
50
100
150
200
250
300
Idade (anos)
Altu
ra (
cm)
…mas não é válido p/ a faixa de 30 anos!
O modelo linear foi válido para essa faixa de idade...
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
39 ConclusõesConclusões• A análise de componentes principais (PCA) reduz
grandes matrizes colineares a umas poucas matrizes de escores e de pesos:
ETPEptptptX
+=
+++=T
TT22
T11 ... RR
• Componentes Principais (CP’s)– descrevem a variação mais importante nos dados.– são calculados em ordem de importância.– são ortogonais.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
40 ConclusõesConclusões
• Gráficos de escores e “biplots” podem ser muito úteis para a exploração e o entendimento dos dados.
• Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise.
• A escolha do número correto de CP’s é um passo importante na construção de um modelo PCA.
Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena
41
Agradecimentos
Prof. Age K. Smilde
UNIVERSITY OF AMSTERDAM