3oKnwledge Day-Off
26/11/2010
TA B L E P A R T N E R S
o
ProbabilidadeCondicional e
Causalidade
Tempo
AGENDA
© 2010 TABLE PARTNERS. Reprodução proibida. 1
Como lidamos com incerteza e
probabilidade na TablePartners
atualmente?
O Q U E
FA Z E M O S H O J E
Porque temos que lidar com incerteza
e probabilidade no nosso trabalho?
C O N D I Ç Õ E S D E
C O N T O R N O
Probabilidades condicionais,
inferências Bayesianas e redes
O Q U E J Á P O D E M O S
FA Z E R D I F E R E N T E
Descoberta de causalidade a partir de
correlação
O Q U E E M B R E V E
P O D E R E M O S FA Z E R1 4
2 3
Tempo
AGENDA
© 2010 TABLE PARTNERS. Reprodução proibida. 2
Porque temos que lidar com incerteza
e probabilidade no nosso trabalho?
C O N D I Ç Õ E S D E
C O N T O R N O1
A maior parte do trabalho do consultor baseia-se em
raciocínios indutivos
© 2010 TABLE PARTNERS. Reprodução proibida. 3
R AC I O C Í N I O I N D U T I V O
A B
B1 B2A1 A2
Conclusão
Argumentos
C
A3 B3 C1 C2 C3
Sustentação dos argumentos
Prós
Facilita a absorção dos principais
pontos
Dá maior estabilidade às
recomendações (se um
argumento “cai”, a conclusão
pode não se invalidar)
Contras
Pode ser considerado impositivo
por alguns clientes se usado em
excesso
É inválido logicamente... !
A invalidez formal da indução impõe algumas
condições de contorno ao nosso trabalho
Sempre podemos estar errados; sempre há incertezas – nós precisamos saber
disso e o cliente também
Devemos sempre identificar as principais fontes de incertezas e as “aberturas
por onde passarão os hunos”
Sempre que possível, devemos modelar “monte-carlicamente” nossos números
e/ou trabalhar com cenários, pontos de decisão/inflexão, milestones, etc.
O tempo todo devemos nos perguntar “o que refutaria essa conclusão” (“o que
o Diabo vai dizer, se estiver na sala”) – nosso esforço não é apenas de
acumular evidências para “provar” o nosso ponto, mas também para desprová-
lo
Sempre devemos ser humildes (a verdade é que nós não sabemos... e, Table
Partners, esta pode/deve ser a nossa força!)
4© 2010 TABLE PARTNERS. Reprodução proibida.
Tempo
AGENDA
© 2010 TABLE PARTNERS. Reprodução proibida. 5
Como lidamos com incerteza e
probabilidade na TablePartners
atualmente?
O Q U E
FA Z E M O S H O J E2
Utilizamos árvores de decisão dinâmicas (usando
Excelcius), para que o cliente participe da decisão
© 2010 TABLE PARTNERS. Reprodução proibida. 6
faz X
Newco
Cenário A
Cenário B
Cenário A
Cenário A
Cenário A
Cenário B
Cliente
Quando o cliente é mais tecnificado, utilizamos
simulação de Monte Carlo
© 2010 TABLE PARTNERS. Reprodução proibida. 7
Fontes de Incerteza
Já dominamos a linguagem da incerteza, mas ainda
podemos avançar
A probabilidade, linguagem da incerteza, já está no nosso sangue
Ou fazemos análises de cenários com “bestguesses” das
variáveis incertas – tendo um resultado determinístico, mas com
uma probabilidade implícita
Ou realizamos simulações como no Monte Carlo e obtemos
resultados puramente probabilísticos, dando ao cliente uma visão
explícita das incertezas envolvidas
Entretanto, ainda temos pouco conhecimento das ferramentas da
probabilidade condicional, que serão introduzidas a seguir
© 2010 TABLE PARTNERS. Reprodução proibida. 8
Tempo
AGENDA
© 2010 TABLE PARTNERS. Reprodução proibida. 9
Probabilidades condicionais,
inferências Bayesianas e redes
O Q U E J Á P O D E M O S
FA Z E R D I F E R E N T E3
© 2010 TABLE PARTNERS. Reprodução proibida. 10
Numa sala com 70 pessoas, qual a probabilidade de
que pelo menos duas tenham o mesmo aniversário?
O PROBLEMA DO ANIVERSÁRIO
( A ) 81 ( B ) 23 ( C ) 175
Quantas pessoas é preciso ter em uma sala, para que
se tenha 50% de probabilidade de duas fazerem anos
no mesmo dia?
( A ) 99 ,92%( B )
19 ,2%( C ) 9 ,6%
© 2010 TABLE PARTNERS. Reprodução proibida. 11
Numa sala com 70 pessoas, qual a probabilidade de
que pelo menos duas tenham o mesmo aniversário?
O PROBLEMA DO ANIVERSÁRIO
( B ) 23
Quantas pessoas é preciso ter em uma sala, para que
se tenha 50% de probabilidade de duas fazerem anos
no mesmo dia?
( A ) 99 ,92%
O ser humano é naturalmente despreparado para cálculo probabilístico condicional – nosso
mecanismo de estimativa falha sistematicamente
© 2010 TABLE PARTNERS. Reprodução proibida. 12
Num grupo de n indivíduos, qual a probabilidade de
que pelo menos dois tenham o mesmo aniversário?
oaniversári mesmo o tempessoas duas menos pelo A
oaniversári mesmo o temninguém A
365
)1(365.
365
)2(365...
365
364.
365
365)(
nnAP
1
0 365
365)(
n
i
iAP
1
0 365
3651)(
n
i
iAP
A “simples” combinatória, na
verdade, é um conjunto de
probabilidades condicionais
O PROBLEMA DO ANIVERSÁRIO
O problema do teste imperfeito
© 2010 TABLE PARTNERS. Reprodução proibida. 13
Caro Fulano,
Recentemente, você foi ao nosso laboratório fazer um teste
para a doença XPTO, que atinge uma pessoa a cada dez mil.
Lamentamos informar que nosso exame, que tem uma
eficiência simétrica de 99% – isto é, tem 1% de falso positivo e
1% de falso negativo – apontou um resultado positivo.
CARTA DO LABORATÓRIO
Qual a probabilidade de você estar realmente doente?
( A ) 1% ( B ) 48% ( C ) 97%
O Teorema de Bayes baseia-se nas leis da
probabilidade condicional
© 2010 TABLE PARTNERS. Reprodução proibida. 14
T E O R E M A D E B AY E S ( T H O M AS B AY E S , 1 7 6 3 )
R E L E M B R AN D O : P R O B AB I L I D A D E S C O N D I C I O N AI S
B dado A, de adeProbabilid )|( BAP
A)P(B, P(B,A)P(B)
P(B|A)P(A)P(A,B)A)A)P(P(B|) P(B|A)P(AP(B)
B de Negação B
)(
)()|(
BP
APABPP(A|B)P(A|B)P(B)P(B|A)P(A)P(A,B)
Teorema de Bayes: Ferramenta para calcular
a probabilidade de que alguma hipótese A seja verdadeira,
a partir da observação ou evidência B
)()|()()|(
)()|()|(
APABPAPABP
APABPBAP
Seja D = Estar Doente, E = Exame dar Positivo
• P(D) = 1/10.000 = 0,01% P(¬D) = 99,99%
• P(E|D) = 99% P(E|¬D) = 1%
• P(¬E|D) = 99% P(¬E|¬D) = 1%
Queremos descobrir P(D|E):
O problema do teste imperfeito
© 2010 TABLE PARTNERS. Reprodução proibida. 15
)()|()()|(
)()|(
)(
)()|()|(
DPDEPDPDEP
DPDEP
EP
DPDEPEDP
%98,0%99,99%.1%01,0%.99
%01,0%.99)|( EDP 0,98%
O problema do teste imperfeito
© 2010 TABLE PARTNERS. Reprodução proibida. 16
Caro Fulano,
Recentemente, você foi ao nosso laboratório fazer um teste
para a doença XPTO, que atinge uma pessoa a cada dez mil.
Lamentamos informar que nosso exame, que tem uma
eficiência simétrica de 99% – isto é, tem 1% de falso positivo e
1% de falso negativo – apontou um resultado positivo.
CARTA DO LABORATÓRIO
Qual a probabilidade de você estar realmente doente?
( A ) 1% ( B ) 48% ( C ) 97%
Porta dos Desesperados: qual estratégia maximiza a
chance de ganhar os brinquedos?
© 2010 TABLE PARTNERS. Reprodução proibida. 17
Porta dos Desesperados: qual estratégia maximiza a
chance de ganhar os brinquedos?
© 2010 TABLE PARTNERS. Reprodução proibida. 18
No quadro do programa do Sérgio Mallandro, há três
portas. Atrás de uma delas, brinquedos. Atrás das duas
outras, um monstro.
Após a criança escolher uma porta, Sérgio Mallandro
abre uma das outras duas, revelando um monstro, e
pergunta: “Você quer trocar de porta?!”
Qual a melhor estratégia? Trocar ou manter a porta?
O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S
( M O N T Y H A L L P R O B L E M )
Vai trocar a
porta? Rá!!
Porta dos Desesperados: qual estratégia maximiza a
chance de ganhar os brinquedos?
© 2010 TABLE PARTNERS. Reprodução proibida. 19
O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S
( M O N T Y H A L L P R O B L E M )
Sejam P1, P2 e P3 as situações em que os brinquedos
estão nas portas 1, 2 e 3, respectivamente.
Assumindo que a porta dos brinquedos foi escolhida
aleatoriamente, P(P1) = P(P2) = P(P3) = ⅓
Vamos supor que a criança escolheu a porta 1 (C1), e
chamemos de S2 o ato do Mallandro abrir
posteriormente a porta 2. Se os brinquedos estiverem
• Na porta 1, P(S2|C1,P1) = ½
• Na porta 2, P(S2|C1,P2) = 0
• Na porta 3, P(S2|C1,P3) = 1
Importante: sem ter evidências da porta escolhida pela
criança e de onde estão os brinquedos, o Mallandro
abre qualquer uma das duas portas: P(S2) = ½
Porta dos Desesperados: qual estratégia maximiza a
chance de ganhar os brinquedos?
© 2010 TABLE PARTNERS. Reprodução proibida. 20
O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S
( M O N T Y H A L L P R O B L E M )
• P(P1) = P(P2) = P(P3) = ⅓
• P(S2) = ½
• A criança escolheu a porta 1. S2 = o ato do Mallandro abrir a porta 2
• Se os brinquedos estiverem
- Na porta 1, P(S2|C1,P1) = ½
- Na porta 2, P(S2|C1,P2) = 0
- Na porta 3, P(S2|C1,P3) = 1
3
1
21
31.
21
)(
)()|()|(
2
11221
SP
PPPSPSPP
0
21
31.0
)(
)()|()|(
2
22222
SP
PPPSPSPP
32
21
31.1
)(
)()|()|(
2
33223
SP
PPPSPSPP
Trocar de porta é
a melhor
estratégia !
Como diria o JN: Legal, Guri...mas e no contexto da
TP, você tem algum exemplo?!
© 2010 TABLE PARTNERS. Reprodução proibida. 21
Suponha que um analista esteja interessado em estimar
o marketshare (S) de sua empresa.
Ele resolveu entrevistar 10 experts do mercado,
chegando numa estimativa inicial de 34% a partir da
média dos resultados.
E S T I M AT I VA D E M AR K E TS H AR E
MarketShar
e (S)Expert 1 Expert 2 ... Expert 9 Expert 10 P(S)
Estimativa
inicial
10% 20% 20% -- 5% 10% 15%
34%
20% 30% 25% -- 10% 15% 19%
30% 25% 20% -- 15% 20% 20%
40% 15% 15% -- 20% 25% 19%
50% 5% 10% -- 25% 30% 17%
60% 5% 10% -- 25% 0% 12%
E S T I M AT I VAS D O S E X P E R T S ( A P R I O R I )
Como diria o JN: Legal, Guri...mas e no contexto da
TP, você tem algum exemplo?!
© 2010 TABLE PARTNERS. Reprodução proibida. 22
Suponha que o analista faça um levantamento rápido
com um grupo randômico de 20 pessoas, e 4 delas
usem o produto da sua empresa.
Ou seja, considerando uma distribuição binomial, temos
x=4 sucessos em n=20 tentativas. Podemos utilizar
essas informações (evidências) para atualizar nosso
grau de crença no marketshare.
E S T I M AT I VA D E M AR K E TS H AR E
Como diria o JN: Legal, Guri...mas e no contexto da
TP, você tem algum exemplo?!
© 2010 TABLE PARTNERS. Reprodução proibida. 23
Suponha que o analista faça um levantamento rápido
com um grupo randômico de 20 pessoas, e 4 delas
usem o produto da sua empresa.
Ou seja, considerando uma distribuição binomial, temos
x=4 sucessos em n=20 tentativas. Podemos utilizar
essas informações (evidências) para atualizar nosso
grau de crença no marketshare.
E S T I M AT I VA D E M AR K E TS H AR E
MarketShare
(S)P(S) P(x|S) P(S)P(x|S) P(S|x)
10% 15% 9% 1% 15%
20% 19% 22% 4% 47%
30% 20% 13% 3% 29%
40% 19% 4% 1% 8%
50% 17% 0% 0% 1%
60% 12% 0% 0% 0%
P R O B AB I L I D A D E S A P R I O R I E P O S T E R I O R I
A probabilidade
do MarketShare
estar entre 20 e
30% é de 76%
A grande vantagem é poder atualizar nossas
estimativas à medida que temos novos dados
© 2010 TABLE PARTNERS. Reprodução proibida. 24
Suponha que o analista faça um novo levantamento
com um grupo randômico de 16 pessoas, e 3 delas
usem o produto da sua empresa.
Ou seja, considerando uma distribuição binomial, temos
x=3 sucessos em n=16 tentativas. Podemos utilizar
essas informações (evidências) para atualizar nosso
grau de crença na distribuição do marketshare.
MarketShare
(S)
P(S) [ antes
P(S|x) ]P(x|S) P(S)P(x|S) P(S|x)
10% 15% 14% 2% 12%
20% 47% 25% 12% 63%
30% 29% 15% 4% 24%
40% 8% 5% 0% 2%
50% 1% 1% 0% 0%
60% 0% 0% 0% 0%
P R O B AB I L I D A D E S A P R I O R I E P O S T E R I O R I
A nova
probabilidade do
MarketShare
estar entre 20 e
30% é de 86%
E S T I M AT I VA D E M AR K E TS H AR E
O Paradoxo de Simpson é um alerta ao uso naif de
estatística, sem reflexão sobre causa e efeito
© 2010 TABLE PARTNERS. Reprodução proibida. 25
Sexo Candidatos % Aprovação
Masculino 8.442 44%
Feminino 4.321 35%
R E S U LTAD O S D A A D M I S S Ã O PAR A B E R K E L E Y
( 1 9 7 3 , P O R S E X O )
Berkley discrimina mulheres no processo de admissão?
Mulheres são menos preparadas?
O Paradoxo de Simpson é um alerta sobre os riscos
da inferência estatística simplista
DepartmentoMasculino Feminino
Candidatos % Aprovação Candidatos % Aprovação
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%
© 2010 TABLE PARTNERS. Reprodução proibida. 26
Sexo Candidatos % Aprovação
Masculino 8.442 44%
Feminino 4.321 35%
R E S U LTAD O S D A A D M I S S Ã O PAR A B E R K E L E Y
( 1 9 7 3 , P O R S E X O )
R E S U LTAD O S D A A D M I S S Ã O D E B E R K E L E Y
( 1 9 7 3 , P O R S E X O E D E PA R TA M E N T O )
Ele torna-se ainda mais relevante quando há relações
causais envolvidas
Tratamento Recuperados ¬Recuperados Total % Recuperação
Droga 18 12 30 60%
Placebo 7 3 10 70%
Total 25 15 40 --
© 2010 TABLE PARTNERS. Reprodução proibida. 27
R E S U LTAD O S D E T R ATA M E N T O C O M D R O G A
( M A S C U L I N O )
Tratamento Recuperados ¬Recuperados Total % Recuperação
Droga 2 8 10 20%
Placebo 9 21 30 30%
Total 11 29 40 --
( F E M I N I N O )
Placebo > Droga
Placebo > Droga
Ele torna-se ainda mais relevante quando há relações
causais envolvidas
Tratamento Recuperados ¬Recuperados Total % Recuperação
Droga 18 12 30 60%
Placebo 7 3 10 70%
Total 25 15 40 --
© 2010 TABLE PARTNERS. Reprodução proibida. 28
R E S U LTAD O S D E T R ATA M E N T O C O M D R O G A
( M A S C U L I N O )
Tratamento Recuperados ¬Recuperados Total % Recuperação
Droga 2 8 10 20%
Placebo 9 21 30 30%
Total 11 29 40 --
( F E M I N I N O )
Tratamento Recuperados ¬Recuperados Total % Recuperação
Droga 20 20 40 50%
Placebo 16 24 40 40%
Total 36 44 80 --
( T O TA L )
Placebo > Droga
Placebo > Droga
Droga > Placebo
! ! !
A estrutura causal do problema tem implicação direta
na forma como devemos analisar os dados
© 2010 TABLE PARTNERS. Reprodução proibida. 29
T
S
R
Sexo
Tratamento Recuperação
E S T R U T U R A C AU S AL D O P R O B L E M A
Como S é uma causa comum de T e R,
precisamos analisar separadamente os
resultados de homens e mulheres para
blindar o efeito de S sobre R
E S E M U D AR M O S U M P O U C O A E S T R U T U R A?
Devemos analisar os resultados
agregados, pois se condicionarmos
em P, bloquearemos a influência
causal de T em R via PT
P
R
Pressão
Tratamento Recuperação
Vejamos um exemplo real de cliente
© 2010 TABLE PARTNERS. Reprodução proibida. 30
Tipos de
transação
Impacto de “A”
na margem oper.
Inadimplência
por tipo de
transação
BU 2BU 1
+ US$ 1,34 / un.(20% increase)
+ US$ 1,12 / un.(15% increase)
A N Á L I S E D O B E N E F Í C I O D E U M A AÇ Ã O “ A ”
Financiada
A vista
Financiada
A vista
Financiada
A vista
Financiada
A vista 0%
0%
Retenção
A diferença entre as margens é um típico exemplo de
Paradoxo de Simpson
© 2010 TABLE PARTNERS. Reprodução proibida. 31
Tipo de TransaçãoMargens (US$/un.)
A prazo À vista Total
A Vista 8,68 3,76 7,23
Financiada 9,17 5,60 5,89
M AR G E N S E V O L U M E S P O R T I P O S D E T R AN S AÇ Ã O E P R AZ O
Tipo de TransaçãoVolumes (milhões un.)
A prazo À vista Total
A Vista 0,59 0,24 0,83
Financiada 0,29 3,29 3,58
A estrutura causal pode ter minado a qualidade do
nosso trabalho
© 2010 TABLE PARTNERS. Reprodução proibida. 32
P
T
M
Transação
Prazo Margens
S E E S TA F O R A E S T R U T U R A C AU S AL , E S TAM O S B E M
Devemos analisar a última coluna, pois
se analisarmos separadamente por P,
bloquearemos a influência de T sobre
M via P
P
T
M
Transação
Prazo Margens
S E F O R E S TA . . . H O U S TO N , W E ´ V E G O T A P R O B L E M . . .
Devemos analisar as colunas de P
separadamente para blindar seu efeito
em M, visto que é o efeito de T em M
que queremos avaliar
E agora, como proceder?
Experts com “conhecimento de causa”
problema podem afirmar se as
hipóteses causais são válidas
Já procedemos dessa maneira
inconscientemente no nosso cotidiano
© 2010 TABLE PARTNERS. Reprodução proibida. 33
Possíveis
Soluções
Estão sendo desenvolvidos algoritmos
que identificam causalidade em
alguns padrões de correlação
A disponibilidade de softwares para
executar esses processos
automaticamente ainda é pobre
Esses algoritmos podem ser
combinados com conhecimento
expert
R E AS O N I N G A L G O R I T M O S
Tostines vende mais porque é mais fresquinho ou é
mais fresquinho porque vende mais?!
Nosso trabalho tem uma relação íntima com as “estruturas causais” dos
problemas – cada vez mais complexos – dos clientes
Infelizmente, nosso poderio para inferências causais é limitado. Há duas
justificativas legítimas para essa situação...
Os algoritmos de tradução de correlação para causalidade não se
adequam a todas a situações
A implementação em software desse algoritmos ainda está em curso
...mas é importante que saibamos da existência desse movimento. Muito em
breve ele terá ferramentas poderosas – como ocorreu com Monte Carlo – e
ser early-adopterserá um diferencial para a TablePartners
© 2010 TABLE PARTNERS. Reprodução proibida. 34
Tempo
AGENDA
© 2010 TABLE PARTNERS. Reprodução proibida. 35
Descoberta de causalidade a partir de
correlação
O Q U E E M B R E V E
P O D E R E M O S FA Z E R4
As redes são uma ferramenta poderosa para fazer
inferências com muitas variáveis
© 2010 TABLE PARTNERS. Reprodução proibida. 36
X1
X3 X2
X4
X5
Representação compacta da distribuição
conjunta de probabilidade, feita a mão ou por
data mining + algoritmos de aprendizado ou uma
combinação dos dois
As redes são grafos direcionados acíclicos
Vértices representam variáveis de interesse
Arcos representam dependências causais ou
correlacionais entre as variáveis
As variáveis são discretas ou contínuas
As relações entre variáveis podem ser
Bayesianas: puramente probabilísticas
Estruturais/Funcionais: funções
determinísticas
E X E M P L O D E R E D E D E F I N I Ç Õ E S B Á S I C AS
X6
Vamos à prática
© 2010 TABLE PARTNERS. Reprodução proibida. 37
A TablePartners foi contratada pelo prefeito de Jacareí – motor do Brasil – para
resolver o problema de cortes de luz na cidade.
Ele explicou que o sistema de energia da cidade é composto de dois conjuntos
usina-linha de transmissão independentes, com capacidade de 130MW cada:
• As usinas estão indisponíveis 10% do tempo
• As linhas de transmissão ficam indisponíveis, no inverno, durante 1% do
tempo
Nas suas primeiras análises, você conclui que a demanda varia de acordo com
uma normal de desvio padrão 30MW e média de:
• 150MW no inverno
• 50MW no verão
• 100MW na primavera e outono
O prefeito quer uma indisponibilidade de apenas 2%. E agora, qual a melhor
maneira de resolver o problema?
O P R O B L E M A D A E N E R G I A E M J AC AR E Í