treinamento causalidade

38
3 o Knwledge Day-Off 26/11/2010 TA B L E P A R T N E R S o ProbabilidadeCondicional e Causalidade

Upload: table-partners

Post on 01-Jul-2015

587 views

Category:

Business


1 download

DESCRIPTION

Treinamento interno da TABLE PARTNERS sobre análise de causalidade

TRANSCRIPT

Page 1: Treinamento Causalidade

3oKnwledge Day-Off

26/11/2010

TA B L E P A R T N E R S

o

ProbabilidadeCondicional e

Causalidade

Page 2: Treinamento Causalidade

Tempo

AGENDA

© 2010 TABLE PARTNERS. Reprodução proibida. 1

Como lidamos com incerteza e

probabilidade na TablePartners

atualmente?

O Q U E

FA Z E M O S H O J E

Porque temos que lidar com incerteza

e probabilidade no nosso trabalho?

C O N D I Ç Õ E S D E

C O N T O R N O

Probabilidades condicionais,

inferências Bayesianas e redes

O Q U E J Á P O D E M O S

FA Z E R D I F E R E N T E

Descoberta de causalidade a partir de

correlação

O Q U E E M B R E V E

P O D E R E M O S FA Z E R1 4

2 3

Page 3: Treinamento Causalidade

Tempo

AGENDA

© 2010 TABLE PARTNERS. Reprodução proibida. 2

Porque temos que lidar com incerteza

e probabilidade no nosso trabalho?

C O N D I Ç Õ E S D E

C O N T O R N O1

Page 4: Treinamento Causalidade

A maior parte do trabalho do consultor baseia-se em

raciocínios indutivos

© 2010 TABLE PARTNERS. Reprodução proibida. 3

R AC I O C Í N I O I N D U T I V O

A B

B1 B2A1 A2

Conclusão

Argumentos

C

A3 B3 C1 C2 C3

Sustentação dos argumentos

Prós

Facilita a absorção dos principais

pontos

Dá maior estabilidade às

recomendações (se um

argumento “cai”, a conclusão

pode não se invalidar)

Contras

Pode ser considerado impositivo

por alguns clientes se usado em

excesso

É inválido logicamente... !

Page 5: Treinamento Causalidade

A invalidez formal da indução impõe algumas

condições de contorno ao nosso trabalho

Sempre podemos estar errados; sempre há incertezas – nós precisamos saber

disso e o cliente também

Devemos sempre identificar as principais fontes de incertezas e as “aberturas

por onde passarão os hunos”

Sempre que possível, devemos modelar “monte-carlicamente” nossos números

e/ou trabalhar com cenários, pontos de decisão/inflexão, milestones, etc.

O tempo todo devemos nos perguntar “o que refutaria essa conclusão” (“o que

o Diabo vai dizer, se estiver na sala”) – nosso esforço não é apenas de

acumular evidências para “provar” o nosso ponto, mas também para desprová-

lo

Sempre devemos ser humildes (a verdade é que nós não sabemos... e, Table

Partners, esta pode/deve ser a nossa força!)

4© 2010 TABLE PARTNERS. Reprodução proibida.

Page 6: Treinamento Causalidade

Tempo

AGENDA

© 2010 TABLE PARTNERS. Reprodução proibida. 5

Como lidamos com incerteza e

probabilidade na TablePartners

atualmente?

O Q U E

FA Z E M O S H O J E2

Page 7: Treinamento Causalidade

Utilizamos árvores de decisão dinâmicas (usando

Excelcius), para que o cliente participe da decisão

© 2010 TABLE PARTNERS. Reprodução proibida. 6

faz X

Newco

Cenário A

Cenário B

Cenário A

Cenário A

Cenário A

Cenário B

Cliente

Page 8: Treinamento Causalidade

Quando o cliente é mais tecnificado, utilizamos

simulação de Monte Carlo

© 2010 TABLE PARTNERS. Reprodução proibida. 7

Fontes de Incerteza

Page 9: Treinamento Causalidade

Já dominamos a linguagem da incerteza, mas ainda

podemos avançar

A probabilidade, linguagem da incerteza, já está no nosso sangue

Ou fazemos análises de cenários com “bestguesses” das

variáveis incertas – tendo um resultado determinístico, mas com

uma probabilidade implícita

Ou realizamos simulações como no Monte Carlo e obtemos

resultados puramente probabilísticos, dando ao cliente uma visão

explícita das incertezas envolvidas

Entretanto, ainda temos pouco conhecimento das ferramentas da

probabilidade condicional, que serão introduzidas a seguir

© 2010 TABLE PARTNERS. Reprodução proibida. 8

Page 10: Treinamento Causalidade

Tempo

AGENDA

© 2010 TABLE PARTNERS. Reprodução proibida. 9

Probabilidades condicionais,

inferências Bayesianas e redes

O Q U E J Á P O D E M O S

FA Z E R D I F E R E N T E3

Page 11: Treinamento Causalidade

© 2010 TABLE PARTNERS. Reprodução proibida. 10

Numa sala com 70 pessoas, qual a probabilidade de

que pelo menos duas tenham o mesmo aniversário?

O PROBLEMA DO ANIVERSÁRIO

( A ) 81 ( B ) 23 ( C ) 175

Quantas pessoas é preciso ter em uma sala, para que

se tenha 50% de probabilidade de duas fazerem anos

no mesmo dia?

( A ) 99 ,92%( B )

19 ,2%( C ) 9 ,6%

Page 12: Treinamento Causalidade

© 2010 TABLE PARTNERS. Reprodução proibida. 11

Numa sala com 70 pessoas, qual a probabilidade de

que pelo menos duas tenham o mesmo aniversário?

O PROBLEMA DO ANIVERSÁRIO

( B ) 23

Quantas pessoas é preciso ter em uma sala, para que

se tenha 50% de probabilidade de duas fazerem anos

no mesmo dia?

( A ) 99 ,92%

O ser humano é naturalmente despreparado para cálculo probabilístico condicional – nosso

mecanismo de estimativa falha sistematicamente

Page 13: Treinamento Causalidade

© 2010 TABLE PARTNERS. Reprodução proibida. 12

Num grupo de n indivíduos, qual a probabilidade de

que pelo menos dois tenham o mesmo aniversário?

oaniversári mesmo o tempessoas duas menos pelo A

oaniversári mesmo o temninguém A

365

)1(365.

365

)2(365...

365

364.

365

365)(

nnAP

1

0 365

365)(

n

i

iAP

1

0 365

3651)(

n

i

iAP

A “simples” combinatória, na

verdade, é um conjunto de

probabilidades condicionais

O PROBLEMA DO ANIVERSÁRIO

Page 14: Treinamento Causalidade

O problema do teste imperfeito

© 2010 TABLE PARTNERS. Reprodução proibida. 13

Caro Fulano,

Recentemente, você foi ao nosso laboratório fazer um teste

para a doença XPTO, que atinge uma pessoa a cada dez mil.

Lamentamos informar que nosso exame, que tem uma

eficiência simétrica de 99% – isto é, tem 1% de falso positivo e

1% de falso negativo – apontou um resultado positivo.

CARTA DO LABORATÓRIO

Qual a probabilidade de você estar realmente doente?

( A ) 1% ( B ) 48% ( C ) 97%

Page 15: Treinamento Causalidade

O Teorema de Bayes baseia-se nas leis da

probabilidade condicional

© 2010 TABLE PARTNERS. Reprodução proibida. 14

T E O R E M A D E B AY E S ( T H O M AS B AY E S , 1 7 6 3 )

R E L E M B R AN D O : P R O B AB I L I D A D E S C O N D I C I O N AI S

B dado A, de adeProbabilid )|( BAP

A)P(B, P(B,A)P(B)

P(B|A)P(A)P(A,B)A)A)P(P(B|) P(B|A)P(AP(B)

B de Negação B

)(

)()|(

BP

APABPP(A|B)P(A|B)P(B)P(B|A)P(A)P(A,B)

Teorema de Bayes: Ferramenta para calcular

a probabilidade de que alguma hipótese A seja verdadeira,

a partir da observação ou evidência B

)()|()()|(

)()|()|(

APABPAPABP

APABPBAP

Page 16: Treinamento Causalidade

Seja D = Estar Doente, E = Exame dar Positivo

• P(D) = 1/10.000 = 0,01% P(¬D) = 99,99%

• P(E|D) = 99% P(E|¬D) = 1%

• P(¬E|D) = 99% P(¬E|¬D) = 1%

Queremos descobrir P(D|E):

O problema do teste imperfeito

© 2010 TABLE PARTNERS. Reprodução proibida. 15

)()|()()|(

)()|(

)(

)()|()|(

DPDEPDPDEP

DPDEP

EP

DPDEPEDP

%98,0%99,99%.1%01,0%.99

%01,0%.99)|( EDP 0,98%

Page 17: Treinamento Causalidade

O problema do teste imperfeito

© 2010 TABLE PARTNERS. Reprodução proibida. 16

Caro Fulano,

Recentemente, você foi ao nosso laboratório fazer um teste

para a doença XPTO, que atinge uma pessoa a cada dez mil.

Lamentamos informar que nosso exame, que tem uma

eficiência simétrica de 99% – isto é, tem 1% de falso positivo e

1% de falso negativo – apontou um resultado positivo.

CARTA DO LABORATÓRIO

Qual a probabilidade de você estar realmente doente?

( A ) 1% ( B ) 48% ( C ) 97%

Page 18: Treinamento Causalidade

Porta dos Desesperados: qual estratégia maximiza a

chance de ganhar os brinquedos?

© 2010 TABLE PARTNERS. Reprodução proibida. 17

Page 19: Treinamento Causalidade

Porta dos Desesperados: qual estratégia maximiza a

chance de ganhar os brinquedos?

© 2010 TABLE PARTNERS. Reprodução proibida. 18

No quadro do programa do Sérgio Mallandro, há três

portas. Atrás de uma delas, brinquedos. Atrás das duas

outras, um monstro.

Após a criança escolher uma porta, Sérgio Mallandro

abre uma das outras duas, revelando um monstro, e

pergunta: “Você quer trocar de porta?!”

Qual a melhor estratégia? Trocar ou manter a porta?

O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S

( M O N T Y H A L L P R O B L E M )

Vai trocar a

porta? Rá!!

Page 20: Treinamento Causalidade

Porta dos Desesperados: qual estratégia maximiza a

chance de ganhar os brinquedos?

© 2010 TABLE PARTNERS. Reprodução proibida. 19

O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S

( M O N T Y H A L L P R O B L E M )

Sejam P1, P2 e P3 as situações em que os brinquedos

estão nas portas 1, 2 e 3, respectivamente.

Assumindo que a porta dos brinquedos foi escolhida

aleatoriamente, P(P1) = P(P2) = P(P3) = ⅓

Vamos supor que a criança escolheu a porta 1 (C1), e

chamemos de S2 o ato do Mallandro abrir

posteriormente a porta 2. Se os brinquedos estiverem

• Na porta 1, P(S2|C1,P1) = ½

• Na porta 2, P(S2|C1,P2) = 0

• Na porta 3, P(S2|C1,P3) = 1

Importante: sem ter evidências da porta escolhida pela

criança e de onde estão os brinquedos, o Mallandro

abre qualquer uma das duas portas: P(S2) = ½

Page 21: Treinamento Causalidade

Porta dos Desesperados: qual estratégia maximiza a

chance de ganhar os brinquedos?

© 2010 TABLE PARTNERS. Reprodução proibida. 20

O P R O B L E M A D A P O R TA D O S D E S E S P E R AD O S

( M O N T Y H A L L P R O B L E M )

• P(P1) = P(P2) = P(P3) = ⅓

• P(S2) = ½

• A criança escolheu a porta 1. S2 = o ato do Mallandro abrir a porta 2

• Se os brinquedos estiverem

- Na porta 1, P(S2|C1,P1) = ½

- Na porta 2, P(S2|C1,P2) = 0

- Na porta 3, P(S2|C1,P3) = 1

3

1

21

31.

21

)(

)()|()|(

2

11221

SP

PPPSPSPP

0

21

31.0

)(

)()|()|(

2

22222

SP

PPPSPSPP

32

21

31.1

)(

)()|()|(

2

33223

SP

PPPSPSPP

Trocar de porta é

a melhor

estratégia !

Page 22: Treinamento Causalidade

Como diria o JN: Legal, Guri...mas e no contexto da

TP, você tem algum exemplo?!

© 2010 TABLE PARTNERS. Reprodução proibida. 21

Suponha que um analista esteja interessado em estimar

o marketshare (S) de sua empresa.

Ele resolveu entrevistar 10 experts do mercado,

chegando numa estimativa inicial de 34% a partir da

média dos resultados.

E S T I M AT I VA D E M AR K E TS H AR E

MarketShar

e (S)Expert 1 Expert 2 ... Expert 9 Expert 10 P(S)

Estimativa

inicial

10% 20% 20% -- 5% 10% 15%

34%

20% 30% 25% -- 10% 15% 19%

30% 25% 20% -- 15% 20% 20%

40% 15% 15% -- 20% 25% 19%

50% 5% 10% -- 25% 30% 17%

60% 5% 10% -- 25% 0% 12%

E S T I M AT I VAS D O S E X P E R T S ( A P R I O R I )

Page 23: Treinamento Causalidade

Como diria o JN: Legal, Guri...mas e no contexto da

TP, você tem algum exemplo?!

© 2010 TABLE PARTNERS. Reprodução proibida. 22

Suponha que o analista faça um levantamento rápido

com um grupo randômico de 20 pessoas, e 4 delas

usem o produto da sua empresa.

Ou seja, considerando uma distribuição binomial, temos

x=4 sucessos em n=20 tentativas. Podemos utilizar

essas informações (evidências) para atualizar nosso

grau de crença no marketshare.

E S T I M AT I VA D E M AR K E TS H AR E

Page 24: Treinamento Causalidade

Como diria o JN: Legal, Guri...mas e no contexto da

TP, você tem algum exemplo?!

© 2010 TABLE PARTNERS. Reprodução proibida. 23

Suponha que o analista faça um levantamento rápido

com um grupo randômico de 20 pessoas, e 4 delas

usem o produto da sua empresa.

Ou seja, considerando uma distribuição binomial, temos

x=4 sucessos em n=20 tentativas. Podemos utilizar

essas informações (evidências) para atualizar nosso

grau de crença no marketshare.

E S T I M AT I VA D E M AR K E TS H AR E

MarketShare

(S)P(S) P(x|S) P(S)P(x|S) P(S|x)

10% 15% 9% 1% 15%

20% 19% 22% 4% 47%

30% 20% 13% 3% 29%

40% 19% 4% 1% 8%

50% 17% 0% 0% 1%

60% 12% 0% 0% 0%

P R O B AB I L I D A D E S A P R I O R I E P O S T E R I O R I

A probabilidade

do MarketShare

estar entre 20 e

30% é de 76%

Page 25: Treinamento Causalidade

A grande vantagem é poder atualizar nossas

estimativas à medida que temos novos dados

© 2010 TABLE PARTNERS. Reprodução proibida. 24

Suponha que o analista faça um novo levantamento

com um grupo randômico de 16 pessoas, e 3 delas

usem o produto da sua empresa.

Ou seja, considerando uma distribuição binomial, temos

x=3 sucessos em n=16 tentativas. Podemos utilizar

essas informações (evidências) para atualizar nosso

grau de crença na distribuição do marketshare.

MarketShare

(S)

P(S) [ antes

P(S|x) ]P(x|S) P(S)P(x|S) P(S|x)

10% 15% 14% 2% 12%

20% 47% 25% 12% 63%

30% 29% 15% 4% 24%

40% 8% 5% 0% 2%

50% 1% 1% 0% 0%

60% 0% 0% 0% 0%

P R O B AB I L I D A D E S A P R I O R I E P O S T E R I O R I

A nova

probabilidade do

MarketShare

estar entre 20 e

30% é de 86%

E S T I M AT I VA D E M AR K E TS H AR E

Page 26: Treinamento Causalidade

O Paradoxo de Simpson é um alerta ao uso naif de

estatística, sem reflexão sobre causa e efeito

© 2010 TABLE PARTNERS. Reprodução proibida. 25

Sexo Candidatos % Aprovação

Masculino 8.442 44%

Feminino 4.321 35%

R E S U LTAD O S D A A D M I S S Ã O PAR A B E R K E L E Y

( 1 9 7 3 , P O R S E X O )

Berkley discrimina mulheres no processo de admissão?

Mulheres são menos preparadas?

Page 27: Treinamento Causalidade

O Paradoxo de Simpson é um alerta sobre os riscos

da inferência estatística simplista

DepartmentoMasculino Feminino

Candidatos % Aprovação Candidatos % Aprovação

A 825 62% 108 82%

B 560 63% 25 68%

C 325 37% 593 34%

D 417 33% 375 35%

E 191 28% 393 24%

F 272 6% 341 7%

© 2010 TABLE PARTNERS. Reprodução proibida. 26

Sexo Candidatos % Aprovação

Masculino 8.442 44%

Feminino 4.321 35%

R E S U LTAD O S D A A D M I S S Ã O PAR A B E R K E L E Y

( 1 9 7 3 , P O R S E X O )

R E S U LTAD O S D A A D M I S S Ã O D E B E R K E L E Y

( 1 9 7 3 , P O R S E X O E D E PA R TA M E N T O )

Page 28: Treinamento Causalidade

Ele torna-se ainda mais relevante quando há relações

causais envolvidas

Tratamento Recuperados ¬Recuperados Total % Recuperação

Droga 18 12 30 60%

Placebo 7 3 10 70%

Total 25 15 40 --

© 2010 TABLE PARTNERS. Reprodução proibida. 27

R E S U LTAD O S D E T R ATA M E N T O C O M D R O G A

( M A S C U L I N O )

Tratamento Recuperados ¬Recuperados Total % Recuperação

Droga 2 8 10 20%

Placebo 9 21 30 30%

Total 11 29 40 --

( F E M I N I N O )

Placebo > Droga

Placebo > Droga

Page 29: Treinamento Causalidade

Ele torna-se ainda mais relevante quando há relações

causais envolvidas

Tratamento Recuperados ¬Recuperados Total % Recuperação

Droga 18 12 30 60%

Placebo 7 3 10 70%

Total 25 15 40 --

© 2010 TABLE PARTNERS. Reprodução proibida. 28

R E S U LTAD O S D E T R ATA M E N T O C O M D R O G A

( M A S C U L I N O )

Tratamento Recuperados ¬Recuperados Total % Recuperação

Droga 2 8 10 20%

Placebo 9 21 30 30%

Total 11 29 40 --

( F E M I N I N O )

Tratamento Recuperados ¬Recuperados Total % Recuperação

Droga 20 20 40 50%

Placebo 16 24 40 40%

Total 36 44 80 --

( T O TA L )

Placebo > Droga

Placebo > Droga

Droga > Placebo

! ! !

Page 30: Treinamento Causalidade

A estrutura causal do problema tem implicação direta

na forma como devemos analisar os dados

© 2010 TABLE PARTNERS. Reprodução proibida. 29

T

S

R

Sexo

Tratamento Recuperação

E S T R U T U R A C AU S AL D O P R O B L E M A

Como S é uma causa comum de T e R,

precisamos analisar separadamente os

resultados de homens e mulheres para

blindar o efeito de S sobre R

E S E M U D AR M O S U M P O U C O A E S T R U T U R A?

Devemos analisar os resultados

agregados, pois se condicionarmos

em P, bloquearemos a influência

causal de T em R via PT

P

R

Pressão

Tratamento Recuperação

Page 31: Treinamento Causalidade

Vejamos um exemplo real de cliente

© 2010 TABLE PARTNERS. Reprodução proibida. 30

Tipos de

transação

Impacto de “A”

na margem oper.

Inadimplência

por tipo de

transação

BU 2BU 1

+ US$ 1,34 / un.(20% increase)

+ US$ 1,12 / un.(15% increase)

A N Á L I S E D O B E N E F Í C I O D E U M A AÇ Ã O “ A ”

Financiada

A vista

Financiada

A vista

Financiada

A vista

Financiada

A vista 0%

0%

Retenção

Page 32: Treinamento Causalidade

A diferença entre as margens é um típico exemplo de

Paradoxo de Simpson

© 2010 TABLE PARTNERS. Reprodução proibida. 31

Tipo de TransaçãoMargens (US$/un.)

A prazo À vista Total

A Vista 8,68 3,76 7,23

Financiada 9,17 5,60 5,89

M AR G E N S E V O L U M E S P O R T I P O S D E T R AN S AÇ Ã O E P R AZ O

Tipo de TransaçãoVolumes (milhões un.)

A prazo À vista Total

A Vista 0,59 0,24 0,83

Financiada 0,29 3,29 3,58

Page 33: Treinamento Causalidade

A estrutura causal pode ter minado a qualidade do

nosso trabalho

© 2010 TABLE PARTNERS. Reprodução proibida. 32

P

T

M

Transação

Prazo Margens

S E E S TA F O R A E S T R U T U R A C AU S AL , E S TAM O S B E M

Devemos analisar a última coluna, pois

se analisarmos separadamente por P,

bloquearemos a influência de T sobre

M via P

P

T

M

Transação

Prazo Margens

S E F O R E S TA . . . H O U S TO N , W E ´ V E G O T A P R O B L E M . . .

Devemos analisar as colunas de P

separadamente para blindar seu efeito

em M, visto que é o efeito de T em M

que queremos avaliar

Page 34: Treinamento Causalidade

E agora, como proceder?

Experts com “conhecimento de causa”

problema podem afirmar se as

hipóteses causais são válidas

Já procedemos dessa maneira

inconscientemente no nosso cotidiano

© 2010 TABLE PARTNERS. Reprodução proibida. 33

Possíveis

Soluções

Estão sendo desenvolvidos algoritmos

que identificam causalidade em

alguns padrões de correlação

A disponibilidade de softwares para

executar esses processos

automaticamente ainda é pobre

Esses algoritmos podem ser

combinados com conhecimento

expert

R E AS O N I N G A L G O R I T M O S

Page 35: Treinamento Causalidade

Tostines vende mais porque é mais fresquinho ou é

mais fresquinho porque vende mais?!

Nosso trabalho tem uma relação íntima com as “estruturas causais” dos

problemas – cada vez mais complexos – dos clientes

Infelizmente, nosso poderio para inferências causais é limitado. Há duas

justificativas legítimas para essa situação...

Os algoritmos de tradução de correlação para causalidade não se

adequam a todas a situações

A implementação em software desse algoritmos ainda está em curso

...mas é importante que saibamos da existência desse movimento. Muito em

breve ele terá ferramentas poderosas – como ocorreu com Monte Carlo – e

ser early-adopterserá um diferencial para a TablePartners

© 2010 TABLE PARTNERS. Reprodução proibida. 34

Page 36: Treinamento Causalidade

Tempo

AGENDA

© 2010 TABLE PARTNERS. Reprodução proibida. 35

Descoberta de causalidade a partir de

correlação

O Q U E E M B R E V E

P O D E R E M O S FA Z E R4

Page 37: Treinamento Causalidade

As redes são uma ferramenta poderosa para fazer

inferências com muitas variáveis

© 2010 TABLE PARTNERS. Reprodução proibida. 36

X1

X3 X2

X4

X5

Representação compacta da distribuição

conjunta de probabilidade, feita a mão ou por

data mining + algoritmos de aprendizado ou uma

combinação dos dois

As redes são grafos direcionados acíclicos

Vértices representam variáveis de interesse

Arcos representam dependências causais ou

correlacionais entre as variáveis

As variáveis são discretas ou contínuas

As relações entre variáveis podem ser

Bayesianas: puramente probabilísticas

Estruturais/Funcionais: funções

determinísticas

E X E M P L O D E R E D E D E F I N I Ç Õ E S B Á S I C AS

X6

Page 38: Treinamento Causalidade

Vamos à prática

© 2010 TABLE PARTNERS. Reprodução proibida. 37

A TablePartners foi contratada pelo prefeito de Jacareí – motor do Brasil – para

resolver o problema de cortes de luz na cidade.

Ele explicou que o sistema de energia da cidade é composto de dois conjuntos

usina-linha de transmissão independentes, com capacidade de 130MW cada:

• As usinas estão indisponíveis 10% do tempo

• As linhas de transmissão ficam indisponíveis, no inverno, durante 1% do

tempo

Nas suas primeiras análises, você conclui que a demanda varia de acordo com

uma normal de desvio padrão 30MW e média de:

• 150MW no inverno

• 50MW no verão

• 100MW na primavera e outono

O prefeito quer uma indisponibilidade de apenas 2%. E agora, qual a melhor

maneira de resolver o problema?

O P R O B L E M A D A E N E R G I A E M J AC AR E Í