36
Probabilidade e Probabilidade e Estatística Estatística para Avaliação de Desempenho Carlos Alberto Kamienski [email protected]

Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto [email protected]

Embed Size (px)

Citation preview

Page 1: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Probabilidade e EstatísticaProbabilidade e Estatísticapara Avaliação de Desempenho

Carlos Alberto Kamienski [email protected]

Page 2: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Probabilidade e EstatísticaVariável aleatóriaEventos independentesDistribuição de probabilidade e densidadeMédia ou valor esperadoVariância e desvio padrãoAmostragem e estimação de parâmetrosIntervalo de confiança

Page 3: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Variável AleatóriaMapeamento de um evento (resultado de um experimento aleatório) em um númeroExemplos: X = estado do servidor: 1 ativo, 0 inativo Y = número de pacotes IP por intervalo de tempo Z = atraso estabelecimento conexão SSH Experimento: lançar um dado

A = valor facial B = 0 valor 3 1 valor 4 C = 0 valor par 1 valor ímpar

Page 4: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Variáveis Discretas e Contínuas

Uma variável aleatória é discreta se o número de resultados possíveis é finito ou pode ser contado

Variáveis aleatórias discretas são determinadas por uma contagem

Uma variável aleatória é contínua se pode assumir qualquer valor dentro de determinado intervalo

O número de resultados possíveis não pode ser listado Variáveis aleatórias contínuas são determinadas por uma medição

0 1 2-1-2

Número de resultados infinitos

Page 5: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Eventos independentesDois eventos são independentes a ocorrência de um não afeta a probabilidade do outroA existência ou não de relação de dependência pode modificar conclusões de uma simulaçãoEventos dependentes Número de pacotes que chegam em um roteador Número de pacotes descartados

Eventos independentes Número de chamadas que chegam a um central telefônica Duração das chamadas

Page 6: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição de probabilidadeDescreve a chance que uma variável pode assumir ao longo de um espaço de valores A soma de todas as probabilidades deve ser 1Variável discreta Tabela especificando a probabilidade de que a

variável assuma cada um dos valores possíveisVariável contínua Função especificando a probabilidade de que a

variável assuma um valor em cada um dos intervalos possíveis

Page 7: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição discreta de probabilidade

Determina o comportamento de uma variável aleatória discretadiscreta, atribuindo probabilidades a todos os possíveis valoresExemplo: variável X (estado do servidor) P[X=1] = p1 P[X=0] = p2 O conjunto {p1, p2} é a distribuição de

probabilidade da variável aleatória discreta X

Page 8: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Função acumulada e densidade

No caso de variáveis contínuas, define-se uma função de distribuição acumulada FX(x) que determinada a probabilidade da variável assumir um valor menor ou igual a um determinado valor x

onde, fX(x) é a função de densidade de probabilidade ou somente densidade

x

XX duufxXPxF )()()(

Page 9: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição de PoissonParâmetro: (média)

Utilização: Número de chegadas em um determinado tempo Número de chamadas telefônicas em um tempo t Número de conexões TCP em um tempo t

Exemplo: X = número de conexões SSH por hora Em determinado servidor = 3,5 P(X = 2) = 0,185

0,!

][

xxexP

Page 10: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição de Poisson (densidade)

Histogram of y

y

Den

sity

0 5 10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

= 10

Geração: R (http://www.r-

project.org)

Page 11: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição de Poisson (acumulada)

= 10

Geração: R (http://www.r-

project.org)0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

title

value

cum

ulat

ive

prob

abili

ties

Page 12: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição UniformeParâmetros: a e b (limite inferir e superior)

Utilização: Variável limitada sem informação adicional Direção de movimentação de um usuário em

um rede celular Distância entre fonte e destino em uma rede Probabilidade de um pacote conter um erro

casosoutros

bxaab

xf X

,0

,1)(

Page 13: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição UniformeHistogram of y

y

Den

sity

0 2 4 6 8 10

0.00

0.02

0.04

0.06

0.08

0.10

a = 0b = 10

Page 14: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição ExponencialParâmetro: (média)

Utilização: Tempos entre eventos sucessivos Tempo entre chamadas telefônicas Tempo entre requisições a um servidor

TELNET Tempo entre falhas de um equipamento

casosoutrosxexf x

X

,00,0,)(

Page 15: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição ExponencialHistogram of y

y

Den

sity

0 20 40 60 80 100 120

0.00

0.02

0.04

0.06

0.08

= 10

Page 16: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição Normal (Gaussiana)

Parâmetros: , (média e desvio padrão)

Utilização: Aleatoriedade causada por várias fontes

independentes agindo em conjunto Erros em medições

0,2

1)(22 2/

xexf

Page 17: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Distribuição Normal (Gaussiana)

Histogram of y

y

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Normal Padrão = 0 = 1

Page 18: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Média ou valor esperadoA média denota o valor esperado de uma variável aleatóriaMédia distribucional

Média amostral (estimador)

dxxxfxpXE X

n

iii )()(

1

n

i ixnx

1

1

Page 19: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Variância e desvio padrãoA média não dá informação sobre dispersão Ex: conjuntos {5,10,15} e {0,10,20}, com média 10

Variância e desvio padrão medem a dispersão dos dados em relação à médiaVariância amostral (estimador)

Desvio padrão =

n

i i xxn 1

22 )(1

Page 20: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Amostragem e estimaçãoOs parâmetros reais geralmente são desconhecidos Ex: Qual a vazão de saída de um roteador?Os parâmetros são aproximados por amostragem, gerando estatísticas, como média e desvio padrão (amostral)Com k amostras de tamanho n de uma variável X, são geradas k médias (estimativas)Próximo passo: determinar uma única estimativa

Page 21: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de confiançaNão é possível encontrar uma estimativa perfeita para a média a partir de um número finito de amostras de tamanho finitoA melhor opção é obter limites probabilísticos:P(c1 c2) = 1 - é o nível de significância (menor é melhor)Intervalo de confiança é um intervalo que com alta probabilidade contém o parâmetro estimado Influenciado pelo número de amostras, pelo nível de

confiança e pelo desvio padrão das amostras Intervalo de confiança ao nível 90%, 95%, 99%, etc.

Page 22: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha proposta

Proposta concorrente

Page 23: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha propostaProposta concorrente

Page 24: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de confiança

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8 9 10 11

Minha proposta

Proposta concorrente

Page 25: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Processo de Estimação

Média, , é desconhecida

População Amostra AleatóriaMédia X = 50

Amostra

Estou 95% confiante que está entre 40 e 60

Page 26: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de Confiança de 95%

0.95

z.025= -1.96 z.025= 1.96

Page 27: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Tabela Z da Distribuição Normal

Page 28: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

O que é o Intervalo de Confiança

para a média?

Uma maneira de expressar a incerteza de x como uma estimativa de x = média da amostra = média da população95% do IC diz que em média, 95% das vezes, se você estimar um intervalo para , o valor verdadeiro de irá estar dentro do intervalo

Page 29: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de Confiança para a Média

Estimação do Intervalo de Estimação do Intervalo de Confiança Confiança (( CONHECIDO) CONHECIDO)

onde:z = valor crítico da tabela normal padrão = Desvio padrão

n = tamanho da amostra

nzx

Page 30: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo de Confiança para ( conhecido)

Premissas O desvio padrão da população é

conhecido A distribuição da população é

GaussianaSe não for, usar uma amostra muito

grandeEstimativa do Intervalo de Confiança / 2 / 2X Z X Z

n n

Page 31: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Nível de ConfiançaDenotado porInterpretação baseada em freqüência relativa A longo prazo, de todos os

intervalos de confiança que podem ser construídos podem conter o parâmetro desconhecido

Um intervalo específico irá conter ou não conter o parâmetro

100 1 %

100 1 %

Page 32: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Intervalo e nível de confiança

Intervalos de Confiança

Intervalos variam de

a

dos intervalos construídos contém

não contêm

_Distribuição amostral da Média

XX Z

X/ 2 / 2

XX

1

XX Z

1 100%

100 %

/ 2 XZ / 2 XZ

Page 33: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Fatores que afetam alargura do intervalo (precisão)

Variação dos dados Medida porTamanho da amostra

Nível de confiança

Extensão do intervalo

© 1984-1994 T/Maker Co.

X - Z a X + Z xx

X n

100 1 %

Page 34: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Using Other Confidence Levels

A 100(1-α)% confidence interval for the mean µ of a normal population when the value of is known is given by

[ / , + / ] The most frequently used confidence levels are 95%, 99% and 90%. Their corresponding ’s are

2/z

2/z 2/z

Confidence level 95% 99% 90%

1.96 2.58 1.6452/z

X Xn n

Page 35: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Structure of Confidence Intervals

nzm 2/

xn

zx 2/

nzx 2/

Upper Confidence LimitLower Confidence Limit

Margin of error

nzWidth 2/2CI theof

Page 36: Probabilidade e Estatística Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienskicak@ufabc.edu.br

Interpreting a Confidence Interval

True: 95% of samples will produce a CI [

2/ , + 2/ ] that cover the true mean µ

every sample has a 95% chance of producing a CI that covers the truth.

Wrong: there is a 95% chance that the true

mean is in the interval [12.4, 13.2] . 95% of samples of size 100 will

have sample means between 12.4 and 13.2.

X X nn