Upload
ian-luiz
View
241
Download
0
Embed Size (px)
Citation preview
Probabilidade e EstatísticaProbabilidade e Estatísticapara Avaliação de Desempenho
Carlos Alberto Kamienski [email protected]
Probabilidade e EstatísticaVariável aleatóriaEventos independentesDistribuição de probabilidade e densidadeMédia ou valor esperadoVariância e desvio padrãoAmostragem e estimação de parâmetrosIntervalo de confiança
Variável AleatóriaMapeamento de um evento (resultado de um experimento aleatório) em um númeroExemplos: X = estado do servidor: 1 ativo, 0 inativo Y = número de pacotes IP por intervalo de tempo Z = atraso estabelecimento conexão SSH Experimento: lançar um dado
A = valor facial B = 0 valor 3 1 valor 4 C = 0 valor par 1 valor ímpar
Variáveis Discretas e Contínuas
Uma variável aleatória é discreta se o número de resultados possíveis é finito ou pode ser contado
Variáveis aleatórias discretas são determinadas por uma contagem
Uma variável aleatória é contínua se pode assumir qualquer valor dentro de determinado intervalo
O número de resultados possíveis não pode ser listado Variáveis aleatórias contínuas são determinadas por uma medição
0 1 2-1-2
Número de resultados infinitos
Eventos independentesDois eventos são independentes a ocorrência de um não afeta a probabilidade do outroA existência ou não de relação de dependência pode modificar conclusões de uma simulaçãoEventos dependentes Número de pacotes que chegam em um roteador Número de pacotes descartados
Eventos independentes Número de chamadas que chegam a um central telefônica Duração das chamadas
Distribuição de probabilidadeDescreve a chance que uma variável pode assumir ao longo de um espaço de valores A soma de todas as probabilidades deve ser 1Variável discreta Tabela especificando a probabilidade de que a
variável assuma cada um dos valores possíveisVariável contínua Função especificando a probabilidade de que a
variável assuma um valor em cada um dos intervalos possíveis
Distribuição discreta de probabilidade
Determina o comportamento de uma variável aleatória discretadiscreta, atribuindo probabilidades a todos os possíveis valoresExemplo: variável X (estado do servidor) P[X=1] = p1 P[X=0] = p2 O conjunto {p1, p2} é a distribuição de
probabilidade da variável aleatória discreta X
Função acumulada e densidade
No caso de variáveis contínuas, define-se uma função de distribuição acumulada FX(x) que determinada a probabilidade da variável assumir um valor menor ou igual a um determinado valor x
onde, fX(x) é a função de densidade de probabilidade ou somente densidade
x
XX duufxXPxF )()()(
Distribuição de PoissonParâmetro: (média)
Utilização: Número de chegadas em um determinado tempo Número de chamadas telefônicas em um tempo t Número de conexões TCP em um tempo t
Exemplo: X = número de conexões SSH por hora Em determinado servidor = 3,5 P(X = 2) = 0,185
0,!
][
xxexP
Distribuição de Poisson (densidade)
Histogram of y
y
Den
sity
0 5 10 15 20 25
0.00
0.05
0.10
0.15
0.20
0.25
= 10
Geração: R (http://www.r-
project.org)
Distribuição de Poisson (acumulada)
= 10
Geração: R (http://www.r-
project.org)0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
title
value
cum
ulat
ive
prob
abili
ties
Distribuição UniformeParâmetros: a e b (limite inferir e superior)
Utilização: Variável limitada sem informação adicional Direção de movimentação de um usuário em
um rede celular Distância entre fonte e destino em uma rede Probabilidade de um pacote conter um erro
casosoutros
bxaab
xf X
,0
,1)(
Distribuição UniformeHistogram of y
y
Den
sity
0 2 4 6 8 10
0.00
0.02
0.04
0.06
0.08
0.10
a = 0b = 10
Distribuição ExponencialParâmetro: (média)
Utilização: Tempos entre eventos sucessivos Tempo entre chamadas telefônicas Tempo entre requisições a um servidor
TELNET Tempo entre falhas de um equipamento
casosoutrosxexf x
X
,00,0,)(
Distribuição ExponencialHistogram of y
y
Den
sity
0 20 40 60 80 100 120
0.00
0.02
0.04
0.06
0.08
= 10
Distribuição Normal (Gaussiana)
Parâmetros: , (média e desvio padrão)
Utilização: Aleatoriedade causada por várias fontes
independentes agindo em conjunto Erros em medições
0,2
1)(22 2/
xexf
Distribuição Normal (Gaussiana)
Histogram of y
y
Den
sity
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Normal Padrão = 0 = 1
Média ou valor esperadoA média denota o valor esperado de uma variável aleatóriaMédia distribucional
Média amostral (estimador)
dxxxfxpXE X
n
iii )()(
1
n
i ixnx
1
1
Variância e desvio padrãoA média não dá informação sobre dispersão Ex: conjuntos {5,10,15} e {0,10,20}, com média 10
Variância e desvio padrão medem a dispersão dos dados em relação à médiaVariância amostral (estimador)
Desvio padrão =
n
i i xxn 1
22 )(1
Amostragem e estimaçãoOs parâmetros reais geralmente são desconhecidos Ex: Qual a vazão de saída de um roteador?Os parâmetros são aproximados por amostragem, gerando estatísticas, como média e desvio padrão (amostral)Com k amostras de tamanho n de uma variável X, são geradas k médias (estimativas)Próximo passo: determinar uma única estimativa
Intervalo de confiançaNão é possível encontrar uma estimativa perfeita para a média a partir de um número finito de amostras de tamanho finitoA melhor opção é obter limites probabilísticos:P(c1 c2) = 1 - é o nível de significância (menor é melhor)Intervalo de confiança é um intervalo que com alta probabilidade contém o parâmetro estimado Influenciado pelo número de amostras, pelo nível de
confiança e pelo desvio padrão das amostras Intervalo de confiança ao nível 90%, 95%, 99%, etc.
Intervalo de confiança
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8 9 10 11
Minha proposta
Proposta concorrente
Intervalo de confiança
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8 9 10 11
Minha propostaProposta concorrente
Intervalo de confiança
0
2
4
6
8
10
12
14
16
18
20
0 1 2 3 4 5 6 7 8 9 10 11
Minha proposta
Proposta concorrente
Processo de Estimação
Média, , é desconhecida
População Amostra AleatóriaMédia X = 50
Amostra
Estou 95% confiante que está entre 40 e 60
Intervalo de Confiança de 95%
0.95
z.025= -1.96 z.025= 1.96
Tabela Z da Distribuição Normal
O que é o Intervalo de Confiança
para a média?
Uma maneira de expressar a incerteza de x como uma estimativa de x = média da amostra = média da população95% do IC diz que em média, 95% das vezes, se você estimar um intervalo para , o valor verdadeiro de irá estar dentro do intervalo
Intervalo de Confiança para a Média
Estimação do Intervalo de Estimação do Intervalo de Confiança Confiança (( CONHECIDO) CONHECIDO)
onde:z = valor crítico da tabela normal padrão = Desvio padrão
n = tamanho da amostra
nzx
Intervalo de Confiança para ( conhecido)
Premissas O desvio padrão da população é
conhecido A distribuição da população é
GaussianaSe não for, usar uma amostra muito
grandeEstimativa do Intervalo de Confiança / 2 / 2X Z X Z
n n
Nível de ConfiançaDenotado porInterpretação baseada em freqüência relativa A longo prazo, de todos os
intervalos de confiança que podem ser construídos podem conter o parâmetro desconhecido
Um intervalo específico irá conter ou não conter o parâmetro
100 1 %
100 1 %
Intervalo e nível de confiança
Intervalos de Confiança
Intervalos variam de
a
dos intervalos construídos contém
não contêm
_Distribuição amostral da Média
XX Z
X/ 2 / 2
XX
1
XX Z
1 100%
100 %
/ 2 XZ / 2 XZ
Fatores que afetam alargura do intervalo (precisão)
Variação dos dados Medida porTamanho da amostra
Nível de confiança
Extensão do intervalo
© 1984-1994 T/Maker Co.
X - Z a X + Z xx
X n
100 1 %
Using Other Confidence Levels
A 100(1-α)% confidence interval for the mean µ of a normal population when the value of is known is given by
[ / , + / ] The most frequently used confidence levels are 95%, 99% and 90%. Their corresponding ’s are
2/z
2/z 2/z
Confidence level 95% 99% 90%
1.96 2.58 1.6452/z
X Xn n
Structure of Confidence Intervals
nzm 2/
xn
zx 2/
nzx 2/
Upper Confidence LimitLower Confidence Limit
Margin of error
nzWidth 2/2CI theof
Interpreting a Confidence Interval
True: 95% of samples will produce a CI [
2/ , + 2/ ] that cover the true mean µ
every sample has a 95% chance of producing a CI that covers the truth.
Wrong: there is a 95% chance that the true
mean is in the interval [12.4, 13.2] . 95% of samples of size 100 will
have sample means between 12.4 and 13.2.
X X nn