9
Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas 1 Aula 01: Introdução à estatística aplicada a laboratório e construção de gráficos 1. Objetivos Aprender a: o Sumarizar a coleção de observações; o Descrever o conhecimento de um dado assunto de forma matemática; o Evitar manipulação de resultados; o Dar “polimento” a publicações; o Analisar a coleção de dados; o Determinar correlações; o Saber o grau de certeza das conclusões tiradas; o Criar gráficos. 2. A Estatística A estatística é um ramo da matemática aplicada. Seu objetivo é fornecer métodos para coleta, organização, resumo, apresentação e análise dos dados, visando obtenção de conclusões válidas e, finalmente, tomada de decisões. Dessa forma, a estatística serve de instrumento de apoio a todos os campos de conhecimento em que dados experimentais são manipulados. Dentre tantos, podemos citar: Física, Química, Medicina, Engenharia , Ciências Sociais, Administração de empresas, etc. 3. População e Amostra a. População: Qualquer conjunto de informação que tenha entre si uma característica comum que delimite os elementos pertencentes a ela; Fornece as estatísticas exatas de uma análise; As propriedades de da população são designadas por símbolos de letras gregas. Ex: σ - desvio padrão da população; μ - média da população de dados. b. Amostra: É um subconjunto de elementos pertencentes a uma população; Fornece uma estimativa das estatísticas; As propriedades das amostras são designadas por letras latinas. Ex: s – desvio padrão de uma amostra; ̅ – média de uma amostra de dados. Observação: Amostra no sentido estatístico do termo, significa um grupo de objetos selecionados de uma população, não uma porção (alíquota) do material que está sendo analisado, ou estudado. 4. Estatística Descritiva e Indutiva a. Estatística Descritiva: Métodos estatísticos que buscam somente descrever e analisar dados, independentemente de fazerem parte de uma amostra ou de uma população. Análise descritiva com resumo e interpretação dos dados coletados (gráficos, distribuição de frequência, medidas de posição, medidas de dispersão, etc.) b. Estatística Indutiva (Inferência Estatística): Se uma amostra é representativa de uma população, conclusões importantes podem ser inferidas de sua análise. A parte da estatística que trata das condições sob as quais essas inferências são válidas chama-se estatística indutiva ou inferência estatística. Utiliza métodos explicativos para o comportamento do objeto em estudo que levam a análise confirmatória dos dados. (testes estatísticos)

Estatística aplicada a Laboratório

Embed Size (px)

DESCRIPTION

Estatistica aplicada a laboratório de engenharia.

Citation preview

Page 1: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

1

Aula 01: Introdução à estatística aplicada a laboratório e construção de gráficos

1. Objetivos

• Aprender a: o Sumarizar a coleção de observações; o Descrever o conhecimento de um dado assunto de forma matemática; o Evitar manipulação de resultados; o Dar “polimento” a publicações; o Analisar a coleção de dados; o Determinar correlações; o Saber o grau de certeza das conclusões tiradas; o Criar gráficos.

2. A Estatística A estatística é um ramo da matemática aplicada. Seu objetivo é fornecer métodos para

coleta, organização, resumo, apresentação e análise dos dados, visando obtenção de conclusões válidas e, finalmente, tomada de decisões.

Dessa forma, a estatística serve de instrumento de apoio a todos os campos de conhecimento em que dados experimentais são manipulados. Dentre tantos, podemos citar: Física, Química, Medicina, Engenharia , Ciências Sociais, Administração de empresas, etc. 3. População e Amostra

a. População:

� Qualquer conjunto de informação que tenha entre si uma característica comum que delimite os elementos pertencentes a ela;

� Fornece as estatísticas exatas de uma análise; � As propriedades de da população são designadas por símbolos de letras gregas.

Ex: σ - desvio padrão da população; µ - média da população de dados.

b. Amostra:

� É um subconjunto de elementos pertencentes a uma população; � Fornece uma estimativa das estatísticas; � As propriedades das amostras são designadas por letras latinas. Ex: s – desvio padrão de uma amostra; �̅ – média de uma amostra de dados.

Observação: Amostra no sentido estatístico do termo, significa um grupo de objetos selecionados de uma população, não uma porção (alíquota) do material que está sendo analisado, ou estudado.

4. Estatística Descritiva e Indutiva

a. Estatística Descritiva: Métodos estatísticos que buscam somente descrever e analisar dados, independentemente de fazerem parte de uma amostra ou de uma população. Análise descritiva com resumo e interpretação dos dados coletados (gráficos, distribuição de frequência, medidas de posição, medidas de dispersão, etc.)

b. Estatística Indutiva (Inferência Estatística): Se uma amostra é representativa de uma população, conclusões importantes podem ser inferidas de sua análise. A parte da estatística que trata das condições sob as quais essas inferências são válidas chama-se estatística indutiva ou inferência estatística. Utiliza métodos explicativos para o comportamento do objeto em estudo que levam a análise confirmatória dos dados. (testes estatísticos)

Page 2: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

2

5. Tipos de Variáveis a. Qualitativas: são variáveis qualitativas quando representam qualidades de uma

população: cor dos olhos, espécies encontradas em uma população de microrganismos, etc. São representadas apenas por qualitativos: Ex: olhos: azul, castanho, verde, … ; espécies: gato, cachorro, coelho, ...

b. Quantitativas: quando representam quantidades de uma população: número de habitantes, vazão, DBO, concentração de sólidos, etc. (normalmente são variáveis que podem ser expressas por números)

6. Erros em análises químicas

Erros e incertezas: alguns são provenientes a equívocos cometidos pelo analista (padronização). a. Tipos de erros:

a) Erros aleatórios ou indeterminados: afetam a precisão da medida. Não podem ser totalmente eliminados. Não podem ser claramente identificados

b) Erros sistemáticos ou determinados: afetam a exatidão do resultado. Podem ser tanto: constantes (erro absoluto é constante e o erro relativo varia) como proporcionais (erro absoluto varia e o erro relativo é constante)

c) Erros instrumentais: calibrações (equipamentos volumétricos), condições inadequadas. d) Erros de método: proveniente do comportamento químico ou físico não ideal, como

decomposição da amostra ou reagente, tempo de reação (amostras padrões certificadas, preparação de brancos).

e) Erros pessoais: falta de cuidado, atenção ou limitação do analista (amostras padrões certificadas, triplicatas).

7. Precisão e Exatidão

a. Precisão: descreve a reprodutibilidade das medidas (concordância), ou seja, proximidade dos resultados obtidos. Pode ser avaliada através do desvio padrão, variância e do coeficiente de variação.

b. Exatidão: proximidade da medida com o valor verdadeiro. Pode ser expressa em termos de erro absoluto ou erro relativo.

8. Erro absoluto (E) e erro relativo (Er):

9. Medidas de posição:

9.1 Medidas de tendência central

As medidas de tendência central são assim chamadas por indicarem um ponto em torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuição dos dados, ou o “centro de gravidade” dos dados.

a. Média aritmética (��): Quando lidamos com um conjunto de dados, podemos calcular diversos tipos de médias. Em nosso estudo será focada a media aritmética. Além dessas é importante estudar posteriormente a média geométrica, a média harmônica e a média ponderada.

Page 3: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

3

A média aritmética é a soma dos valores observados da variável dividida pelo número total de observações. �̅ = ∑ ���

A média aritmética é a medida de tendência central mais utilizada para representar a massa de dados. Propriedades e observações sobre a média: 1. Depende de todos os dados coletados, sendo afetada por valores extremos; 2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem

sempre é igual a um determinado valor observado. 3. Por depender de todos os valores observados, qualquer modificação nos dados fará

com que a média fique alterada. 4. A soma dos desvios em relação a média é zero. (�� − �̅) = 0

O desvio é de extrema importância para a definição de variância, uma medida de dispersão a ser definida posteriormente. Desvio em relação a média é a diferença entre cada elemento de um conjunto de dados e a média aritmética. �� = (�� − �̅) Obs: se precisamos calcular a média de um conjunto de dados divididos em classes, convencionamos que todos os valores incluídos no intervalo coincidem com o ponto médio deste intervalo, e utilizamos a seguinte equação: �̅ = ∑����∑��

b. Moda (Mo): Moda é simplesmente o valor que mais se repete em uma sequência de dados. Ex: Na série: 1, 3, 4, 4, 4, 6, 8, 32. Como o valor que aparece com maior frequência é o “4”, ele é o valor modal, ou simplesmente a moda. O uso da moda é indicado quando se deseja obter, rapidamente, uma medida de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor não é afetado pelos valores extremos do conjunto de dados analisado.

c. Mediana (Md) A mediana é o valor que ocupa a posição central da série de posições, é o resultado central quando as réplicas de dados são organizadas de acordo com uma seqüência crescente ou decrescente de valores. Existe um número igual de valores que são maiores e menores que a mediana. Para um número ímpar de resultados, a mediana pode ser avaliada diretamente. Para um número par de resultados, a média do par central é usada:

• utiliza-se o termo ���� , se N for ímpar;

• a média aritmética dos termos �� e

�� + 1, se N for par.

Ex: - Observando os dados: 1,5, 8, 9, 12, 17, 20. Como temos um número ímpar de dados, a mediana é o valor central, ou seja, o valor 9.

- Na série 1, 5, 8, 9, 12, 17, 20, 22

Nesse caso, a mediana seria a média aritmética dos dois dados centrais: ����� = 10,5

10. Medidas de Dispersão.

Page 4: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

4

As medidas de dispersão auxiliam as medidas de tendência central a descrever nosso conjuntos de dados observados adequadamente. Indicam se os dados estão, ou não, próximos uns dos outros.

a. Amplitude Total: É simplesmente a diferença entre o maior e o menor valor coletado. �� = ��á� −��í

b. Desvio padrão: É empregado como uma medida da precisão. é a medida mais comum da dispersão estatística. Ele mostra o quanto de variação existe em relação à média ou valor esperado. Um baixo desvio padrão indica que os dados tendem a estar próximos da média ou valor esperado; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores.

Outra forma de calcular o desvio padrão em calculadoras que não possuem a função desvio padrão, S.

! = "∑ �����#� − (∑ ����#� )� �� − 1

c. Coeficiente de variação (CV): É uma medida de dispersão relativa empregada para estimar

a precisão de experimentos. O desvio padrão relativo do porcentual da média fornece uma imagem mais clara da qualidade dos dados que os desvios padrão absolutos.

11. Construção de tabelas de distribuição de frequências e histogramas

A partir da experiência envolvendo um grande número de determinações, observamos que a distribuição de réplicas de dados da maioria dos experimentos analíticos quantitativos se aproxima da curva gaussiana mostrada na Figura 1. Uma curva gaussiana ou curva normal de erro é aquela que apresenta uma distribuição simétrica dos dados em torno da média de um conjunto infinito de dados como aquele exibido na Figura 1. Como exemplo, considere os dados contidos na planilha de cálculos da Tabela 1, para a calibração de uma pipeta de 10 mL. Nesse experimento, um pequeno frasco e sua tampa foram pesados. Dez mililitros de água foram então transferidos para o frasco com a pipeta e este foi fechado. O frasco, a tampa e a água foram pesados novamente. A temperatura da água também foi medida para se determinar sua densidade. A massa de água foi então calculada tomando-se a diferença entre as duas massas. A massa de água, dividida pela sua densidade, representa o volume dispensado pela pipeta. O experimento foi repetido 50 vezes.

Figura 1. Curva gaussiana, ou curva normal de erro.

Fre

quên

cia

rel

ativ

a

Page 5: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

5

Tabela 1. Dados de 50 medições de volume de uma pipeta volumétrica de 10 mL.

Na Tabela 1, a média pode ser calculada com a função =MÉDIA( ) do Excel. Observe que, uma vez que os dados se encontram em diferentes colunas, utilizamos a fórmula =MÉDIA(B3:B19,E3:E19, H3:H18) nos cálculos. A mediana é calculada usando a função =MED( ). O valor máximo pode ser encontrado com a função =MÁXIMO( ) e o valor mínimo através da função =MÍNIMO( ). A faixa é o valor máximo menos o valor mínimo. Os dados da Tabela 2 são aqueles típicos obtidos por um analista experiente a partir da pesagem até o miligrama mais próximo (que corresponde a 0,001 mL) em uma balança de prato superior, sendo cuidadoso no sentido de evitar erros sistemáticos. Mesmo assim, os resultados variaram entre 9,969 mL e 9,994 mL. Esse espalhamento dos dados em uma faixa de 0,025 mL resulta diretamente do acúmulo de todas as incertezas aleatórias envolvidas no experimento.

A informação contida na Tabela 1 é mais facilmente visualizada se os dados forem rearranjados em grupos de distribuição de frequência, como na Tabela 2. Nesse caso agrupamos o número de dados que se encontram em séries de faixas adjacentes de 0,003 mL e calculamos o percentual de medidas contidas em cada faixa. Observe que 26% dos resultados ocorrem na faixa de volume entre 9,981 e 9,983 mL. Este é o grupo que contém os valores médio e mediano de 9,982 mL. Observe também que mais da metade dos resultados estão na faixa de ±0,004 mL dessa média.

Tabela 3. Distribuição dos dados da Tabela 3.

Page 6: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

6

Os dados da distribuição de frequência da Tabela 3 estão representados como um gráfico de barras, ou histograma (indicado pela letra A na Figura 2). Podemos imaginar, com o aumento do número de medidas, que o histograma aproxima-se do formato de uma curva contínua, apontada como a curva B na Figura 2. Este gráfico mostra uma curva gaussiana, ou curva de erro normal, que se aplica a um conjunto infinitamente grande de dados.

A curva gaussiana tem a mesma média (9,982 mL), a mesma precisão e a mesma área sob a curva que o histograma.

Figura 2. Histograma (A) mostrando a distribuição de 50 resultados contidos na Tabela 4 e uma curva gaussiana (B) para os dados, tendo a mesma média e desvio padrão que os dados do histograma.

As variações em medidas de réplicas, como aquelas indicadas na Tabela 1, resultam de numerosos erros aleatórios pequenos e individualmente indetectáveis que são atribuídos a variáveis incontroláveis associadas ao experimento. Esses pequenos erros normalmente tendem a cancelar uns aos outros, tendo assim um efeito mínimo sobre o valor médio. Ocasionalmente, entretanto, ocorrem na mesma direção, para produzir um grande erro líquido positivo ou negativo.

As fontes de incertezas aleatórias na calibração de uma pipeta incluem (1) julgamentos visuais, tais como o nível de água em relação à marca na pipeta e ao nível de mercúrio no termômetro; (2) variações no tempo de escoamento e no ângulo da pipeta, durante seu escoamento; (3) flutuações na temperatura, que afetam o volume da pipeta, a viscosidade do líquido e o desempenho da balança; e (4) vibrações e correntes de ar que causam pequenas variações nas leituras da balança. Indubitavelmente, existem muitas outras fontes de incertezas aleatórias nesse processo de calibração que não listamos aqui. Mesmo o processo simples de calibração de uma pipeta é afetado por muitas variáveis pequenas e incontroláveis. A influência cumulativa dessas variáveis é responsável pela distribuição dos resultados em torno da média.

12. Construindo gráficos

Em muitas circunstâncias a meta de realização das medições é descobrir ou estudar a relação entre duas variáveis. A pressão e o volume de um gás, o volume e a temperatura de uma substância ou a cor de uma solução e a intensidade dessa cor são exemplos de conjuntos de variáveis relacionadas. Quando uma variável muda, a outra também muda.

Page 7: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

7

Muitas vezes empregamos gráficos para visualizar a relação entre duas variáveis. Se existem duas variáveis, o gráfico será um plot bidimensional dos pontos que representam pares de valores dessas duas variáveis. Um exemplo de um gráfico bem desenhado está mostrado na Figura 3. Observe que o gráfico tem vários aspectos que ajudam a esclarecer seu significado.

Figura 3. Este é um exemplo de um gráfico bem feito. Observe a clareza do título, como as legendas dos eixos são adequadas, com os nomes das variáveis e suas unidades, os pontos dos dados visivelmente marcados e a curva suave, mostrando qual a tendência observada e qual a tendência extrapolada.

a. Características de um gráfico

1. Título. O título de um gráfico deve ser breve, mas suficiente para fornecer uma descrição clara da relação em estudo. Títulos como ”Laboratório número 1" ou “Volume e temperatura” não são aceitáveis porque o significado fica claro apenas para aqueles que participaram do experimento e será perdido a medida que for esquecido com a passagem do tempo.

2. Eixos rotulados. Cada eixo do gráfico deve ser claramente rotulado para mostrar as quantidades que ele representa e as unidades empregadas para medir as quantidades. Deve-se distinguir entre a quantidade medida (pressão, volume, temperatura, tempo etc.), e as unidades usadas para medir essa quantidade (atmosferas, litros, graus Celsius, segundos etc.).

É conveniente rotular cada eixo com o nome da quantidade medida seguida pela unidade, separando a unidade (geralmente abreviada) da quantidade com uma barra, por exemplo, Volume/L. Portanto, somente números precisam aparecer ao lado de cada eixo, e os eixos não precisam ser poluídos com as unidades em cada marcação. De fato, a barra significa que as variáveis representadas pelos números com unidades foram divididas pelas unidades, deixando números adimensionais marcados ao longo dos eixos.

3. Escalas. A escala de cada eixo deve ser escolhida cuidadosamente, de tal forma que a faixa de variação total dos valores possa ser marcada no gráfico. Por razões práticas 2, 4, 5 ou 10 divisões num gráfico de papel devem representar uma unidade decimal da variável. Essa equivalência facilitará estimar valores que caiam entre as divisões da escala. Para maior exatidão e proporções mais agradáveis, as escalas selecionadas devem ser escolhidas de tal forma que o gráfico praticamente ocupe a página toda. Assegure-se, entretanto, de que nenhum ponto marcado saia das margens do gráfico.

Observe que o canto inferior esquerdo do gráfico não precisa representar zero em nenhum dos eixos. Se a amplitude dos valores marcados se estender para zero, essa pode ser uma boa escolha, mas se não, haverá muito espaço desperdiçado no gráfico.

4. Pontos de dados. É considerado útil marcar a localização de cada dado com um ponto bem pequeno e então fazer um círculo em torno dele para torna-lo mais visível.

Page 8: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

8

5. A curva. Uma curva suave deve ligar os pontos. Ela deve passar o mais perto possível de cada ponto, mas eles não devem ser ligados uns aos outros com curtos segmentos de reta. Se a relação aparentar ser linear, a curva suave deve ser uma linha reta. Se a linha se estender além da amplitude dos valores medidos, essa extensão deve ser indicada por uma linha tracejada e não por uma linha cheia.

b. Relações Lineares

Ainda que muitas variáveis em sistemas químicos possam ser relacionadas de modo complexo não linear, algumas relações resultam em proporções diretas, isto é, o valor de uma variável é um fator constante vezes o valor da outra variável mais ou menos uma segunda constante. Quando existe essa relação de proporcionalidade, o gráfico de duas variáveis será uma linha reta. Um exemplo de gráfico linear é mostrado na Figura 4, que é um gráfico do volume de uma amostra de gás versus a temperatura do gás.

Figura 4. Relação entre a temperatura e o correspondente volume de uma amostra de hidrogênio gasoso. É uma proporção direta, como representada pela Lei de Charles, V = kT = k(°C + 273), marcada como uma linha reta.

A inclinação da linha é um fator constante relacionando as duas variáveis. A inclinação pode ser determinada usando-se quaisquer dois pontos da linha, como mostrado na Figura A-2. Note que a inclinação é calculada em unidades das duas variáveis.

Na Figura 4 o ponto na linha em que o valor do volume é zero (que é onde a linha cruza o eixo de temperatura) é chamado de intercepto.

Havendo relação entre as duas variáveis, é possível estimar o valor que uma variável teria para qualquer valor da outra variável usando-se o gráfico. Se o ponto de interesse ficar dentro da amplitude dos valores medidos, essa estimativa chama-se interpolação. Por exemplo, na Figura 3 podemos determinar por interpolação que a 125°C a pressão de vapor da água é de aproximadamente 1800 torr.

Se a estimativa for feita além da amplitude das medidas, o processo chama-se extrapolação. Na Figura 3 podemos ver que a pressão de vapor da agua a 155°C é de 4000 torr, aproximadamente.

A interpolação e a extrapolação são técnicas úteis, mas ambas são estimativas e assumem que o gráfico seja exato ou que ele se estenda além dos valores medidos. Especialmente na extrapolação essa hipótese pode conduzir a conclusões incorretas

Page 9: Estatística aplicada a Laboratório

Engenharia Química – Laboratório de Engenharia Química – Unileste – 2015.2 – Profª. Djolse Dantas

9

EXERCÍCIO 1- Um analista determinou a concentração de ferro em uma amostra de concentração conhecida (20,00

mg/L), obtendo-se os seguintes resultados:19,4; 19,5; 19,6; 19,8; 20,1 e 20,3. a) Valor médio: b) Mediana: c) Erro absoluto: d) Erro relativo da leitura 19,8 mg/L: e) Desvio padrão: f) Coeficiente de variação (erro de reprodutibilidade):

2- Os dados relacionados nas Tabelas 1, 2 e 3 referem-se ao consumo de xilose, produção de xilitol e

crescimento celular observados durante cultivos da levedura C. parapsilosis. Os três experimentos foram realizados em condições idênticas. A partir dos dados experimentais disponíveis, avalie o erro experimental associado à determinação de cada variável estudada (calcular todas as variáveis), analise a reprodutibilidade dos experimentos a partir dos cálculos de coeficiente de variação e construa, para cada tabela gráficos de concentração x tempo.

Tabela 1. Dados experimentais do Cultivo 1 de C. parapsilosis para produção de xilitol.

Tempo (h) CXILOSE (g/L) CXILITOL (g/L) CCÉLULAS (g/L)

0 84,9 0 1,6

22 69,1 10,8 4,3

35 54,7 18,0 7,0

48 44,8 24,8 10,4

59 33,1 31,5 11,9

69,5 20,8 38,7 13,3

80 13,2 44,5 14,5

94 3,9 48,6 17,4

101 1,5 47,0 18,2

Tabela 2. Dados experimentais do Cultivo 2 de C. parapsilosis para produção de xilitol.

Tempo (h) CXILOSE (g/L) CXILITOL (g/L) CCÉLULAS (g/L)

0 89,7 0 1,7

22 69,9 11,0 5,5

35 54,7 17,6 8,2

48 43,6 26,7 10,7

59 31,2 33,3 13,5

69,5 19,1 39,6 13,7

80 11,5 43,0 16,9

94 2,9 47,3 19,7

101 1,2 45,6 20,6

Tabela 3. Dados experimentais do Cultivo 3 de C. parapsilosis para produção de xilitol.

Tempo (h) CXILOSE (g/L) CXILITOL (g/L) CCÉLULAS (g/L)

0 87,2 0,0 1,7

11 77,6 5,5 4,1

23 67,5 11,4 7,2

44 49,9 21,0 13,1

55 40,6 25,8 16,0

66 31,4 30,2 18,4

77 22,1 34,4 20,2

88 12,9 38,4 21,0

99 3,7 42,2 20,7