Upload
miach
View
35
Download
0
Embed Size (px)
DESCRIPTION
Introduktion til biostatistik 2008 Biostatistics kap 1 , 2 og 3 Uge 46 Inge Henningsen. Introduktion til (bio)statistik. Hvad er (bio)statistik Data Planlægning af forsøg (Design) Gentagelser/Den videnskabelige metode Brug af statistiske metoder. Hvad er (bio)statistik?. - PowerPoint PPT Presentation
Citation preview
Inge Henningsen, University of Copenhagen, [email protected]
Introduktion til biostatistik 2008Biostatistics kap 1 , 2 og 3
Uge 46Inge Henningsen
Inge Henningsen, University of Copenhagen, [email protected]
Introduktion til (bio)statistik
• Hvad er (bio)statistik• Data• Planlægning af forsøg (Design)• Gentagelser/Den videnskabelige metode• Brug af statistiske metoder
Inge Henningsen, University of Copenhagen, [email protected]
Hvad er (bio)statistik?
Statistiske Metoder omfatter procedurer for
• At planlægge undersøgelser• Indsamle data • Præsentere og opsummere data• Slutte fra en stikprøve (et udvalg af data) til en
bagvedliggende population
Inge Henningsen, University of Copenhagen, [email protected]
Data – Grundlaget for undersøgelser
Observationer med variabilitet/usikkerhed
Biologisk variation
“Målefejl”
“Crap in – crap out”
Inge Henningsen, University of Copenhagen, [email protected]
Planlægning af forsøg
•Afgrænsning af undersøgelsespopulation/referenceramme
•Valg af undersøgelsesenheder (randomisering)
•Målemetoder
•Repræsentativitet/Generalisering
•Stikprøvestørrelse
Inge Henningsen, University of Copenhagen, [email protected]
Planlægning af forsøg
• Afgrænsning af undersøgelsespopulation/referenceramme
• Valg af undersøgelsesenheder (randomisering)
• Målemetoder
• Repræsentativitet/Generalisering
• Stikprøvestørrelse
Inge Henningsen, University of Copenhagen, [email protected]
Gentagelse/den videnskabelige metode
• Sammenhæng er ikke kausalitet
• Metaanalyser
Inge Henningsen, University of Copenhagen, [email protected]
Brug af statistiske metoder
Det vigtigste er at forstå den sammenhæng i hvilken de statistiske procedurer bruges
Denne sammenhæng omfatter
• Formålet med undersøgelsen• Data• Hvordan data er indsamlet og målt• Grundlaget for at bruge de forskellige statistiske
procedurer
Mere end at kunne bruge en statistikpakke!!!!
Inge Henningsen, University of Copenhagen, [email protected]
Data og tal
2.1 Data: Numerisk Repræsentation2.2 Observationer og Variable2.3 Skalaer 2.4 Reliabilitet and Validitet2.6 Almindelige Problemer med Data
Inge Henningsen, University of Copenhagen, [email protected]
Data og tal
2.1 Data: Numerisk Repræsentation2.2 Observationer og Variable
Inge Henningsen, University of Copenhagen, [email protected]
Data dig40 (udsnit)
id trtmt age race sex bmi creat sysbp
2289 0 76 1 1 30.586 1.700 130
6745 0 45 1 1 22.850 1.398 130
1322 1 45 1 2 43.269 0.900 115
538 1 31 1 1 27.025 1.159 120
999 1 47 1 2 30.506 1.386 120
3103 0 60 1 1 29.867 1.091 140
1954 1 77 1 1 26.545 1.307 140
5750 1 76 1 1 39.837 1.455 140
1109 0 68 1 2 27.532 1.534 144
.........
Inge Henningsen, University of Copenhagen, [email protected]
2.3 Skalaer
Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a
Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt
Inge Henningsen, University of Copenhagen, [email protected]
Måling af pH.
Apparatur 1 Apparatur 2 Dag Patient
Lab 1 Lab 2 Lab 3 Lab 4 Lab 5 Lab 6
1 7.369 7.364 7.363 7.351 7.371 7.355
2 7.367 7.367 7.359 7.341 7.380 7.355
3 7.359 7.350 7.360 7.332 7.365 7.345
1
4 7.355 7.350 7.337 7.332 7.362 7.339
5 7.421 7.440 7.441 7.452 7.448 7.432
6 7.411 7.398 7.405 7.415 7.418 7.404
2
7 7.407 7.395 7.395 7.398 7.407 7.390
8 7.472 7.7.482 7.487 7.482 7.474 7.469
9 7.476 7.465 7.488 7.477 7.452 7.477
10 7.378 7.388 7.385 7.390 7.384 7.373
11 7.364 7.371 7.374 7.360 7.348 7.359
3
12 7.419 7.427 7.420 7.420 7.412 7.417
Inge Henningsen, University of Copenhagen, [email protected]
2.4 Reliabilitet (pålidelighed) og Validitet
Reliabilitet - gentagen brug af metoden vil give (omtrent) de samme resultater
Validitet - måler metoden det man tror at den måler
Inge Henningsen, University of Copenhagen, [email protected]
Almindelige dataproblemer
• Manglende værdier• Outliers • Koder som 99 eller 999 for manglende observationer
behandles som datra• Ændringer i målemetode/ i kodning/ niveauskift for proces
etc.• Data er for “pæne”• Falsifikation
Inge Henningsen, University of Copenhagen, [email protected]
Introduktion til biostatistik 2008Biostatistics kap 3
Inge Henningsen
Inge Henningsen, University of Copenhagen, [email protected]
Hvad er (bio)statistik?
Statistiske Metoder omfatter procedurer for
• At planlægge undersøgelser• Indsamle data • Præsentere og opsummere data• Slutte fra en stikprøve (et udvalg af data) til en
bagvedliggende population
Inge Henningsen, University of Copenhagen, [email protected]
Data – Grundlaget for undersøgelser
Data er “Numerisk Repræsentation”• Observationer og Variable• Målinger og skalaer
Observationer med variabilitet/usikkerhed• Biologisk variation• “Målefejl”
Inge Henningsen, University of Copenhagen, [email protected]
Data dig40 (udsnit)
id trtmt age race sex bmi creat sysbp
2289 0 76 1 1 30.586 1.700 130
6745 0 45 1 1 22.850 1.398 130
1322 1 45 1 2 43.269 0.900 115
538 1 31 1 1 27.025 1.159 120
999 1 47 1 2 30.506 1.386 120
3103 0 60 1 1 29.867 1.091 140
1954 1 77 1 1 26.545 1.307 140
5750 1 76 1 1 39.837 1.455 140
1109 0 68 1 2 27.532 1.534 144
.........
Inge Henningsen, University of Copenhagen, [email protected]
Skalaer
Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a
Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt
Inge Henningsen, University of Copenhagen, [email protected]
Beskrivelse af datasæt
Summariske mål
Niveau• Gennemsnit• Median• Modus
Variabilitet• Range• Interquartile range• Varians• Spredning
Inge Henningsen, University of Copenhagen, [email protected]
Middelværdi og varians
Spredning = standardafvigelse
Inge Henningsen, University of Copenhagen, [email protected]
Quartiler
25%-quartil= 25% af observationerne ligger til venstre for punktet
50%-quartil = 50% af observationerne ligger til venstre for punktet (median)
75%-quartil= 75% af observationerne ligger til venstre for punktet
Interquartil-afstand = 75%-quartil – 25%-quartil
Inge Henningsen, University of Copenhagen, [email protected]
Nogle noter om SAS systemet
PC-SAS. Version 9.1 for WindowsSAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke”
Andre systemer
Generelle Specialiserede
RBMDPSPSSSTATA
StatExactRATSDIGRAM
Inge Henningsen, University of Copenhagen, [email protected]
SAS Program
• SAS er et selvstændigt sprog.• Kræver (formelt) ikke kendskab til programmering
Særheder: • Variable deklareres ikke• Linieskift betyder ikke noget. I stedet bruges ’;’
SAS-program
Data-trin Her tilrettelægges data
Procedure-trin
Forprogrammerede procedurer til præsentation og statistisk analyse af data
Inge Henningsen, University of Copenhagen, [email protected]
Data dig40 (udsnit)
id trtmt age race sex bmi creat sysbp
2289 0 76 1 1 30.586 1.700 130
6745 0 45 1 1 22.850 1.398 130
1322 1 45 1 2 43.269 0.900 115
538 1 31 1 1 27.025 1.159 120
999 1 47 1 2 30.506 1.386 120
3103 0 60 1 1 29.867 1.091 140
1954 1 77 1 1 26.545 1.307 140
5750 1 76 1 1 39.837 1.455 140
1109 0 68 1 2 27.532 1.534 144
.........
Inge Henningsen, University of Copenhagen, [email protected]
Co-transfections assay
Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor.
Inge Henningsen, University of Copenhagen, [email protected]
Day 1: 2,2 x 105 cells are seeded in each of 8 dishes
Grow overnight in 10% medium supplemented with tetracycline
Day 2: Cells are incubated with transfectionmix for 6 hrs
1µg rep.plasmid 1µg rep. plasmid 0,5µg Cmv-luc 2µg plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 0,5µg plasmid
Dish 1: +Tet Dish 2-4: +Tet Dish 5-7: -Tet Dish 8: +Tet Positive control Negative control
Change medium
Day 3: Medium is changed to 05% medium
Grow overnight
Day 4: Cells are harvested and extracts are analysed
Inge Henningsen, University of Copenhagen, [email protected]
MARC740 UPase-n MARC184 MARC208 MARC740c MARC740i 2.47591 2.51629 2.63107
-0.02778 -0.25944 0.02508
-0.42481 0.42857 0.20779
0.41111 1.06776 0.81277
2.17903 2.28239 3.58600
-2.04620 -2.47058 -2.38402
Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg
Datasæt
Inge Henningsen, University of Copenhagen, [email protected]
Datasæt
Id Promotor Log-FI
1 MARC740 2.47591
2 MARC740 2.51629
3 MARC740 2.63107
4 Upase-n -0.02778
. . .
. . .
15 MARC740c 3.58600
16 MARC740i -2.04620
17 MARC740i 2.47058
18 MARC740i 2.38402
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datasættet har 37 observationer og 4 variable
• type, h, l, u,
der for hver observation angiver hhv• type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M
Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.
DATA cjd_4; INPUT type h l u; CARDS; 1 18 47 35 1 20 49 31 1 25 38 37 1 31 37 32 1 32 36 32 1 29 48 23 2 21 49 30 2 22 46 32 2 22 47 31 2 23 48 29 2 24 51 25 2 24 44 32 2 24 42 34 2 25 46 29 2 25 45 30 2 25 43 32 2 25 42 33 2 26 40 34 2 26 47 27 2 28 42 30 2 29 42 29 2 33 50 17 2 29 45 26 2 29 46 25 3 25 40 35 3 28 46 26 3 30 44 26 3 32 46 22 4 43 45 12 4 44 47 9 4 47 44 9 4 47 46 7 4 48 43 9 4 49 33 18 4 50 35 15 4 51 37 12 4 53 43 4
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datasættet har 43 observationer og 3 variable
•type, genotype, art
der for hver observation angiver hhv•type •genotype•genese
Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.
DATA cjd-1; INPUT type genotype $ art $ ; CARDS; 1 mm s 1 mm s 1 mm s 1 mm s 1 mm s 1 mm i 2 mm s 2 mm s 2 mm s 2 mm s . . 2 vv s 2 vv s 2 mm i 3 mv i 3 vv i . . . 4 mm n 4 mm n 4 mm n ;
Inge Henningsen, University of Copenhagen, [email protected]
Data dig40 (udsnit)
id trtmt age race sex bmi creat sysbp
2289 0 76 1 1 30.586 1.700 130
6745 0 45 1 1 22.850 1.398 130
1322 1 45 1 2 43.269 0.900 115
538 1 31 1 1 27.025 1.159 120
999 1 47 1 2 30.506 1.386 120
3103 0 60 1 1 29.867 1.091 140
1954 1 77 1 1 26.545 1.307 140
5750 1 76 1 1 39.837 1.455 140
1109 0 68 1 2 27.532 1.534 144
.........
Inge Henningsen, University of Copenhagen, [email protected]
Skalaer
Skala Eksempel Meningsfuldt Gennemsnit Ratio Nominal Køn Nej Nej Ordinal Smertefølelse Nej Nej Interval Temperatur J a Nej Ratio Vægt J a J a
Nominal/kategoriskOrdinal/ordnetInterval/afstand giver meningRatio/interval + nulpunkt
Inge Henningsen, University of Copenhagen, [email protected]
Beskrivelse af datasæt
Summariske mål
Niveau• Gennemsnit• Median• Modus
Variabilitet• Range• Interquartile range• Varians• Spredning
Inge Henningsen, University of Copenhagen, [email protected]
Middelværdi og varians
Spredning = standardafvigelse
Inge Henningsen, University of Copenhagen, [email protected]
Quartiler
25%-quartil= 25% af observationerne ligger til venstre for punktet
50%-quartil = 50% af observationerne ligger til venstre for punktet (median)
75%-quartil= 75% af observationerne ligger til venstre for punktet
Interquartil-afstand = 75%-quartil – 25%-quartil
Inge Henningsen, University of Copenhagen, [email protected]
Nogle noter om SAS systemet
PC-SAS. Version 9.1 for WindowsSAS (= Strategic Analysis system) er Statistik-system/”Statistik-pakke”
Andre systemer
Generelle Specialiserede
RBMDPSPSSSTATA
StatExactRATSDIGRAM
Inge Henningsen, University of Copenhagen, [email protected]
SAS Program
• SAS er et selvstændigt sprog.• Kræver (formelt) ikke kendskab til programmering
Særheder: • Variable deklareres ikke• Linieskift betyder ikke noget. I stedet bruges ’;’
SAS-program
Data-trin Her tilrettelægges data
Procedure-trin
Forprogrammerede procedurer til præsentation og statistisk analyse af data
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datamatrix
Var1 Var2 Var3 Var4 Var5
Obs 1
Obs2
Obs3
Obs4
Obs5
Obs6
Obs7
Obs8
Obs9
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datamatrix
Id Prom Beh M1 FI
Obs 1 56 U Ja 22.3 2.18
Obs2 9 M Ja 31.2 0.38
Obs3 3 M Nej 18.6 1.12
Obs4 32 M Ja 22.8 0.22
Obs5 4 U Ja 25.3 0.15
Obs6 33 U Nej 11.5 0.71
Obs7 2 M Nej 83.3 1.38
Obs8 5 U Ja 19.7 0.66
Obs9 18 U Nej 22.2 0.58
Inge Henningsen, University of Copenhagen, [email protected]
Data dig40 (udsnit)
id trtmt age race sex bmi creat sysbp
2289 0 76 1 1 30.586 1.700 130
6745 0 45 1 1 22.850 1.398 130
1322 1 45 1 2 43.269 0.900 115
538 1 31 1 1 27.025 1.159 120
999 1 47 1 2 30.506 1.386 120
3103 0 60 1 1 29.867 1.091 140
1954 1 77 1 1 26.545 1.307 140
5750 1 76 1 1 39.837 1.455 140
1109 0 68 1 2 27.532 1.534 144
.........
Inge Henningsen, University of Copenhagen, [email protected]
Co-transfections assay
Undersøgelse af effekten af v-H-ras på to geners promotorer, MARC og UPase. Data stammer fra co-transfektions assays af et reporter konstrukt indeholdene enten promotoren for MARC eller for UPase. Den respektive promotor er klonet ind i et plasmid der indeholder genet for Luciferase, sådan at genet kommer under promotorens kontrol. Luciferase omdanner luciferin til et flourescerende stof. Jo mere promotor aktivitet, jo større mængder Luciferase og jo større lysintensitet fås. For hver af 6 promotorer, MARC740, UPase-n, MARC184, MARC208, MARC740c og MARC740i, foretoges 3 målinger af mængden af Luciferase efter tilsættelse af 1.5 $\mu$g Ras plasmid. Målingerne, der er korrigeret for udsving i transmissions- effektivitet og for aktivitet ved 0 $\mu$g Ras plasmid, er i det følgende betegnet foldinduktionen. Logaritmen til foldinduktionen er angivet i tabellen nedenfor.
Inge Henningsen, University of Copenhagen, [email protected]
Day 1: 2,2 x 105 cells are seeded in each of 8 dishes
Grow overnight in 10% medium supplemented with tetracycline
Day 2: Cells are incubated with transfectionmix for 6 hrs
1µg rep.plasmid 1µg rep. plasmid 0,5µg Cmv-luc 2µg plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 1µg lac-Z plasmid 0,5µg plasmid
Dish 1: +Tet Dish 2-4: +Tet Dish 5-7: -Tet Dish 8: +Tet Positive control Negative control
Change medium
Day 3: Medium is changed to 05% medium
Grow overnight
Day 4: Cells are harvested and extracts are analysed
Inge Henningsen, University of Copenhagen, [email protected]
MARC740 UPase-n MARC184 MARC208 MARC740c MARC740i 2.47591 2.51629 2.63107
-0.02778 -0.25944 0.02508
-0.42481 0.42857 0.20779
0.41111 1.06776 0.81277
2.17903 2.28239 3.58600
-2.04620 -2.47058 -2.38402
Logaritme til foldinduktion efter tilsættelse af Plasmid i 6 forsøg
Datasæt
Inge Henningsen, University of Copenhagen, [email protected]
Datasæt
Id Promotor Log-FI
1 MARC740 2.47591
2 MARC740 2.51629
3 MARC740 2.63107
4 Upase-n -0.02778
. . .
. . .
15 MARC740c 3.58600
16 MARC740i -2.04620
17 MARC740i 2.47058
18 MARC740i 2.38402
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datasættet har 37 observationer og 4 variable
• type, h, l, u,
der for hver observation angiver hhv• type • andel højmokylær M • andel lav molekylær M • andel uglykosyleret M
Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.
DATA cjd_4; INPUT type h l u; CARDS; 1 18 47 35 1 20 49 31 1 25 38 37 1 31 37 32 1 32 36 32 1 29 48 23 2 21 49 30 2 22 46 32 2 22 47 31 2 23 48 29 2 24 51 25 2 24 44 32 2 24 42 34 2 25 46 29 2 25 45 30 2 25 43 32 2 25 42 33 2 26 40 34 2 26 47 27 2 28 42 30 2 29 42 29 2 33 50 17 2 29 45 26 2 29 46 25 3 25 40 35 3 28 46 26 3 30 44 26 3 32 46 22 4 43 45 12 4 44 47 9 4 47 44 9 4 47 46 7 4 48 43 9 4 49 33 18 4 50 35 15 4 51 37 12 4 53 43 4
Inge Henningsen, University of Copenhagen, [email protected]
Datatrin
Datasættet har 43 observationer og 3 variable
•type, genotype, art
der for hver observation angiver hhv•type •genotype•genese
Kilde: Collinge et al, Nature vol 383, 24. oktober 1996.
DATA cjd-1; INPUT type genotype $ art $ ; CARDS; 1 mm s 1 mm s 1 mm s 1 mm s 1 mm s 1 mm i 2 mm s 2 mm s 2 mm s 2 mm s . . 2 vv s 2 vv s 2 mm i 3 mv i 3 vv i . . . 4 mm n 4 mm n 4 mm n ;