Optimering av metodiken vid genotypning av stora DNA-material …306576/FULLTEXT01.pdf · 2010-03-30 · Optimering av metodiken vid genotypning av stora DNA-material Karin Jensevik

Optimering av metodiken vid genotypning av stora

DNA-material

Karin Jensevik

U.U.D.M. Project Report 2003:14

Examensarbete i matematisk statistik, 20 poäng

Handledare: Lars Berglund, UCR, Uppsala universitet

och Tomas Axelsson, Institutionen för medicinska vetenskaper, Uppsala universitet

Examinator: Dag Jonsson

Oktober 2003

Department of Mathematics

Uppsala University

Sammanfattning Vid studier av människans DNA används ibland så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNA-material, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Vid genotypning av stora DNA-material skulle en förfinad metodik spara både tid och pengar. Målet är att på ett tidigt stadium i genotypningen upptäcka de markörer som är kopplade till varandra. Genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. De simuleringsmetoder som användes var bootstrap-metoden och jackknife-metoden. Det bästa resultatet erhölls från jackknife-metoden och enkelsidiga 95 % konfidensintervall till kopplingsmåtten räknades fram. Via en enkel grafisk lösning kan sedan ett snabbt svar fås om kopplingen mellan markörerna i ett par är tillräckligt stark för att avsluta genotypning av en av markörerna.

Ett tack till… Jag vill tacka min examinator Dag Jonsson (Matematiska institutionen, Uppsala Universitet) och mina handledare Lars Berglund (UCR, Uppsala Universitet) och Tomas Axelsson (Institutionen för medicinska vetenskaper, Uppsala Universitet) för all hjälp och vägledning under mitt examensarbete. Ett tack även till alla andra som jag har varit i kontakt med under arbetets gång.

1

Innehållsförteckning Innehållsförteckning................................................................................................................... 1 1. Introduktion............................................................................................................................ 2 2. Genetisk bakgrund.................................................................................................................. 3

2.1. Grundläggande begrepp .................................................................................................. 3 2.1.1. Rekombination ......................................................................................................... 5

2.2. Genotyper och haplotyper ............................................................................................... 7 3. Linkage Disequilibrium.......................................................................................................... 9

3.1. Vad menas med Linkage Disequilibrium? ...................................................................... 9 3.2. Olika mått på graden av LD ............................................................................................ 9

4. Studiepopulation och datamaterial ....................................................................................... 12 4.1. Genotypning och studiepopulation................................................................................ 12 4.2. Datamaterial .................................................................................................................. 12

5. Metoder ................................................................................................................................ 14 5.1. Programvara .................................................................................................................. 14 5.2. Omskrivning av R ......................................................................................................... 14

5.3. Härledning av en allmän variansformel för ^R .............................................................. 16

5.4. Simuleringsmetoder ...................................................................................................... 19 5.4.1. Bootstrap ................................................................................................................ 19 5.4.2. Jackknife................................................................................................................. 20 5.4.3. Jämförelser mellan bootstrap och jackknife........................................................... 21 5.4.4. Bootstrap- och jackknife-simuleringarna ............................................................... 22

6. Resultat................................................................................................................................. 24 6.1. De 10 LD-måtten och deras standardavvikelser enligt Gauss-approximationen .......... 24

6.1.1. Resultat av bootstrap- och jackknife-simuleringarna............................................. 26 6.1.2. Jämförelser mellan de tre olika standardavvikelserna............................................ 27

6.2. Vid vilket n kan man överväga att endast genotypa en SNP?....................................... 30 7. Diskussion ............................................................................................................................ 33 8. Referenser............................................................................................................................. 34 9. Genetisk ordlista................................................................................................................... 36 Bilaga 1. Haplotyptabeller för de tre mindre stickproven........................................................ 41

Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för ^R i

Maple........................................................................................................................................ 42

Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för ^R ............................ 43

Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen ................................................. 44 Bilaga. 5 1000 standardavvikelser genererade m.h.a. SAS...................................................... 45

2

1. Introduktion Genetiken är en relativt ung vetenskap som innehåller många frågeställningar som man ännu inte funnit svar på. Man gör fortfarande nya upptäckter och man slutförde alldeles nyligen en omfattande kartläggning av människans genom, arvsmassa. Studier av människans arvsanlag har t. ex. påvisat att vissa sjukdomar kan vara ärftliga. Vid studier av människans DNA används ofta så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNA-material, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Syftet med detta examensarbete är att förfina metodiken vid genotypning av stora DNA-material. Man vill på ett tidigt stadium i genotypningen kunna upptäcka om det finns några markörer som är kopplade till varandra. Starkt kopplade markörer ökar inte informationsvärdet och genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Detta sparar både tid och pengar vid genotypning av stora DNA-material. I kapitel 2 förklaras de genetiska begrepp och termer, som denna uppsats innefattar. De kopplingsmått som finns att tillgå vid beräkningar av beroende mellan olika typer av genetiska markörer i en DNA-sekvens introduceras i kapitel 3. Sedan följer i kapitel 4 en presentation av studiepopulationen och en beskrivning av valet av datamaterial, som beräkningarna sedan utfördes på. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. Hur detta gjordes redovisas i kapitel 5. I kapitel 6 sammanfattas de resultat vi fick och i kapitel 7 diskuteras resultaten. I kapitel 9 finns en genetisk ordlista, som ger en lite mer detaljerad förklaring av de genetiska termer och begrepp, som är markerad med kursivstil i texten.

3

2. Genetisk bakgrund

2.1. Grundläggande begrepp De mest grundläggande enheterna vid studier av arv hos människan är generna. Människan har ca 30 000 gener som är uppdelade på 46 kromosomer, som i sin tur bildar 23 stycken kromosompar. Ett av kromosomparen bestämmer könet på individen. Dessa kromosomer kallas för X- och Y-kromosomer, könskromosomerna. Kvinnor har ett par av X-kromosomer medan män har en X-kromosom och en Y-kromosom. Övriga kromosomer kallas autosomer. I ett kromosompar är den ena kromosomen ett arv från fadern och den andra kromosomen ett arv från modern. Dessa kromosomer är lika till form och storlek, samt nästan identiska i genetisk komposition. Man säger att dessa kromosomer är homologa. Människans kroppsceller har alltså dubbel uppsättning av kromosomer, en från varje förälder. Sådana celler eller individer kallas för diploider. De minsta byggstenarna i en kromosom är basparen, som består av de fyra kvävebaserna adenin (A), cytosin (C), guanin (G) och tymin (T). Adenin och tymin binder kemiskt med varandra och cytosin binder kemiskt med guanin. Kvävebaserna bildar tillsammans med fosfat- och sockergrupper nukleotider. Gener är sammansatta sektioner av nukleotider, som bildar en lång molekyl kallad deoxyribonukleinsyra, DNA. DNA-molekylen har formen av en dubbelspiral, en s.k. dubbel helix. (Figur 1).

Figur 1: Schematisk bild över kromosomens byggstenar och utseende. [15]

4

En individs DNA-sekvens är till 99.9 % identisk med en annan individs DNA-sekvens. Cirka 80 % av de 0.1 % DNA, som skiljer sig åt mellan individer, är så kallade Single Nucleotide Polymorphisms, SNP.[16] En SNP är en genetisk variation som förekommer i en individs DNA-sekvens. Det är en enkel bassubstitution av en nukleotid med en annan, t.ex. att en nukleotid med basen A har ersatt en av de andra nukleotiderna C, G eller T.[19] Ett exempel på en SNP är om en individ har DNA-sekvensen GAACCT i en av kromosomerna i ett homologt kromosompar och DNA-sekvensen GAGCCT i den andra kromosomen, dvs. variationen i den tredje positionen utgörs av baserna A och G. Man säger att polymorfismen är A/G (Figur 2). Det speciella genetiska mönstret som ses i en individs DNA kallas för genotyp och i exemplet i figur 2 är A/G en av tre möjliga genotyper för just denna polymorfi, som en individ kan ha i populationen. Det två andra genotyperna en individ kan ha i exemplet nedan är A/A eller G/G. [16]

Figur 2: En Single Nucleotide Polymorphism, SNP [15] Man säger att en individ är heterozygot för en SNP när kvävebaserna är olika, t.ex. A/G, och homozygot om det är två likadana kvävebaser, t.ex. A/A. För att få ett korrekt resultat vid bestämning av SNP är det viktigt att man ”läser av” basparen i kromosomerna från samma håll, dvs. att man väljer en sida av den kemiska bindningen mellan basparen i DNA-molekylen och läser av dessa baspar. I exemplet ovan blir en heterozygot individ T/C om man läser av basparen på den motsatta sidan av den kemiska bindningen. För att det ska vara en SNP måste den minst förekommande basen i en genotyp förekomma med en frekvens större än 1 % i den allmänna populationen på kromosomnivå.[16] Med kromosomnivå menas att man tittar på alla kromosomer i populationen, dvs. två gånger antalet individer i populationen. Om frekvensen för den minst förekommande basen i en genotyp är mindre än 1 % kallas inte DNA-variationen för SNP utan istället för mutation. Människans DNA producerar proteiner som har olika funktioner i våra celler. Det är basparens inbördes ordning i en DNA-sekvens som bestämmer vilken typ av protein som ska bildas. Dock är det endast ca 3-5 % av en individs DNA, som kodar för produktionen av

5

protein. Resten sägs hittills bara vara ”tom” kod. De flesta SNP:ar hittas just i dessa avsnitt av ”tom” kod. SNP:ar som finns med i ett avsnitt som kodar för protein eller som styr uttrycket av genen är av stort intresse, eftersom det kan bidra till alternering av biologiska funktioner hos proteinet eller leda till att förändra mängden protein som bildas. En eller flera alternativa former av en gensekvens vid ett specifikt kromosomalt locus kallas för en allel. Med locus (pl. loci) menas en unik kromosomal plats som definierar positionen för en enskild gen eller en DNA-sekvens eller ett baspar. Man har alltid två alleler vid ett s.k. autosomalt locus, dvs. i våra kroppsceller, en från modern och en från fadern. Dessa alleler kan vara lika eller olika, samt ha olika typer av nedärvningsmönster som t.ex. dominanta eller recessiva alleler. Om egenskapen har dominant nedärvning som i ögonfärg, är det den dominanta allelen som bestämmer. Till exempel om en person ärver en allel för bruna ögon från en förälder och en allel för blåa ögon från den andra föräldern kommer det nästan alltid resultera i att personen får bruna ögon, eftersom den allel, som ger brun ögonfärg är dominant gentemot blå ögonfärg. För att en recessiv allel skall slå igenom måste det finnas två recessiva alleler och ingen dominant allel vid ett och samma locus. [13]

2.1.1. Rekombination Det är endast vid celldelning som kromosomerna blir synliga för oss. Det är då de långa DNA- molekylerna ”rullar” ihop sig och får en kryssliknande form, som då kan ses med hjälp av ett mikroskop. Det finns två typer av celldelning, mitosis och meiosis. Mitosis sker i våra ”vanliga” celler, t ex. vid tillväxt, medan meiosis bildar könsceller, dvs. ägg hos kvinnan och spermier hos mannen. [6] Könscellerna innehåller inga homologa kromosompar utan endast en uppsättning av kromosomer, dvs. 23 stycken. Celler som endast har en uppsättning av kromosomer kallas för haploider. Vid befruktningen då ägg och spermie förenas bildas en diploid cell med varsin uppsättning kromosomer från modern och från fadern. Kvinnor bildar könsceller endast en gång i livet och det är i fosterstadiet. Då bildas cirka 600.000 ägg. För männen börjar produktionen av spermier i puberteten och dessa nybildas sedan regelbundet under hela livet. Figur 3 visar en bild av de olika faserna i meiosis.

Figur 3: Illustration över hur 4 könsceller bildas när en enkel diploid föräldrarcell delar sig och bildar fyra haploida dotterceller. [15]

6

Under profas 1 i meiosis kan det ske något som kallas för rekombination. Det är då par av homologa kromosomer kommer i kontakt med varandra och utbyter segment. Varje kromosom består av två så kallade syster-kromatider, som är exakt identiska med varandra. Dessa förenar sig vid celldelning och hålls ihop av en punkt som kallas för centromer. Bara två av de fyra kromatiderna är involverade i rekombinationen. Processen kallas också överkorsning eller crossover. Om överkorsning sker mellan två loci på homologa kromatider kommer två kromatider att skapas som är rekombinanta. Följaktligen genererar en sådan crossover 50 % rekombinanta kromatider och 50 % icke-rekombinanta kromatider s.k. föräldrartyper. Sannolikheten att en överkorsning sker mellan två närliggande loci är mindre än om avståndet är stort mellan dem. Därför kommer rekombination sällan att separera loci som ligger väldigt nära varandra på en kromosom. Detta leder till att set av alleler inom begränsade kromosomala segment tenderar att bli överförda som block genom generationer. Ett sådant block kallas för haplotyp. [6] Låt oss antaga att vi har en individ som är heterozygot för två loci som ligger på samma kromosom, t.ex. a1A1 b2B2, och att allelerna a1 och b2 för denna individ kommer från en förälder och att A1 och B2 kommer från den andra föräldern. Denna individs barn som ärver en av föräldrarkombinationerna a1b2 eller A1B2 sägs vara icke-rekombinanta, dvs. de ärver en hel haplotyp. Däremot barn som ärver a1B2 eller b2A1 sägs vara rekombinanta, dvs. haplotypen bryts upp. Proportionen barn vilka är rekombinanta är rekombinationsandelen θ mellan de två loci 1 och 2. [6]

Figur 3: Visar ett schema över en kromosom som duplicerar sig under meiosis och vars kromatider utbyter DNA-segment med varandra, en så kallad överkorsning. Kromosomalsegment inom begränsade områden är opåverkade av rekombination och behåller därför sin struktur. Detta innebär att DNA-variationer, som t.ex. SNP:ar, inom segmentet nedärves i ett haplotypblock. Färska undersökningar har visat att människans genom (arvsmassa) kan delas upp i haplotypblock med en begränsad diversitet, dvs. de typer av

7

haplotypblock, som man kan rekonstruera med hjälp av DNA-markörer, som t.ex. SNP:ar, i människans genom är relativt få. I fall då man ej kan påvisa att enskilda polymorfier påverkar en egenskap kan analys av haplotyper användas. Endast ett begränsat antal SNP:ar behövs för att skilja på olika haplotyper vilket gör att det inte är nödvändigt att genotypa samtliga polymorfier inom ett haplotypblock. Förhoppningen är att genetiska studier av t.ex. komplexa sjukdomar och egenskaper kommer att förenklas genom analys av haplotyper. Detta förutsätter dock att DNA-variationer som påverkar dessa egenskaper är ”vanliga” och finns i relativt hög frekvens i populationen. Mutationer som uppkommit naturligt i en individ eller på grund av strålning eller virus kan ge upphov till DNA-variationer, men dessa uppträder oftast i enstaka individer eller familjer och räknas inte som ”vanliga” DNA-variationer.

2.2. Genotyper och haplotyper I tabell 1 nedan visas ett exempel med de tre möjliga genotyperna för ett par av SNP:ar och deras frekvenser nij i stickprovet, där i, j = 1, 2, 3. Genotyperna är C/C, C/T och T/T för SNP 1 och A/A, A/G och G/G för SNP 2. Haplotyperna i detta exempel ges i tabell 2 nedan. Tabell 1. Genotypsfrekvenser för ett par av SNP:ar

SNP 1 SNP 2 C/C C/T T/T

rad- summa

A/A n11 n12 n13 n1.

A/G n21 n22 n23 n2.

G/G n31 n32 n33 n3. kolonnsumma n.1 n.2 n.3 n..

När man har två SNP:ar som båda är homozygoter blir haplotypbestämningen enkel. I tabell 1 ovan finns det n11 stycken personer vars SNP 1 är C/C och SNP 2 är A/A. Dessa kan vi kombinera på två sätt men de båda sätten ger samma haplotypresultat, CA. När vi sedan ska räkna fram haplotypfrekvensen för CA får vi multiplicera n11 med två. Låt oss nu titta på de personer, n21 och n12, som har SNP-kombinationer med en homozygot SNP och en heterozygot SNP. De personer vars SNP 1 är C/C och SNP 2 är A/G har haplotypkombinationerna CA och CG och de personer vars SNP 1 är C/T och SNP 2 är A/A har haplotypkombinationerna CA och TA. Här ser vi att haplotypen CA förekommer i de båda fallen, så n21 och n12 ska även räknas med i haplotypfrekvensen för CA. Haplotypsbestämningen av n22, SNP 1 C/T och SNP 2 A/G, är ej entydig. Förklaringen är att vi här har två SNP:ar som båda är heterozygoter. I ett laboratorium kan man inte avgöra från vilken förälder nukleotiderna kommer från, vilket resulterar i att vi får olika möjliga haplotyper, dvs. CA och TG, eller TA och CG. Oftast är en av haplotypvarianterna mer vanlig än den andra och förekommer med en större sannolikhet i populationen. För att kunna bestämma vilken av haplotypvarianterna som är mer vanlig tas EM-algoritmen till hjälp. EM-algoritmen är en iterativ metod som ger en maximum likelihood-skattning (ML) av haplotypfrekvenserna i en multinomial population, förutsatt att man inte väljer partner efter haplotyper.[9]

8

Låt oss säga att det är haplotyperna 1 och 4, se tabell 2, som är mest vanliga i DNA-materialet och att de förekommer tillsammans i populationen med en sannolikhet 0.97. Vi ska då addera 0.97*n22 till Haplotyp 1 och Haplotyp 4, samt 0.03* n22 till Haplotyp 2 och Haplotyp 3. Tabell 2. Haplotyper Haplotyp 1: C A = 2*n11 + n12 + n21 + 0.97*n22 = a Haplotyp 2: T A = n12 + 2*n13 + n23 + 0.03*n22 = b Haplotyp 3: C G = n21 +2*n31 + n32 + 0.03*n22 = c Haplotyp 4: T G = 2*n33 + n32 + n23 + 0.97*n22 = d Nu är haplotypbestämningarna fullständiga. Tabell 2 över haplotyperna och deras frekvenser kan skrivas om till en korstabell. Tabell 3 visar de absoluta haplotypfrekvenserna för ett stickprov. Tabell 3. Korstabell för de absoluta haplotypfrekvenserna för ett stickprov

SNP 1 SNP 2 C T

A a b

G c d Tabell 4 visar de relativa haplotypfrekvenserna för stickprovet och tabell 5 visar de motsvarande haplotypfrekvenserna för populationen. Tabell 4. Korstabell för de relativa haplotypfrekvenserna för ett stickprov

SNP 1 SNP 2 C T summa

A pra prb pra + prb

G prc prd prc + prd

summa pra + prc prb + prd 1 Tabell 5. Korstabell för de relativa haplotypfrekvenserna i populationen

SNP 1 SNP 2 C T summa

A pa pb pa + pb

G pc pd pc + pd

summa pa + pc pb + pd 1

9

3. Linkage Disequilibrium

3.1. Vad menas med Linkage Disequilibrium? Den kopplingsgrad, som nämndes i introduktionen och som mäter beroendet mellan par av genetiska markörer kallas för Linkage Disequilibrium*. Definitionen av Linkage Disequilibrium (LD) eller allelic association som det också kallas, är när enskilda alleler vid två distinkta loci förekommer mer frekvent i könscellerna än förväntat under hypotes om oberoende, dvs. linkage equilibrium. Detta förutsätter att man känner till allelfrekvenserna i populationen mellan de aktuella loci, samt rekombinationsandelen θ.[13] LD hänvisar till ett icke-oberoende förhållandet mellan alleler vid olika positioner. Antag till exempel att allelen A vid locus 1 och allelen B vid locus 2 har frekvenserna Aπ respektive

Bπ i populationen. Om de två loci är oberoende av varandra förväntas allelfrekvensen för AB-haplotypen vara Aπ Bπ . Visar det sig att allelfrekvensen i populationen för AB-haplotypen antingen är lägre eller högre än Aπ Bπ , vilket i det senare fallet indikerar att vissa alleler tenderar att bli observerade tillsammans, så är de två loci i LD med varandra.[12] När man studerar närliggande SNP:ar finns det ofta en grad av LD , dvs. att en persons värde på SNP 1 kan predicera personens värdet på SNP 2. En förklaring till detta kan vara att SNP 1 och SNP 2 ingår i samma haplotypblock. Om man vet att SNP:arna står i hög LD med varandra kan man välja att endast genotypa en av dem. Det sparar både tid och pengar vid genotypning av stora DNA-material.

3.2. Olika mått på graden av LD Ett locus med två alleler kallas för ett di-allelt locus, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. För ett par av di-allela loci, 1 och 2, mäter LD-statistikan D skillnader mellan två kvantiteter:

(1) Sannolikheten för att en allel från locus 1, (A1), och en allel från locus 2, (B2), förekommer tillsammans på samma kromosom.

(2) Den förväntade förekomsten av A1 och B2 tillsammans under linkage equilibrium.

Det uttryck som vi här betecknar 11p är proportionen av kromosomer på vilka allelerna A1 och B2 förekommer tillsammans i en population. Under linkage equilibrium är detta lika med produkten av allelfrekvenserna av A1 och B2 i populationen, dvs. differensen blir (3.1) 1111 qppD −= * equilibrium = jämviktsläge

10

Tabell 6. Relativa allelfrekvenserna för loci A och B A2 B2 Summa A1 p11 p1-p11 p1 B1 q1-p11 1-p1-q1+p11 p2 Summa q1 q2 1

Om D skiljer sig signifikant ifrån 0, så säger man att LD troligtvis existerar. Graden av LD mellan två loci är beroende av både rekombinationsandelen θ och tiden t i generationer,

( )tt DD θ−= 10 . Detta leder till att D tenderar att minska när de två loci kommer längre ifrån varandra och med tiden genom rekombination. D ger en enkel indikation om frekvensen av rekombination, samt om det fysiska avståndet mellan två loci. D kan skalas om till D’=D/Dmax, där Dmax= min( 21qp , 12qp ). I många jämförbara analyser där man har mätt LD mellan två loci har det visats sig att i nästan alla fall har LD-måttet D’ varit att föredra när man beräknar det fysiska avståndet mellan SNP:ar eller markörer. Det beror till största delen på att andra mått, som till exempel D, är beroende av allelfrekvenserna. En annan vanlig omskalning av D är R, som fås genom att dividera uttrycket för D med ( )2121 qqpp .

(3.2)

2121

1111

qqppqpp

R−

= där 11 ≤≤− R

Vid insättning av de observerade haplotypfrekvenserna fås ^R .

2^R har formen N2χ , där

2χ -statistikan med 1 frihetsgrad kan åstadkommas från en 2*2-tabell av de absoluta haplotypfrekvenserna, ( dcba ,,, ) (se tabell 3). N är här det totala antalet haplotyper i stickprovet. Detta gäller under förutsättning att loci A och B är oberoende av varandra, dvs. under hypotesen att 1111 qpp = . Det handlar alltså om 2χ -statistikan vid ett oberoendetest. [11] LD-måtten R och R2 har några fördelar jämfört med D’. För små stickprovsstorlekar och för låga allelfrekvenser överskattas D’, medan R uppvisar mer pålitliga stickprovsegenskaper. För ett par av SNP:ar måste det definitionsmässigt minst finnas två haplotyper med en frekvens > 0. D’ kommer att vara lika med 1.0 när en eller två haplotyper saknas i stickprovet. Fördelen med R är att R är lika med 1.0 när det bara är två haplotyper som saknas av de fyra möjliga. När ingen rekombination har skett mellan två markörer kommer D’ att vara lika med 1.0, förutsatt att inte det förekommit någon mutation eller fel vid genotypningen. Detta gäller ej för R, som är beroende av allelfrekvenserna för de två markörerna. Detta medför att man använder sig av D’ vid modellering av graden av rekombination och R och R2 vid modellering av associationsstyrkan. En annan viktig egenskap hos R vid associationsstudier är när man ska designa en studie för att hitta association mellan en specifik SNP A och en sjukdom och samtidigt uppnå en given styrka i studien. Om man antar att man kommer att mäta en SNP B som en markör med en viss grad av LD, mätt med R, till SNP A så behöver man öka antalet individer i studien med faktorn 21 R för att få rätt styrka i testen. Detta enkla förhållande mellan styrkan för två SNP:ar föreligger inte om man använder D eller D’ som LD-mått.[8] Ett aktuellt ämne som är av stort intresse är omfattningen av och fördelningen för LD i människan. LD spelar en fundamental roll vid kartläggningen av gener, både som ett verktyg

11

för en noggrannare kartläggning av komplexa sjukdomar och i den planerade vidsträckta associationsstudien av mänskliga gener. LD är också av intresse för vad den kan avslöja om människans historia och människans ursprung, eftersom fördelningen av LD i huvudsak bestäms av populationens historia. [12] Eftersom vi varken är intresserade av att beräkna det fysiska avståndet mellan SNP:arna eller rekombinationsandelen har vi valt att använda LD-måttet R i våra beräkningar av LD.

12

4. Studiepopulation och datamaterial

4.1. Genotypning och studiepopulation Vid enheten för molekylär medicin vid institutionen för medicinska vetenskaper i Uppsala bedrivs genotypning med flera olika metoder för ett antal tillämpningsområden. Som exempel kan nämnas farmakogenomik, där kandidatgener som reglerar svar på läkemedelsbehandling studeras. Vid genotypning har man möjlighet att studera stora patientmaterial av DNA. Tillvägagångssättet är att man väljer ut ett kromosomalt område eller en eller flera gener man vill studera och sätter så kallade marker, genetiska markörer, vid de SNP:ar man är intresserade av. Sedan genotypas dessa för varje person som är med i studien, dvs. man läser av SNP:arna vid markörerna för varje person. Det material som legat till grunden för vårt arbete är ULSAM, Uppsala Longitudinal Study of Adult Men.[20] Detta är en pågående studie av nästan alla män som är födda mellan 1920 och 1924 och som bodde i Uppsala kommun 1970. Dessa män blev undersökta vid 50, 60, 70 och 77 års ålder. Man har fokuserat sig på att identifiera faktorer som tros ligga bakom kardiovaskulära och metabola sjukdomar, som t. ex. hjärtinfarkt och diabetes.[7] Eftersom det nästan är alla män som är födda mellan dessa år är det ett populationsbaserat material. Det är totalt 2322 män som ingår ULSAM-projektet, men det DNA-material som vi har haft tillgång till omfattar 1052 män, som var med vid 70-årsundersökningen och för vilka DNA finns sparat.

4.2. Datamaterial DNA-materialet från genotypningen består av 5 st gener med 10, 14, 8, 6 samt 1 SNP:ar. Vi är endast intresserade av att beräkna LD för par av SNP:ar inom gener. Med hjälp av dataprogrammet Haplotyp Reconstructor, framtaget för att beräkna haplotyper, valdes den gen, som när ofullständiga genotypdata tagits bort gav störst stickprovsstorlek. Denna gen har 5 SNP:ar, som är numrerade 2, 3, 4, 8 och 9, samt en stickprovsstorlek på 952 personer. Detta ger oss 10 st LD-mått att analysera. Nästa steg var att haplotypbestämma materialet med de 5 SNP:arna. Resultatet blev följande: Tabell 7. Estimerade haplotypsdata för de 10 paren av SNP:ar

SNP nr a b c d N 2-3 1240 3 0 661 1904 2-4 503 740 661 0 1904 2-8 533 710 647 14 1904 2-9 882 361 601 60 1904 3-4 500 740 664 0 1904 3-8 530 710 650 14 1904 3-9 879 361 604 60 1904 4-8 1128 36 52 688 1904 4-9 888 276 595 145 1904 8-9 920 260 563 161 1904

13

Här motsvarar a, b, c och d de fyra möjliga haplotyperna i stickprovet, jämför med tabell 3. Beräkningarna av LD sker på kromosomnivå, så stickprovsstorleken ökar till 1904, eftersom människan är en diploid organism. När man genotypar stora DNA-material skulle det vara optimalt om man på ett tidigt stadium, t.ex. efter ca 50 genotypningar, kunde avgöra om kopplingsgraden mellan SNP:ar är så stor att man kan utesluta någon SNP i den fortsatta genotypningen. Detta har gjort att vi har tagit 3 st mindre stickprov från det ursprungliga stickprovet på 952 personer. De 50, 100 respektive 150 första personerna från det ursprungliga stickprovet utgör dessa mindre stickprov. Tanken är att vi ska studera kopplingsmåtten i de mindre stickproven och se om de resultat vi får stämmer överens med resultatet i det stora stickprovet. Resultaten av haplotypbestämningarna för de mindre stickprovsstorlekarna finns under bilaga 1.

14

5. Metoder

5.1. Programvara I våra beräkningar använde vi oss av SAS[22] version 8.2, som är ett statistiskt mjukvaruprogram för datorer. Vi hade också användning av ett matematiskt formelberäkningsprogram, Maple[21] version 8.

5.2. Omskrivning av R Om man tittar på tabellerna 5 och 6 ser man att de beskriver samma sak. Detta ger oss följande samband för allelfrekvenserna: (5.1)

app =11

ba ppp +=1

dc ppp +=2

ca ppq +=1

db ppq +=2 1=+++ dcba pppp

Med hjälp av detta kan vi nu skriva om uttrycket för R. (5.2)

=−= 1111 qppD =++−= ))(( cabaa ppppp

=+++−= )( 2cbabcaaa pppppppp =−−−−= cbabcaaa pppppppp 2

=−−−−= cbbcaa pppppp )1(

cbda pppp −=

Detta ger oss slutligen följande formel för R, (5.3) ))()()((2121

1111

2121 dbcadcba

cbda

pppppppppppp

qqppqpp

qqppDR

++++

−=

−==

15

Definition 5.1. Låt cba ,, och d vara de absoluta frekvenserna av de fyra haplotyperna i stickprovet och

dcba pppp ,,, de motsvarande relativa haplotypfrekvenserna i populationen. Då definieras ρ enligt följande, (i) )(Rabs=ρ där (ii) 2/1)))()()(/(()( dcdbcabacbda ppppppppppppR ++++−= Stickprovsestimatet av R uttryckt i de absoluta haplotypfrekvenserna,

2/1^

)))()()(/(()( dcdbcababcadR ++++−= och uttryckt i de relativa haplotypfrekvenserna,

2/1^

)))()()(/(()( dcdbcabacbda prprprprprprprprprprprprR ++++−= Att man tar absolutbeloppet av R är en praxis i genetiska sammanhang. Sats 5.1.

Stickprovsestimatet av ρ är )(^^Rabsr ==ρ . Variansen för

^R är följande under hypotesen

H0: Inget samband.

(1) n

pppppppppppp

RRRRVar dcdbcaba

cbda2/1

2232

^ )))()()((()()(

)21(1

)(++++

−−−++−

=

n

pppppppp

pppppppp

Rdbca

dbca

dcba

dcba

++−−+

−++−−+

−))(()(

))(()(

43 22

2

(2) )(^RVar=σ

(3) 222

2^

21exp2)()(

−Φ−

Φ+

−−+=

σσσπσ RRRRRRVarrVar

där )(xΦ är fördelningsfunktion för standardnormalfördelningen N(0.1). Den variansformel som ges ovan (1) gäller för ρ -värden kring 0. Den förutsätter att inget samband råder mellan SNP:arna, vilket inte är tillräckligt för oss. Vi behöver ett allmänt

uttryck för variansen av ^R .

16

5.3. Härledning av en allmän variansformel för ^R

Vi behöver alltså finna ett allmänt uttryckt för )(^RVar , som sedan kan ge oss )(rVar . Dessa

beräkningar är inte helt triviala, eftersom uttrycket för ^R är en kvot med fyra variabler. Ett

sätt att få en approximation av )(^RVar är att Taylorutveckla uttrycket för

^R kring

väntevärdet )(RE . Vi nöjer oss med att endast ta med de första partiella derivatorna för ^R ,

eftersom det ger oss ett linjärt uttryck, som i sin tur underlättar fortsatta beräkningar. Sedan används Gauss-approximationsformel för variansen. Vi använde oss av Maple för att göra

ovanstående Taylorutveckling på ^R (Bilaga 2), men visar här i liten skala hur principen går

till. För att gör det hela lite enklare väljer vi att tittar på ^R :s täljare.

(5.4) cbdadcba prprprprprprprprftäljare −== ),,,( De första partiella derivatorna med avseende på täljarens fyra variablerna ),,,( dcba prprprpr , som är de relativa frekvenserna i stickprovet, räknas fram. Dessa partiella derivator sätt sedan in i Taylorutvecklingen för täljaren. Definition 5.2. Om alla ordningar av derivator till )(xf existerar i punkten cx = , dvs. om )()( cf k existerar för ,...2,1,0=k så kallar vi

∑∞

=

+−+−+=−0

2)(

...)(!2

)(''))((')()(!

)(k

kk

cxcfcxcfcfcxk

cf

Taylorutvecklingen av f kring cx = . Täljaren (5.4) Taylorutvecklades kring vektorn ),,,( dcba ppppp =v .

Taylordcba prprprprf ),,,(

)(),,,(

),,,( aapa

dcbadcba ppr

prprprprprf

ppppf −

∂

∂+=

v

pc

dcbabb

pb

dcba

prprprprprf

pprpr

prprprprfvv

∂

∂+−

∂

∂+

),,,()(

),,,(

)(),,,(

)( ddpd

dcbacc ppr

prprprprprf

ppr −

∂

∂+−∗

v

17

Efter insättning av partiella derivator för vektorn ),,,( dcba ppppp =v och förenklingar av Taylorutvecklingen för täljaren får man följande. (5.5)

dacbdacbbcadTaylordcba ppppprpprpprpprpprprprprf −++−−=),,,(

Vi har nu fått en approximation av (5.4) via Taylorutvecklingen, som är matematiskt mycket lättare att handskas med. Frågan är nu bara hur bra denna approximation är? Låt oss jämföra vår approximation Taylordcba prprprprf ),,,( med ),,,( dcba prprprprf i punkten

190472,

1904612,

1904352,

1904868 . Dessa värden sätts in i uttrycket för täljaren, samt dess

approximation och följande resultat fås.

042184521.01904

72,1904612,

1904352,

1904868

−=

f

042165488.01904

72,1904612,

1904352,

1904868

−=

Taylor

f

Approximationen visar sig vara bra. Det motsvarande R-värdet är -0.22904 vilket ger ett lågt

värde på r. Låt oss ta en annan punkt

1904679,

190458,

190431,

19041136 , som ger ett högre r-värde.

Efter insättning i formler fås.

212275903.01904679,

190458,

190431,

19041136

=

f

212287489.01904679,

190458,

190431,

19041136

=

Taylor

f

Även denna punkt ger en bra approximation. Det motsvarande R-värdet här är 0.90250, vilket ger ett högt värde på r. Vi kan fortsätta våra beräkningar av variansen för approximationen av täljaren. Variansformeln för (5.5) ser ut på följande vis: (5.6) )( TaylorfVar

)()()()( 2222dacbbcad prVarpprVarpprVarpprVarp +++=

),(2),(2),(2 daadcabdbacd prprCovppprprCovppprprCovpp +−− ),(2),(2),(2 dcabdbaccbbc prprCovppprprCovppprprCovpp −−+

De fyra variablerna är binomialfördelade, ),( ii pnBinprn ∈⋅ och variansen för ipr är därmed

nprpr ii )1( −

. Eftersom summan av de fyra variablerna är n så kan kovariansen för två relativa

18

frekvenser skrivas som npp

prprCov jiji −=),( , ( cbai ,,= eller d ). Insättning av varianser

och kovarianser i (5.6) ger oss följande: (5.7) )( TaylorfVar n

ppp

npp

pn

ppp

npp

p dda

ccb

bbc

aad

)1()1()1()1( 2222 −+

−+

−+

−=

( )222242cbdadcba pppppppp

n−−+

Om vi räknar fram variansen med formel (5.7) för det Taylorf som gav ett lågt r-värde får man

( ) 0000165332.0=TaylorfVar som ger ( ) 0040661057.0=TaylorfStd . Detta kan jämföras med resultatet från en simuleringsmetod kallad bootstrap (se kap. 5.4.1), som ger

( ) 0057351.0=BootstrapfStd . Låt oss nu göra samma sak för det Taylorf som gav ett högt r-värde. Variansen som fås från (5.7) blir ( ) 0000118724.0=TaylorfVar och dess standardavvikelse

( ) 003445637.0=TaylorfStd . Detta ska jämföras med standardavvikelsen från bootstrap-simuleringen, ( ) 0033373.0=TaylorfStd . Man kan se att (5.7) skattar variansen bättre för höga r-värden och sämre får låga r-värden. Eftersom vi är intresserade av par av SNP:ar som ger hög LD kan vi godta denna approximation tillsvidare.

På samma sätt genomfördes beräkningarna på kvoten för ^R . Som nämndes tidigare gjordes

en Taylorutveckling av ^R med hjälp av Maple och varians- och kovariansberäkningar gjordes

numeriskt i SAS. Resultatet, se formel (5.8), blev en allmän variansformel för R som ger en bra approximation av variansen för höga r-värden, men sämre för låga r-värden.

(5.8) )(^

TaylorRVar )()()()( 2222ddccbbaa prVarCprVarCprVarCprVarC +++=

),(2),(2),(2 dadacacababa prprCovCCprprCovCCprprCovCC +++ ),(2),(2),(2 dcdcdbdbcbcb prprCovCCprprCovCCprprCovCC +++

Här är bba CCC ,, och dC konstanter, se bilaga 3 för definitioner, och dcba prprprpr ,,, de relativa haplotypfrekvenserna i stickprovet.

(5.9) )(^

TaylorRVar n

ppC

npp

Cn

ppC

npp

C ddd

ccc

bbb

aaa

)1()1()1()1( 2222 −+

−+

−+

−=

npp

CCnpp

CCnpp

CCnpp

CC cbcb

dada

caca

aaba 2222 −−−−

npp

CCnpp

CC dcdc

dbdb 22 −−

19

5.4. Simuleringsmetoder

5.4.1. Bootstrap När man inte känner till fördelningen för en eller flera stokastiska variabler kan man med hjälp av simulering kontrollera sina data. Vi använde oss av en simuleringsmetod kallad bootstrap för att kontrollera hur bra approximationen av variansen (5.9) är. Bootstrap-simulering är en icke-parametrisk metod som är mycket användbar. Metoden går ut på att man från sitt stickprov drar data med återläggning och skapar ett så kallat bootstrap-sampel. Detta sampel har samma stickprovsstorlek som det ursprungliga stickprovet. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på det nya bootstrap-samplet precis som på det ursprungliga. Man gör denna procedur ett antal gånger beroende på vad man vill testa. Vi är intresserade av att approximera en varians, så vi skapade 1000 bootstrap-sampel. Om man t. ex. ska approximera en låg precentil bör man minst ta tio gånger fler bootstrap-sampel än vad vi gjorde.

5.4.1.1 Standardavvikelsen för bootstrap-estimatorn

Givet statistikan ( )nXXX ,...,, 21

^θ definierad symmetriskt i FXXX

iid

n ~,...,, 21 , skrivs

standardavvikelsen för ^θ som

(5.10) ( )FnFStd σθσ =

=

^,, .

Den sista notationen visar att, givet stickprovsstorleken n och formen på statistikan ( )⋅⋅⋅⋅ ,,,^θ , så

är standardavvikelsen en funktion av den okända sannolikhetsfördelningen F . Bootstrap-

estimatet av standardavvikelsen är helt enkelt ( )⋅=σ evaluerat för ^FF = ,

(5.11)

=

^^FStdboot σ .

^F är den icke-parametriska maximum likelihood-estimatorn av F .

5.4.1.2 Bootstrap-proceduren för att finna sampelfördelningen av ^θ

Vanligtvis kan inte funktionen ( )Fσ skrivas ned explicit. För att kunna klara beräkningar av

^Std är det nödvändigt att använda sig av en Monte Carlo-algoritm.

(1) Anpassa den icke-parametriska maximum likelihood-estimatorn av F , (5.12)

^F :mass

n1 på ix , i = 1, 2,…n.

dvs. sannolikhetsmassan fördelas jämnt över observationerna.

20

(2) Drag ett bootstrap-sampel från ^F ,

(5.13) FXXX

iid

n ~,...,, 21∗∗∗

och beräkna ( )nXXX ∗∗∗∗

= ,...,, 21^^θθ .

(3) Upprepa steg 2 ett stort antal gånger, B, oberoende av varandra. Då fås följande

bootstrap-replikat B∗∗∗ ^2^1^

,...,, θθθ och bootstrap-estimatet av standardavvikelsen blir

(5.14)

−

−= ∑

=

⋅∗∗2/1

1

2^^^

11 B

b

b

boot BStd θθ .

Det som är betecknat med en punkt betyder: ∑ =

∗⋅∗

=B

b

b

B 1

^^ 1 θθ .

Om man låter ∞→B så kommer (5.14) att bli exakt lika med (5.10). I praktiken är det begränsad datorkapacitet som avgör hur många bootstrap-sampel som kan genereras.

⋅∗^θ kan även användas för att t. ex. bestämma ett icke-parametriskt konfidensintervall för θ .

5.4.2. Jackknife Vi använde oss av ytterligare en simuleringsmetod kallad jackknife, som även den är en icke-parametrisk metod. Jackknife introducerades av Maurice Quenouille i slutet av 1940-talet och var den första datorbaserade metoden för att estimera bias på standardavvikelser. Inte förrän många år senare, 1979, skulle bootstrap-metoden introduceras. Jackknife-metoden går till så att man skapar n st nya stickprov med stickprovsstorleken n-1, så kallade jackknife-sampel, från sitt ursprungliga stickprov med stickprovstorlek n. Första steget är att utelämna den första observationen i stickprovet, vilket ger det första jackknife-samplet )1(x . Steg två är att utelämna den andra observationen i stickprovet och då fås jackknife-samplet )2(x . Denna procedur görs n gånger och då har alla observationer blivit utelämnade varsin gång. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på de nya samplen precis som på det ursprungliga stickprovet. Vår studiepopulation består av 952 personer, vilket ger oss 952 st jackknife-sampel. Det är nästan lika många sampel som bootstrap-metoden gav (1000 sampel). Skillnaden är att jackknife-metoden har en begränsning när det gäller antalet sampel. Antalet observationer bestämmer antalet jackknife-sampel, medans bootstrap-metoden kan teoretiskt sett ge oändligt många sampel.

21

5.4.2.1 Standardavvikelsen för jackknife-estimatorn

Antag att vi har ett stickprov x ),...,,( 21 nxxx= och en estimator s=^θ (x). Vi vill estimera

standardavvikelsen för ^θ . Jackknife riktar fokus på de stickprov som bortser från en

observation varje gång: (5.15) ),...,,,...,,( 1121)( niii xxxxxx +−= , där i = 1, 2, … , n. Här är )(ix ett så kallat jackknife-sampel. Det i:te jackknife-samplet består av ett data-set där den i:te observationen är borttagen.

Låt si =)(

^θ (x(i)) vara det i:te jackknife-replikatet av

^θ . Jackknife-estimatorns

standardavvikelse definieras då som (5.16) 2/1

1

2(.)

^

)(

^^)(1

−

−= ∑

=

n

iijack

nnStd θθ ,

där ∑=

=n

ii

n 1)(

^

(.)

^ 1 θθ .

5.4.3. Jämförelser mellan bootstrap och jackknife

Vilken metod är bäst? Eftersom det endast krävs n st jackknife-stickprov för att beräkna ^θ

kan man tycka att jackknife-metoden är enklare om, låt oss säga, n är mindre än de 100 eller 200 replikat som dras enligt bootstrap-metoden. Genom att endast titta på de n stickproven

jackknife-metoden ger, ser jackknife ut att ge en begränsad information om statistikan ^θ ,

vilket i sin tur leder till att man kan tro att bootstrap är mer effektiv än jackknife. Det visar sig att jackknife-metoden kan ses som en approximation av bootstrap-metoden. Här är essensen bakom denna ide. Låt oss antaga att vi har en linjär statistika, dvs. en statistika som kan skrivas som (5.17) ∑

=

+==n

iix

nxs

1

^)(1)( αµθ ,

där µ är en konstant och )(⋅α är en funktion. Medelvärdet är det enklaste exemplet på en linjär statistika där 0=µ och ii xx =)(α . För en sådan statistika visar det sig att jackknife- och bootstrap-estimatet av standardavvikelsen nästan är detsamma bortsett en faktor,

{ } 2/1/)1( nn − , som finns hos jackknife-estimatet. Detta är vad vi exakt fann för _^x=θ :

{ }2/1

1

2_

/)1()(

−−= ∑=

n

iijack nnxxStd

2/1

1

2_)(

−= ∑=

n

iiboot xxStd

22

För icke-linjära statistikor går dock information förlorad när jackknife tillämpas. Jackknife gör en linjär approximation av bootstrap-estimatet, dvs. den ger samma resultat som bootstrap, förutom faktorn { } 2/1/)1( nn − ), för en viss form av linjär statistika (5.17) som

approximerar ^θ . Det visar sig att noggrannheten för jackknife-estimat är beroende av hur

linjär ^θ är. För klart icke-linjära funktioner kan jackknife-metoden vara ineffektiv, rent av

dålig. Jackknife är även väldigt känslig för om datamängden inte är ”smooth”, dvs. små förändringar i data kan ge stora förändringar i statistikan.

5.4.4. Bootstrap- och jackknife-simuleringarna De 1000 bootstrap-samplen skapades med hjälp av SAS. I varje bootstrap-sampel räknades r-värdet fram för varje SNP-kombination, dvs. för SNP i och SNP j, ji ≠ , erhölls 1000 r-värden. Bootstrap-estimatet av ijr för graden av LD mellan SNP i och j är medelvärdet av r-värdena från de 1000 bootstrap-samplen

∑=

=B

b

bijij r

Br

1

*.* 1

och standardavvikelsen för bootstrap-estimaten ges av

[ ]2/12

1

.***

11)(

−

−= ∑

=

B

bij

bijijboot rr

BrStd .

I vårt fall blev jackknife-simuleringen enkel, eftersom vi endast har fyra olika grupper av individer som har samma typ av haplotyper. För individer inom samma grupp är definitionen av jackknife-estimatet densamma, jämfört med normalfallet då varje individ har ett eget definierat jackknife-estimat. Detta är anledningen till att simuleringen blev enklare i vårt fall. Bokstäver a, b, c och d symboliserar de fyra möjliga haplotyperna och i och j står för SNP-kombinationen, dvs. SNP i och SNP j där ji ≠ . Dessa togs bort på följande vis,

))()()1)(()1(()1(

dcdbcababcdaR

aij+++−+−

−−=

))()1)(())(1(()1(

dcdbcabacbadR

bij++−+−+

−−=

))1)(())(1()(()1(

dcdbcabacbadR

cij+−+−++

−−=

))1())(1()()(()1(

−+−+++−−

=dcdbcaba

bcdaRdij

23

Detta ger )(aa ijij Rabsr = , )(

bb ijij Rabsr = , )(cc ijij Rabsr = och )(

dd ijij Rabsr = , som är jackknife-estimaten för de fyra olika haplotyp-grupperna. Dessa r vägdes sedan ihop till

)( dcbadrcrbrar

r dcba

w

ijijijijij +++

+++= .

Jackknife-estimatens standardavvikelse har följande form

( )2/1

2222 )()()()(1)(

−+−+−+−

−=

wdwcwbwa ijijijijijijijijijjack rrdrrcrrbrran

nrStd .

24

6. Resultat

6.1. De 10 LD-måtten och deras standardavvikelser enligt Gauss-approximationen I SAS utfördes numeriska beräkningar på det datamaterial som presenterades i kapitel 4, se tabell 7. För beräkningar av LD användes ρ ,

)(Rabs=ρ och )(^Rabsr =

där 2/1

^)))()()(/(()( dcdbcabacbda prprprprprprprprprprprprR ++++−=

och för beräkningar av standardavvikelser användes (6.1) =)(rStd

2/12222

^

21exp2)(

−Φ−

Φ+

−−+

σσσπσ RRRRRRVar

där )(^RVar är den allmänna variansformeln som härleddes i kapitel 5.3 med hjälp av Gauss-

approximationsformler,

)(^RVar )()()()( 2222

ddccbbaa prVarCprVarCprVarCprVarC +++≈ ),(2),(2),(2 dadacacababa prprCovCCprprCovCCprprCovCC +++ ),(2),(2),(2 dcdcdbdbcbcb prprCovCCprprCovCCprprCovCC +++ .

Tabell 8 nedan visar resultatet för det stickprov där alla 952 personerna togs med. Tabell 8. SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 r 0.99653 0.58144 0.53939 0.22904 0.58346 0.54141 0.23056 0.90250 0.04835 0.00238

Std(r) 0.00199 0.00963 0.01003 0.01161 0.00965 0.01004 0.01160 0.00934 0.01020 0.00608

Tabell 9 visar resultaten för de tre mindre stickproven, där stickprovsstorlekarna är 50, 100 respektive 150 personer. Tabell 9. SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 r_50 1.0000 0.53595 0.52475 0.36633 0.53595 0.52475 0.36633 0.85239 0.05018 0.11064

Std(r_50) 0.0000 0.04031 0.03977 0.03322 0.04031 0.03977 0.03322 0.04710 0.03402 0.03798

r_100 1.0000 0.54655 0.52414 0.33123 0.54655 0.52414 0.33123 0.87528 0.02037 0.04110

Std(r_100) 0.0000 0.02893 0.02815 0.02280 0.02893 0.02815 0.02280 0.03127 0.02196 0.02711

r_150 1.0000 0.53082 0.50486 0.28395 0.53082 0.50486 0.28395 0.88129 0.00017 0.00605

Std(r_150) 0.0000 0.02322 0.02373 0.02555 0.02322 0.02373 0.02555 0.02521 0.01515 0.01583

25

För att lättare kunna se skillnaderna mellan de 10 LD-måtten gjordes ett diagram över alla stickprovsstorlekar och LD-mått.

Diagram 1: De fyra stickprovsstorlekarna och deras r-värden för de tio LD-måtten

0,0

0,2

0,4

0,6

0,8

1,0

1,2

SNP2-3

SNP2-4

SNP2-8

SNP2-9

SNP3-4

SNP3-8

SNP3-9

SNP4-8

SNP4-9

SNP8-9

De tio LD-måtten

r

n = 952n = 150n = 100n = 50

Diagram 1 visar den variation som förekommer mellan stickprovsstorlekarna.

Diagram 2: Standardavvikelserna för Gauss-approximationen för de fyra stickprovsstorlekarna

vs r-värdet

0,000

0,0050,010

0,0150,020

0,025

0,0300,035

0,0400,045

0,050

0,00 0,20 0,40 0,60 0,80 1,00 1,20

r

Std

n =952n = 150n = 100n = 50

Den framtagna Gauss-approximationen av standardavvikelsen för ijr visas för de fyra stickprovsstorlekarna i diagrammet ovan. Nästa steg är att bestämma vilken standardavvikelse som passar bäst till våra r-värden.

26

6.1.1. Resultat av bootstrap- och jackknife-simuleringarna Numeriska beräkningar utfördes i SAS på de 1000 bootstrap-samplen och följande resultat för stickprovet med 952 personer erhölls. Tabell 10: SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 rboot 0.99660 0.58177 0.54003 0.22865 0.58376 0.54198 0.23017 0.90258 0.04840 0.02371

Std(rboot) 0.00195 0.01272 0.01469 0.02797 0.01272 0.01473 0.02792 0.01010 0.02612 0.01735

För de mindre stickproven, n = 50, 100 respektive 150, blev resultatet följande. Tabell 11: SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 rboot 50 1.0000 0.53817 0.52520 0.35836 0.53817 0.52520 0.35836 0.85261 0.10998 0.13811

Std(rboot)50 0.0000 0.05952 0.05387 0.06631 0.05952 0.05387 0.06631 0.05222 0.08025 0.09463

rboot 100 1.0000 0.54538 0.52287 0.32837 0.54538 0.52287 0.32837 0.87602 0.07330 0.07214

Std(rboot)100 0.0000 0.04010 0.03785 0.04496 0.04010 0.03785 0.04496 0.03369 0.05445 0.05523

rboot 150 1.0000 0.52965 0.49989 0.28559 0.52965 0.49989 0.28559 0.88033 0.06163 0.06387

Std(rboot)150 0.0000 0.03330 0.03543 0.06304 0.03330 0.03543 0.06304 0.02623 0.04345 0.04741

Diagram 3 visar skillnaderna mellan de fyra stickprovsstorlekarnas standardavvikelser.

Diagram 3: Bootstrap-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet

0,000,010,020,030,040,050,060,070,080,090,10

0,00 0,20 0,40 0,60 0,80 1,00 1,20

r

Std

n=952n=150n=100n=50

Som väntat är standardavvikelsen för den största stickprovsstorleken minst och kurvan är jämnare än för de mindre stickprovstorlekarna. Låt oss nu titta på resultaten av jackknife-simuleringarna. Numeriska beräkningar i SAS gav följande resultat för stickprovet med 952 personer, Tabell 12: SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 rjack 0.99653 0.58144 0.53939 0.22904 0.58346 0.54141 0.23056 0.90250 0.04835 0.00238

Std(rjack) 0.00200 0.01267 0.01396 0.01861 0.01268 0.01396 0.01860 0.01014 0.02254 0.02297

27

För de mindre stickproven blev resultatet följande. Tabell 13: SNP nr 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 rjack 50 1.0000 0.53595 0.52475 0.36633 0.53595 0.52475 0.36633 0.85239 0.05018 0.11064

Std(rjack)50 0.0000 0.05508 0.05469 0.04747 0.05508 0.05469 0.04747 0.05464 0.10369 0.10462

rjack 100 1.0000 0.54655 0.52414 0.33123 0.54655 0.52414 0.33123 0.87528 0.02037 0.04110

Std(rjack)100 0.0000 0.03903 0.03848 0.03199 0.03903 0.03848 0.03199 0.03499 0.07207 0.07257

rjack 150 1.0000 0.53082 0.50486 0.28395 0.53082 0.50486 0.28395 0.88129 0.00017 0.00605

Std(rjack)150 0.0000 0.03154 0.03315 0.03602 0.03154 0.03315 0.03602 0.02807 0.03586 0.05813

Om man jämför resultaten för jackknife-estimaten med resultaten från beräkningarna på våra ursprungliga stickprov ser man att dessa ger samma r-värdena, men olika standardavvikelser. Det är inte oväntat, eftersom de jackknife-sampel vi får vid simuleringen nästan är identiska med det ursprungliga stickprovet, till skillnad mot bootstrap-estimatet *

ijr , som skiljer sig en aning från det ijr som fås från beräkningar på det ursprungliga stickprovet. Det som just nu är av intresse är standardavvikelserna och inte r-värdena. Diagram 4 visar hur jackknife-standardavvikelserna ser ut mellan de fyra stickprovsstorlekarna.

Diagram 4: Jackknife-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,00 0,20 0,40 0,60 0,80 1,00 1,20

r

Std

n=952n=150n=100n=50

Nu har vi fått fram två stycken standardavvikelser genom att använda två olika simulerings-metoder. Dessa kan vi nu jämföra med varandra och med Gauss-approximationen av standardavvikelsen för ijr , se (6.1).

6.1.2. Jämförelser mellan de tre olika standardavvikelserna Om man nu resonerar så att bootstrap ger det ”sanna” värdet på standardavvikelsen för ijr , ser man att vår formel för standardavvikelsen, som i diagrammen nedan kallas för Gauss, skattar

28

standardavvikelsen dåligt för låga r-värden och bra för höga r-värden. Med höga r-värden menas ijr > 0.80. Diagram 5 visar skillnaderna för den största stickprovsstorleken och diagram 6 visar skillnaderna för den minsta stickprovsstorleken.

Diagram 5: De tre standardavvikelserna vs r-värdet (n = 952)

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,00 0,20 0,40 0,60 0,80 1,00 1,20

r

Std

GaussBootstrapJackknife

Skillnaderna mellan standardavvikelserna för de båda simuleringsmetoderna minskar när r närmar sig 1.0.

Diagram 6: De tre standardavvikelserna vs r-värdet (n = 50)

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,00 0,20 0,40 0,60 0,80 1,00 1,20

r

Std

GaussBootstrapJackknife

För höga r-värden är skillnaderna mellan de tre standardavvikelserna i diagram 5 och diagram 6 i stort sett desamma. Detta är bra för oss, eftersom vi är intresserade av höga värden på r. Låt oss titta närmare på de tre högsta LD-måtten. De tre SNP:ar som ger de största LD-måtten är SNP:arna 2 och 3, 3 och 4, samt 4 och 8. Nedan i tabell 14 är resultaten för dessa SNP:ar för stickprovsstorleken n = 952 sammanfattade.

29

Tabell 14: Resultaten för de tre par av SNP:ar som ger högst LD (n=952)

SNP nr r r-bootstrap r-jackknife Std-Gauss Std-bootstrap Std-jackknife 2 - 3 0.99653 0.99660 0.99653 0.00199 0.00195 0.00200 3 - 4 0.58346 0.58376 0.58346 0.00965 0.01272 0.01268 4 - 8 0.90250 0.90258 0.90250 0.00934 0.01010 0.01014

Vi är intresserade av att beräkna den nedre gränsen i ett 95 % konfidensintervall till våra estimerade r-värden. Vi har i kapitlet innan fått fram tre olika formler för standardavvikelsen till ijr . Vi ska nu bedöma vilken som är bäst lämpad för vårt problem. Med hjälp av bootstrap-simuleringen fick vi 1000 bootstrap-sampel för varje LD-mått inom varje stickprovsstorlek. För att få en uppfattning om hur bootstrap-sampelfördelningen ser ut för ett visst LD-mått kan man titta på histogrammet för ijr över de 1000 bootstrap-samplen.

FREQUENCY

0

100

200

300

400

500

600

700

800

900

1000

r_23 MI DPOI NT

1

FREQUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

160

170

180

190

r_34 MI DPOI NT

0. 375 0. 400 0. 425 0. 450 0. 475 0. 500 0. 525 0. 550 0. 575 0. 600 0. 625 0. 650 0. 675 0. 700 0. 725

FREQUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

160

170

180

190

r_48 MI DPOI NT

0. 613 0. 638 0. 663 0. 688 0. 713 0. 738 0. 763 0. 788 0. 813 0. 838 0. 863 0. 888 0. 913 0. 938 0. 963 0. 988

Histogrammen som visas ovan är för följande LD-mått, SNP 2-3, SNP 3-4 och SNP 4-8 i ordning från vänster. Stickprovsstorleken, n = 50 personer, är densamma för alla histogrammen. Nedan visas histogrammen för samma LD-mått, men med stickprovsstorlek n = 100 personer.

FREQUENCY

0

100

200

300

400

500

600

700

800

900

1000

r_23 MI DPOI NT

1

FREQUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

160

170

180

190

200

r_34 MI DPOI NT

0. 43 0. 45 0. 47 0. 49 0. 51 0. 53 0. 55 0. 57 0. 59 0. 61 0. 63 0. 65 0. 67 0. 69

FREQUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

160

170

180

190

r_48 MI DPOI NT

0. 758 0. 773 0. 788 0. 803 0. 818 0. 833 0. 848 0. 863 0. 878 0. 893 0. 908 0. 923 0. 938 0. 953 0. 968

Fyra av de sex histogrammen liknar en normalfördelning, så man skulle kunna beräkna de enkelsidiga 95 % konfidensintervallen med hjälp av normalfördelningskvantilen 1.64. Alla bootstrap-sampelfördelningar liknar dock inte normalfördelningen, se t ex. histogrammen för

23r . Detta par av SNP:ar har mycket hög LD. Bootstrap-metoden ger för det största

30

stickprovet 99660.023 =r och för de tre mindre stickproven 0.123 =r . Beräkningar på de ursprungliga stickproven och jackknife-samplen ger samma resultat förutom för det största stickprovet då 99653.023 =r . För en sådan SNP-kombination vars r-värde ligger mycket nära eller antar 1.0, är fortsatta beräkningar av standardavvikelsen oftast ointressanta, eftersom det inte existerar någon variation om 0.1=ijr . Därför utesluter vi inte normalfördelningskvantilen i våra fortsatta beräkningar av den nedre gränsen till det 95 % konfidensintervallet för ijr . Det skulle även vara önskvärt att använda jackknife-standardavvikelser vid beräkningarna av den nedre gränsen, eftersom den simuleringsmetoden är programmeringsmässigt lättare och effektivare än bootstrap-simuleringen. För att få en uppfattning om man kan använda sig av jackknife-standardavvikelsen och normalfördelningskvantilen 1.64 vid beräkning av den nedre gränsen, trots att bootstrap-sampelfördelningen för ijr inte alltid är normalfördelad. Vi jämför därvid resultatet vi får av våra beräkningar med den femte percentilen i motsvarande bootstrap-sampelfördelning. Tabellerna nedan visar dessa jämförelser för de tre minsta stickprovsstorlekarna. Det är ingen idé att göra detta för SNP 2-3 eftersom 0.123 =r , dvs. det existerar inte någon variation. Tabell 15: SNP 3-4 Stickprovsstorlek Nedre gräns beräknad m.h.a

jackknife-std och 1.64 Bootstrapfördelningens 5:e percentil

50 0.4478 0.4485 100 0.4814 0.4791 150 0.4791 0.4765

Tabell 16: SNP 4-8 Stickprovsstorlek Nedre gräns beräknad m.h.a

jackknife-std och 1.64 Bootstrapfördelningens 5:e percentil

50 0.7630 0.7676 100 0.8186 0.8187 150 0.8353 0.8378

Av dessa resultat att döma kan man använda sig av jackknife-standardavvikelsen och normalfördelningenskvantilen 1.64 vid beräkningarna av den nedre gränsen för ijr , eftersom skillnaderna mellan den femte percentilen i bootstrap-fördelningen och den nedre gränsen är små.

6.2. Vid vilket n kan man överväga att endast genotypa en SNP? Man vill gärna på ett tidigt stadium, t ex. efter att ha genotypat 30 personer, kunna finna par av SNP:ar som har höga r-värden, så man kan bortse från en av SNP:arna i den fortsatta genotypningen, om man finner det lämpligt. Via en enkel grafisk lösning till problemet får vi ett snabbt svar på den frågan. (Se diagram 8). Den nedre gräns för ijr som avgör när det är onödigt att fortsätta genotypa båda SNP:arna i ett par av SNP:ar kallar vi för d. För de par av SNP:ar vars nedre gräns överstiger eller är lika

31

med d, dvs. drStdr ijjackij ≥− )(*64.1 , kan man bortse från en av de två SNP:arna i fortsättningen. Som vi har visat ovan kan den nedre gränsen i det 95 % konfidensintervallet för ijr beräknas med hjälp av )(*64.1 ijjackij rStdr − . Vi har satt d = 0.80, vilket ger oss följande. 80.0)(*64.1 =− ijjackij rStdr Vårt uttryck för jackknife-standardavvikelsen kan skrivas om till nkrStd ijjack =)( , där k är en konstant och n antalet personer i studien. Vi har alltså en funktion för jackknife-standardavvikelsen som beror av n. En regressionsanalys gjordes för att skatta konstanten k. (Se bilaga 4.) En brytpunkt c för ijr kan räknas fram med avseende på d = 0.80. Om ijr antar ett högre värde eller är lika med denna brytpunkt kan man överväga att bortse från en SNP i det paret vid den fortsatta genotypningen. cnkrij =+≥ *64.180.0

En graf över c-värdena gjordes med data hämtade för de fyra stickprovsstorlekarna n = 50, 100, 150 respektive 952 för ett par av SNP:ar som gav ett högt LD-mått ( 90.048 =r ) och för ett par av SNP:ar som gav ett lågt LD-mått ( 58.034 =r ). Dessa jämfördes sedan för att se om hög eller låg LD gav någon märkbar skillnad på c-värdena. Resultatet visas i diagrammet nedan.

Diagram 7: Graf över brytpunkten c för hög och låg LD vs antalet personer

0,75

0,80

0,85

0,90

0,95

1,00

0 200 400 600 800 1000

antal personer

r

hög LDlåg LD

Här kan man se att det inte finns någon avgörande skillnad för c mellan hög och låg LD. För att få en bättre graf för c genererades 1000 standardavvikelser i SAS (se bilaga 5) med hjälp av formeln nkrStd ijjack =)( . Detta resulterade i en jämnare graf över c. Se diagram 8.

32

Diagram 8: Förfinad graf för brytpunkten c vs antalet personer

0,830,840,850,860,870,880,890,900,910,920,93

0 50 100 150 200 250 300 350

antal personer

r

Detta diagram ger snabbt och enkelt ett svar på om man kan överväga att bortse från en SNP i ett par av SNP:ar i den fortsatta genotypningen. Det är bara att läsa av kurvan för c för ett givet n och se om r-värdena ligger över eller under kurvan. Ligger r-värdet över eller exakt på kurvan för c kan man, om man finner det lämpligt, bortse från en av SNP:arna vid den fortsatta genotypningen.

33

7. Diskussion Som nämndes tidigare i kapitel 5.4.3 kan jackknife-metoden vara mindre lämplig att tillämpa på icke-linjära statistikor. Det kopplingsmått vi har valt att beräkna LD med är en kvot med fyra variabler. Trots detta visar det sig att jackknife-metoden ger minst lika bra skattning av

standardavvikelsen som bootstrap-metoden. Kanske är det så att uttrycket för ^R är

någorlunda linjärt i de områden vi är intresserade av, dvs. värden nära 1 och –1. Anledningen till att vi har valt att använda jackknife-standardavvikelsen i våra beräkningar av de enkelsidiga 95 % konfidensintervallen är att jackknife-metoden, i vårt fall, ger så pass enkla beräkningar, vilket medför att den är programmeringsmässigt effektivare än bootstrap-metoden. Diagram 8 i slutet av kapitel 6.2 bör användas med en viss försiktighet. De konfidensintervall vi beräknar är till 95 % säkra, så det finns 5 % risk att få med par av SNP:ar som inte har tillräcklig hög LD om man testar ett stort antal par av SNP:ar. Det finns även en risk att styrkan i testen sänks om man testar sina par av SNP:ar vid för många olika stickprovsstorlekar. Man bör använda sig av sekventiella test om man vill testa vid olika stickprovsstorlekar för att få korrekt resultat. Ett problem som vi stötte på under arbetets gång var att det inte finns någon given

variansformel till LD-måttet ^R . Den variansformel som är angiven på sidan 15, sats 5.1,

gäller vid oberoende, men ordet oberoende betyder inte här det vi i vanliga fall menar med

oberoende, ty då skulle R vara lika med 0 och inte förekomma i variansuttryckt för ^R . Här

förekommer ett annat oberoendebegrepp, där man i stället för oberoende borde välja att

använda sig av ett lämpligare uttryck som inget samband. Om ^R har observerats till 0 säger

man att inget samband råder, men det behöver inte betyda att 0=R dvs. att vi har stokastiskt oberoende. Slutsatsen av detta blir att vi kan säga att variansformeln gäller för små värden på

ρ . Vi kunde inte nöja oss med detta utan behövde en allmän variansformel till ^R , som kunde

ge oss en god skattning av variansen för höga värden på ρ . I kapitel 5.3 härleder vi en

variansformel till ^R med hjälp av Taylorutveckling av

^R och Gauss-approximationsformel

för variansen. Denna variansformel (5.9) visar sig vara bäst lämpad för höga ρ , som i vårt fall var önskvärt. I detta examensarbete har vi studerat LD mellan par av SNP:ar. En fortsättning på detta arbete skulle vara att studera LD mellan ett större antal SNP:ar, t ex. tre och tre eller fyra och fyra. Antalet haplotyper ökar då fler SNP:ar tillkommer, t. ex. studerar man SNP:ar tre och tre ger det 8 stycken möjliga haplotyper. Detta ger mer avancerade beräkningar än de som har visats i detta examensarbete. Det kan i vissa fall hända att en haplotyp inte förekommer i en population för att den är så ovanlig. Så är även fallet i vår studiepopulation. I kapitel 4, tabell 7, kan man se att för tre par av SNP:ar är en av de fyra möjliga haplotyperna inte observerad i studiepopulationen.

34

8. Referenser [1] Blume, Lawrence, David Easley, and Maureen O’Hara, Market statistics and technical

analysis: the role of volume, Journal of Finance, XLIX, (1994), No.1, p. 153-181. [2] Efron Bradley, The Jackknife, the Bootstrap and Other Resampling Plans, Society for

Industrial and Applied Mathematics: Bristol, (1985) [3] Efron Bradley, Tibshirani Robert J., An Introduction to the Bootstrap, Chapman &

Hall: New York, (1993) [4] Griffiths Anthony J. F., Lewontin Richard C., Miller Jeffrey H. & Suzuki David T., An

Introduction To Genetic Analysis, third edition, W. H. Freeman and Company: New York, (1986)

[5] Kendall & Stuart, The Advanced Theory of Statistics, fourth edition, Vol 2, Charles

Griffin & Company Limited: London, (1979), p. 569-671. [6] Read Andrew P. & Strachan Tom, (1999), Human Molecular Genetics 2, second

edition. [7] Zethelius Björn, Proinsulin and Insulin Sensitivity as Predictors of Type 2 Diabetes

Mellitus and Coronary Heart Disease, Uppsala Universitet: Uppsala, (2003) [8] Darvasi Ariel, Kokoris Mark, Kuypers Jane & Shifman Sagiv, Linkage Disequilibrium

Patterns of the Human Genome Across Populations, Human Molecular Genetics 2003, Vol. 12, No 7.

[9] Dawson Elisabeth & Abecasis Gonçalo R. et al., A First-Generation Linkage

Disequilibrium Map of Human Chromosome 22, Nature 2002, Vol 418, No 6897, p. 465-568.

[10] Excoffier Laurent & Slatkin Montgomery, Maximum-Likelihood Estimation of

Molecular Haplotype Frequencies in a Diploid Population, Mol. Biol. Evol. 1995, 12(5):921-927.

[11] Jorde L.B., Linkage Disequilibrium and the Search for Complex Disease Genes,

Genome Research 2000, Vol 10, Issue 10. [12] Pritchard Jonathan K. & Przeworski Molly, Linkage Disequilibrium in Humans:

Models and Data, American Journal of Human Genetics 2001, 69:1-14. [13] http://genomics.phrma.org/lexicon/l.html 2003-03-20 [14] http://www.wikipedia.org 2003-08-06 [15] http://www.accessexcellence.org/AB/GG/meiosis.html 2003-10-08 [16] http://las.perkinelmer.com/content/snps/genotyping.asp 2003-10-08

35

[17] http://www.hyperdictionary.com/dictionary 2003-10-14 [18] http://helios.bto.ed.ac.uk/bto/glossary/ 2003-10-08 [19] http://www.ncbi.nlm.nih.gov/About/primer/snps.html 2003-04-20 [20] http://www.pubcare.uu.se/ULSAM/ 2003-10-16 [21] http://www.mapleapps.com/ 2003-10-20 [22] http://www.sas.com 2003-10-20

36

9. Genetisk ordlista adenin: Se bas. allel: En av flera olika former av en gen. Varje person ärver två alleler till varje gen, en allel från varje förälder. Dessa alleler kan vara likadana eller skilja sig från varandra. [12] association: I genetiska studier där man studerar härkomst hos människan och i sambandsstudier förekommer ofta jämförelser av allelfrekvenser för ett marker-locus mellan en sjukdomspopulation och en kontrollpopulation. När statistiskt signifikanta skillnader mellan frekvenserna för en eller flera alleler uppträder mellan en kontroll- och sjukdomspopulation, säger man att sjukdomen och allelen eller allelerna är i association med varandra. [12] autosom: Varje kromosom som inte är inblandad i bestämmandet av vilket kön organismen ska ha. Människan har 22 par av autosomer i varje cell. [12] bas: En av molekylerna - adenin, guanin, cytosin, tymin eller uracil - vilka formar delar av strukturen för DNA- och RNA-molekylen. Ordningen av baser i en DNA-molekyl bestämmer strukturen hos proteinet som DNA:t kodar för. [12] baspar (bp): Två kompletterande nukleotidbaser som är sammansatta av en kemisk bindning. Dessa två slingor av DNA-molekylen hålls ihop med hjälp av basparen och är formad som en dubbel spiral. Basen adenin bildar par med tymin och cytosin bildar par med guanin. [12] centromer: Den ihopsnörda delen nära mitten av en mänsklig kromosom. I denna del förenas de båda syster-kromatiderna. Se kromatid. [17] cytosin: Se bas. di-allelt locus: Ett locus med två alleler, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. diploid: En fullständig uppsättning av genetiskt material, som innehåller par av kromosomer från varje förälder. De flesta djurs celler bortsett från könscellerna har en diploid uppsättning kromosomer. Det mänskliga genomet har 46 kromosomer. Jämför med haploid. [12] DNA (deoxyribonucleic acid): Molekyl som innehåller genetisk information. DNA är en dubbelslingad spiral sammanhållen av bindningar mellan par av nukleotider. Se bas och baspar. [12] dominant allel: En allel, vid ett bestämt locus, som kommer att forma eller påverka fenotypen av en organism oavsett karaktären på den andra allelen vid locuset. Till exempel är allelen för brun ögonfärg dominant gentemot allelen för blå ögonfärg, så en person som ärver allelen för blå ögonfärg från en förälder och en allel för brun ögonfärg från den andra föräldern kommer nästan alltid ha bruna ögon. Se genetiskt uttryck och jämför med recessiv allel. [12]

37

fenotyp: En uppsättning av observerade fysikaliska karaktärer hos en individuell organism. En enskild karaktär kan refereras till som en ”egenskap”, även om en enskild egenskap ibland också kan kallas för en fenotyp. Till exempel kan blont hår kallas för egenskap men också fenotyp, vilket även fetma kan. En fenotyp kan vara resultatet av många faktorer, inkluderat en individs genotyp, omgivning och livsstil, samt samspel mellan dessa faktorer, dvs. det observerade uttrycket för en genotyp. Fenotypen kan både uttryckas fysikaliskt, biokemiskt och fysiologiskt. [12] gen: En bit DNA som kodar för ett speciellt protein, eller i vissa fall en funktionell eller strukturell RNA-molekyl. [12] genetisk kartläggning: En karta över ett genom vilken visar de relativa positionerna av generna och/eller markörerna på kromosomerna. [12] genetisk polymorfism: En skillnad i DNA-sekvens bland individer, grupper eller populationer (t. ex. en genetisk polymorfism kan ge upphov till blå ögon kontra bruna ögon eller rakt hår kontra lockigt hår). Genetisk polymorfism kan vara ett resultat av en ändrings-process eller kan ha orsakats av andra yttre faktorer såsom virus eller strålning. Om det visar sig att en skillnad i en DNA-sekvens bland individer kan associeras med en sjukdom, kallas den vanligtvis för mutation. Variationer i DNA-sekvenser som man vet har uppstått genom påverkan från yttre faktorer kallas generellt för mutationer istället för polymorfier. [12] genetiskt uttryck: Processen som konverterar en gens kodade information till befintliga och opererande strukturer i en cell. Uttryckta gener inkluderar de som är kopierade till mRNA och sedan översatta till protein och de som är kopierade till RNA men inte översätta till protein. [16] genom: Allt genetiskt material i kromosomerna av en speciell organism. Dess storlek är generellt angiven som det totala antalet baspar. [12] genotyp: Det speciella genetiska mönster som ses i en persons DNA. En genotyp används vanligtvis till att hänvisa till ett särskilt par av alleler som en person har vid en viss position i genomet. Jämför med fenotyp. [12] guanin: Se bas. haploid: En cell som innehåller halva genetiska komplementet till en somatisk cell, dvs. halva antalet kromosomer. Exempel: könscellerna, ägget och spermierna. [12] haplotyp: Den uppställda linjära ordningsföljden av alleler på en kromosom. Haplotypanalyser är användbara när man ska identifiera rekombinationshändelser. [12] heterozygot: En diploid organism med två bestämda alleler vid ett särskilt locus under analys. I detta fall är locuset tänkt att vara heterozygot. [12] homolog: En medlem i ett par av homologa kromosomer. [17] homologa kromosomer: Medlemmar av ett par av identiska kromosomer som punkt för punkt paras ihop under meiosis. Kromosomer som bildar par med varandra vid meiosis eller kromosomer i olika arter som har bibehållit det mesta av samma gen under deras evolution från en liknande förfader.[17]

38

homozygot: En individ som har ett homozygot genpar. En diploid eller en polyoid med identiska alleler vid ett locus. [17] karyotyp: En fotomikrografik över en individs kromosomer arrangerade i en standardform som visar nummer, storlek och form på varje kromosomtyp. [12] kromatid: En kromatid utgör en del av en kromosom efter att den har förenat sig för delningsprocesserna mitosis eller meiosis. Varje kromosom består av två exakt identiska systerkromatider. Efter att de har dragits isär av mitotisk ”axel”, kallas kromatider för kromosomer. Systerkromatider är förenas i en punkt som kallas för centromer. [13]

kromosom: I en cell är DNA indelad i strukturer som kallas kromosomer. Kromosomer är tillräckligt stora så att man kan se dem i ett mikroskop. I människan består alla celler utom könscellerna av 46 kromosomer, 22 par av autosomer och antingen ett par av X- kromosomer (hos kvinnan) eller en X-kromosom och en Y-kromosom (hos mannen). I varje kromosompar är en kromosom nedärvd från en individs far och en från dess mor. [12] kromosomal markör: En allel som har ett välkänt fenotypisk uttryck och locus. Används som en referenspunkt vid kartläggningen av en ny genetisk mutant. [12]

könskromosomer: X- och Y-kromosomerna hos människan bestämmer könet hos en individ. Kvinnor har två stycken X-kromosomer i en diploid cell och mannen har en X-kromosom och en Y-kromosom. Könskromosomerna utgör det 23:e kromosomparet i en karyotyp. Se detta ord. [12] linkage (koppling): Linkage hänvisar till att vissa gener tenderar att nedärvas tillsammans. Två gener sägs vara kopplade (linked) om de ofta nedärvs tillsammans, oavsett deras närhet på en kromosom. Se marker. [12] linkage disequilibrium: Linkage disequilibrium kallas ofta “allelic association”. När alleler vid två distinkta loci förekommer i könscellerna mer frekvent än förväntat, givet de kända allelfrekvenserna och rekombinationsandelen mellan de aktuella loci, sägs allelerna vara i linkage disequilibrium (kopplingsobalans). Bevis för linkage disequilibrium kan vara till hjälp vid kartläggning av gener som orsakar sjukdomar, eftersom dessa oftast ligger väldigt nära varandra. [12] locus (pl. loci): Positionen för en gen på en kromosom eller en annan kromosommarkör, även DNA i denna position. Användningen av locus är ibland begränsad till vissa regioner av DNA, som är uttryckt. Se genetiskt uttryck. [12] marker: En sekvens av baser vid en fysiskt given unikt plats på genomet, vilket varierar tillräckligt mellan individer så att nedärvningsmönstret kan följas genom familjer och/eller kan användas vid särskiljning av celltyper. En markör kan vara en del av en gen, men behöver inte vara det. Markörer är fundamentala vid studier av härkomst och genetisk kartläggning för att hjälpa forskarna att minska ned de möjliga positionerna för nya gener och att upptäcka samband mellan genetiska mutationer och sjukdomar. [12] meiosis: Processen av två celldelningar av könsceller som sker i följd hos diploida stamfäder. Resultatet av meiosis ger fyra stycken dotterceller och var och en av dessa dotterceller har en haploid uppsättning av kromosomer. [12]

39

mitosis: Processen för kärndelning i celler som skapar dotterceller som är genetiskt identiska med varandra och med föräldercellen. [12] mutation: En förändring, ett borttagande eller en omplacering i en DNA-sekvens som kan leda till syntes av ett förändrat inaktivt protein eller oförmåga att producera proteinet. Om en mutation förekommer i en embryocell så är det en ärftlig förändring som kan ärvas från generation till generation. Mutationer kan också förekomma i somatiska celler, men dessa nedärvs inte i traditionell mening utan endast till sina dotterceller. [12] nukleotid: Byggstenen till nukleinsyrorna, som t. ex. DNA-molekylen. En nukleotid består av en av de fyra baserna adenin, cytosin, guanin och tymin, som i sin tur är bunden till en fosfat-sockergrupp. I DNA är sockergruppen en deoxiribo. I RNA, som är en DNA-relaterad molekyl som hjälper till med att transportera genetisk information från gen till protein, så är sockergruppen en ribo och basen tymin är utbytt mot basen uracil. Varje grupp om tre nukleotider i en gen kallas för kodon. Vid proteinsyntesen avläses varje kodon till en specifik aminosyra. Nukleinsyra är en lång kedja av sammansatta nukleotider och kan ibland kallas för en polynukleotid. [12] organism: En levande individ vars fysiologiska funktioner utförs av ”små delar” eller organ, (t ex. ett hjärta eller en lever), som har skilda funktioner men som inbördes är beroende av varandra. [12] polymorfism: Se genetisk polymorfism. protein: En biologisk molekyl bestående av många aminosyror som är sammansatta av peptidbindningar. Sekvensen av aminosyror i proteinet bestäms av sekvensen av nukleotiderna i DNA-molekylen. Allteftersom kedjan av aminosyror blir syntetiserade, viks den ihop till en högre grad av strukturerad form, t. ex. dubbelspiraler. Proteiner är nödvändiga för att bygga upp strukturen, funktionen och regleringar av celler, vävnader och andra organ i kroppen. [12] recessiv allel: En allel som endast kommer att ge resultat i en speciell fenotyp om dess motpart också är recessiv eller om det inte existerar någon motpart. Autosomal recessiv oordning framkallad hos individer som ärver två liknande kopior av en gen lokaliserade på en av autosomerna. När en recessiv gen associerad med en sjukdom förekommer på vissa platser på X-kromosomen (hemofilia eller blödarsjukan är en sådan sjukdom) kallas det ”X-linkage recessive disorder” (X-kopplad recessiv sjukdom). X-linkage recessive disorder kan förekomma oftare hos män än hos kvinnor, eftersom män bara ärver en kopia av genen (de har endast en X-kromosom). [12] rekombinant: Resultatet av en crossover i en dubbel heterozygot förälder så att alleler vid två loci som finns på homologer mitt emot varandra förs ihop på samma homolog. Termen används för att beskriva såväl kromosomen som den organism där de sammanträffat. [12] rekombinationsandelen (θ): Frekvensen av crossing-over mellan två loci. Estimat av rekombinationsandelen mellan två loci som är mindre än 0.50 är förenlig med loci som är länkade med varandra. Estimat av rekombinationsandelen som är lika med 0.50 är förenliga med loci som icke är länkade med varandra. I teorin ska rekombinationsandelen mellan två

40

loci inte överstiga 0.50, men estimat > 0.50 för två loci kan påvisa en högre rekombinogenik-area eller fel i data. När θ = 0 så är markören och sjukdomen på samma locus. [12] SNP (single nucleotide polymorphism): Variation i en DNA-sekvens som uppstår när en enkel nukleotid (A, T, C eller G) bytts ut mot en annan nukleotid i genom-sekvensen. [16] tymin: Se bas. uracil: Se bas. överkorsning (crossing-over): Brott i en kromosom från modern och i en kromosom från fadern under meiosis, då utbyte av motsvarande DNA-sektioner sker innan kromosomerna förenar sig igen. Denna procedur kan resultera i att alleler byter plats med varandra mellan kromosomer. Jämför med rekombination. [12]

41

Bilaga 1. Haplotyptabeller för de tre mindre stickproven Tabell 17. Haplotyper för stickprovet med de 50 första personerna.

SNP nr a b c d N 2-3 69 0 0 31 100 2-4 30 39 31 0 100 2-8 31 38 31 0 100 2-9 46 23 31 0 100 3-4 30 39 31 0 100 3-8 31 38 31 0 100 3-9 46 23 31 0 100 4-8 58 3 4 35 100 4-9 48 13 29 10 100 8-9 50 12 27 11 100

Tabell 18. Haplotyper för stickprovet med de 100 första personerna.

SNP nr a b c d N 2-3 139 0 0 61 200 2-4 58 81 61 0 200 2-8 62 77 61 0 200 2-9 99 40 61 0 200 3-4 58 81 61 0 200 3-8 62 77 61 0 200 3-9 99 40 61 0 200 4-8 115 4 8 73 200 4-9 96 23 64 17 200 8-9 100 23 60 17 200

Tabell 19. Haplotyper för stickprovet med de 150 första personerna.

SNP nr a b c d N 2-3 210 0 0 90 300 2-4 91 119 90 0 300 2-8 95 115 89 1 300 2-9 150 60 87 3 300 3-4 91 119 90 0 300 3-8 95 115 89 1 300 3-9 150 60 87 3 300 4-8 174 7 10 109 300 4-9 143 38 94 25 300 8-9 145 39 92 24 300

42

Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för ^R i Maple

2/1

^)))()()(/(()( dcdbcabacbda prprprprprprprprprprprprR ++++−= där dcba prprprpr ,,, är de relativa haplotypfrekvenserna i stickprovet.

43

Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för ^R

Ca =

Cb =

Cc =

Cd =

44

Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen Konstanten k i nkrStd ijjack =)( skattas m.h.a. regressionsanalys i SAS.

NOTE: No intercept in model. R-Square is redefined.

Analysis of Variance

Sum of Mean Source DF Squares Square F Value Pr > F

Model 1 0.00508 0.00508 894.23 <.0001

Error 3 0.00001705 0.00000568 Uncorrected Total 4 0.00510

Root MSE 0.00238 R-Square 0.9967 Dependent Mean 0.03196 Adj R-Sq 0.9955

Coeff Var 7.45996

Parameter Estimates

Parameter Standard Variable DF Estimate Error t Value Pr > |t|

x 1 0.36712 0.01228 29.90 <.0001

45

Bilaga 5. 1000 standardavvikelser genererade m.h.a. SAS libname nyadata 'c:\Karin\nyadata'; data b; input n se; cards; 50 0.054636704 100 0.034993294 150 0.028069147 952 0.010143736 ; run; data a; set b; x=n**(-1/2); run; proc reg; model se=x/noint; run; data c; do N=1 to 1000; se=0.36712*N**(-1/2); output; end; run; Med hjälp av ett LD-måtts jackknife-standardavvikelser och stickprovsstorlekarna 50, 100, 150 och 952 gjordes en regressionsanalys för att estimera konstanten k i nkrStd ijjack =)( . Resultatet av regressionsanalysen finns att läsa i bilaga 4. Vi har nu uttryckt jackknife-standardavvikelsen som en funktion av stickprovsstorleken n. De 1000 standardavvikelserna genereras genom att låta n gå från 1 till 1000. Varje n sätt in i uttrycket för standardavvikelsen, nkrStd ijjack =)( och 1000 standardavvikelser har skapats.

Documents

Optimering av metodiken vid genotypning av stora DNA-material …306576/FULLTEXT01.pdf · 2010-03-30 · Optimering av metodiken vid genotypning av stora DNA-material Karin Jensevik