pax8b

Homology Modeling of the Homology Modeling of the human PAX8 Protein and human PAX8 Protein and mechanisms for sequence mechanisms for sequence specific DNA recognitionspecific DNA recognition

Abhishek DabralAbhishek Dabral

School of Biology,School of Biology,

Georgia Institute of TechnologyGeorgia Institute of Technology

What is PAX?What is PAX?

The PAX gene family encodes a group of The PAX gene family encodes a group of transcription factors that have been transcription factors that have been conserved through millions of years of conserved through millions of years of evolution and play roles in early evolution and play roles in early development. development.

Pax proteins are transcriptional regulators Pax proteins are transcriptional regulators that have critical roles in mammalian that have critical roles in mammalian development, the mutations of PAX genes development, the mutations of PAX genes cause profound developmental defects.cause profound developmental defects.

PAX OrganizationPAX Organization

► All PAX proteins have a All PAX proteins have a paired domain (PD)paired domain (PD), , which spans 128 amino acids near the N-which spans 128 amino acids near the N-terminus and consists of two helix-turn-helix terminus and consists of two helix-turn-helix (HTH) motifs. (HTH) motifs.

► Sequence conservation among PAX proteins is Sequence conservation among PAX proteins is highest in the paired domainhighest in the paired domain but can also be but can also be extended to a paired-type extended to a paired-type homeodomain (HD)homeodomain (HD) and to a stretch of residues between paired and to a stretch of residues between paired domain and homeodomain calleddomain and homeodomain called octapeptide octapeptide (OP)(OP)..

PAX StructurePAX Structure► PD is composed of amino and PD is composed of amino and

carboxy terminal subdomains carboxy terminal subdomains each of which are made up of each of which are made up of 3 alpha helices resembling 3 alpha helices resembling the HTH (helix-turn-helix) the HTH (helix-turn-helix) motif found in all HD.motif found in all HD.

► Third helix of PD and HD Third helix of PD and HD proteins interacts with the proteins interacts with the major groove of the DNA.major groove of the DNA.

► PDs have the ability to not PDs have the ability to not adopt a fixed structure unless adopt a fixed structure unless it is bound to DNA, this lends it is bound to DNA, this lends it a great diversity as a it a great diversity as a protein.protein.

In mammals, In mammals, 99 PAX PAX genes have been genes have been identified.identified.

PAX genes divided into PAX genes divided into 4 subgroups4 subgroups based on: based on:

► Genomic StructureGenomic Structure► Sequence SimilaritySequence Similarity► Conserved FunctionConserved Function

PAX SubgroupsPAX Subgroups

PAX 8 is the only member of the family expressed in the thyroid tissue.

PAX 8 cooperates with TTF1 (Thyroid Transcription Factor 1) toinfluence thyroid specific gene regulation.

Pax8 is extremely important for the correct development of the thyroid glandbecause inactivation of the Pax8 gene causes absence of follicular cells, andtherefore absence of thyroid hormone .

PAX 8 co-expresses with Wilms’ tumor gene (WT1) during kidney development suggesting a possible interaction.

The PAX FamiliesThe PAX Families

Splice Variants in PAX 8Splice Variants in PAX 8

Alternative splicing in PAX gene by Alternative splicing in PAX gene by inclusion or exclusion of exons 7 and/or 8 inclusion or exclusion of exons 7 and/or 8 has produced several known products but has produced several known products but the biological significance of the variants is the biological significance of the variants is unknown. unknown.

The human PAX8 gene generates at least The human PAX8 gene generates at least five different alternatively spliced five different alternatively spliced transcripts encoding different PAX8 transcripts encoding different PAX8 isoforms.isoforms.

. . . .10 . . . .20 . . . .30 . . . .40 . . . .50 . . . .60 . . . .70 . . . .80 . . . .90 . . . 100 . . . 110 . . . 120 . . . 130 . . . 140 . . . 150 . . . 160 . . . 170 . . . 180 . . . 190 . . . 200 . . . 210 . . . 220 . . . 230 . . . 240 . . . 250pax8A_mRNA 1:GGGAACAAACTTCAGAAGGAGGAGAGACACCGGGCCCAGGGCACCCTCGCGGGCGGACCCAAGCAGTGAGGGCCTGCAGCCGGCCGGCCAGGGCAGCGGCAGGCGCGGCCCGGACCTACGGGAGGAAGCCCCGAGCCCTCGGCGGGCTGCGAGCGACTCCCCGGCGATGCCTCACAACTCCATCAGATCTGGCCATGGAGGGCTGAACCAGCTGGGAGGGGCCTTTGTGAATGGCAGACCTCTGCCGGAA: 250pax8B_mRNA 1:GGGAACAAACTTCAGAAGGAGGAGAGACACCGGGCCCAGGGCACCCTCGCGGGCGGACCCAAGCAGTGAGGGCCTGCAGCCGGCCGGCCAGGGCAGCGGCAGGCGCGGCCCGGACCTACGGGAGGAAGCCCCGAGCCCTCGGCGGGCTGCGAGCGACTCCCCGGCGATGCCTCACAACTCCATCAGATCTGGCCATGGAGGGCTGAACCAGCTGGGAGGGGCCTTTGTGAATGGCAGACCTCTGCCGGAA: 250pax8C_mRNA 1:GGGAACAAACTTCAGAAGGAGGAGAGACACCGGGCCCAGGGCACCCTCGCGGGCGGACCCAAGCAGTGAGGGCCTGCAGCCGGCCGGCCAGGGCAGCGGCAGGCGCGGCCCGGACCTACGGGAGGAAGCCCCGAGCCCTCGGCGGGCTGCGAGCGACTCCCCGGCGATGCCTCACAACTCCATCAGATCTGGCCATGGAGGGCTGAACCAGCTGGGAGGGGCCTTTGTGAATGGCAGACCTCTGCCGGAA: 250pax8D_mRNA 1:GGGAACAAACTTCAGAAGGAGGAGAGACACCGGGCCCAGGGCACCCTCGCGGGCGGACCCAAGCAGTGAGGGCCTGCAGCCGGCCGGCCAGGGCAGCGGCAGGCGCGGCCCGGACCTACGGGAGGAAGCCCCGAGCCCTCGGCGGGCTGCGAGCGACTCCCCGGCGATGCCTCACAACTCCATCAGATCTGGCCATGGAGGGCTGAACCAGCTGGGAGGGGCCTTTGTGAATGGCAGACCTCTGCCGGAA: 250pax8E_mRNA 1:GGGAACAAACTTCAGAAGGAGGAGAGACACCGGGCCCAGGGCACCCTCGCGGGCGGACCCAAGCAGTGAGGGCCTGCAGCCGGCCGGCCAGGGCAGCGGCAGGCGCGGCCCGGACCTACGGGAGGAAGCCCCGAGCCCTCGGCGGGCTGCGAGCGACTCCCCGGCGATGCCTCACAACTCCATCAGATCTGGCCATGGAGGGCTGAACCAGCTGGGAGGGGCCTTTGTGAATGGCAGACCTCTGCCGGAA: 250

. . . 260 . . . 270 . . . 280 . . . 290 . . . 300 . . . 310 . . . 320 . . . 330 . . . 340 . . . 350 . . . 360 . . . 370 . . . 380 . . . 390 . . . 400 . . . 410 . . . 420 . . . 430 . . . 440 . . . 450 . . . 460 . . . 470 . . . 480 . . . 490 . . . 500pax8A_mRNA 251:GTGGTCCGCCAGCGCATCGTAGACCTGGCCCACCAGGGTGTAAGGCCCTGCGACATCTCTCGCCAGCTCCGCGTCAGCCATGGCTGCGTCAGCAAGATCCTTGGCAGGTACTACGAGACTGGCAGCATCCGGCCTGGAGTGATAGGGGGCTCCAAGCCCAAGGTGGCCACCCCCAAGGTGGTGGAGAAGATTGGGGACTACAAACGCCAGAACCCTACCATGTTTGCCTGGGAGATCCGAGACCGGCTCC: 500pax8B_mRNA 251:GTGGTCCGCCAGCGCATCGTAGACCTGGCCCACCAGGGTGTAAGGCCCTGCGACATCTCTCGCCAGCTCCGCGTCAGCCATGGCTGCGTCAGCAAGATCCTTGGCAGGTACTACGAGACTGGCAGCATCCGGCCTGGAGTGATAGGGGGCTCCAAGCCCAAGGTGGCCACCCCCAAGGTGGTGGAGAAGATTGGGGACTACAAACGCCAGAACCCTACCATGTTTGCCTGGGAGATCCGAGACCGGCTCC: 500pax8C_mRNA 251:GTGGTCCGCCAGCGCATCGTAGACCTGGCCCACCAGGGTGTAAGGCCCTGCGACATCTCTCGCCAGCTCCGCGTCAGCCATGGCTGCGTCAGCAAGATCCTTGGCAGGTACTACGAGACTGGCAGCATCCGGCCTGGAGTGATAGGGGGCTCCAAGCCCAAGGTGGCCACCCCCAAGGTGGTGGAGAAGATTGGGGACTACAAACGCCAGAACCCTACCATGTTTGCCTGGGAGATCCGAGACCGGCTCC: 500pax8D_mRNA 251:GTGGTCCGCCAGCGCATCGTAGACCTGGCCCACCAGGGTGTAAGGCCCTGCGACATCTCTCGCCAGCTCCGCGTCAGCCATGGCTGCGTCAGCAAGATCCTTGGCAGGTACTACGAGACTGGCAGCATCCGGCCTGGAGTGATAGGGGGCTCCAAGCCCAAGGTGGCCACCCCCAAGGTGGTGGAGAAGATTGGGGACTACAAACGCCAGAACCCTACCATGTTTGCCTGGGAGATCCGAGACCGGCTCC: 500pax8E_mRNA 251:GTGGTCCGCCAGCGCATCGTAGACCTGGCCCACCAGGGTGTAAGGCCCTGCGACATCTCTCGCCAGCTCCGCGTCAGCCATGGCTGCGTCAGCAAGATCCTTGGCAGGTACTACGAGACTGGCAGCATCCGGCCTGGAGTGATAGGGGGCTCCAAGCCCAAGGTGGCCACCCCCAAGGTGGTGGAGAAGATTGGGGACTACAAACGCCAGAACCCTACCATGTTTGCCTGGGAGATCCGAGACCGGCTCC: 500

. . . 510 . . . 520 . . . 530 . . . 540 . . . 550 . . . 560 . . . 570 . . . 580 . . . 590 . . . 600 . . . 610 . . . 620 . . . 630 . . . 640 . . . 650 . . . 660 . . . 670 . . . 680 . . . 690 . . . 700 . . . 710 . . . 720 . . . 730 . . . 740 . . . 750pax8A_mRNA 501:TGGCTGAGGGCGTCTGTGACAATGACACTGTGCCCAGTGTCAGCTCCATTAATAGAATCATCCGGACCAAAGTGCAGCAACCATTCAACCTCCCTATGGACAGCTGCGTGGCCACCAAGTCCCTGAGTCCCGGACACACGCTGATCCCCAGCTCAGCTGTAACTCCCCCGGAGTCACCCCAGTCGGATTCCCTGGGCTCCACCTACTCCATCAATGGGCTCCTGGGCATCGCTCAGCCTGGCAGCGACAA: 750pax8B_mRNA 501:TGGCTGAGGGCGTCTGTGACAATGACACTGTGCCCAGTGTCAGCTCCATTAATAGAATCATCCGGACCAAAGTGCAGCAACCATTCAACCTCCCTATGGACAGCTGCGTGGCCACCAAGTCCCTGAGTCCCGGACACACGCTGATCCCCAGCTCAGCTGTAACTCCCCCGGAGTCACCCCAGTCGGATTCCCTGGGCTCCACCTACTCCATCAATGGGCTCCTGGGCATCGCTCAGCCTGGCAGCGACAA: 750pax8C_mRNA 501:TGGCTGAGGGCGTCTGTGACAATGACACTGTGCCCAGTGTCAGCTCCATTAATAGAATCATCCGGACCAAAGTGCAGCAACCATTCAACCTCCCTATGGACAGCTGCGTGGCCACCAAGTCCCTGAGTCCCGGACACACGCTGATCCCCAGCTCAGCTGTAACTCCCCCGGAGTCACCCCAGTCGGATTCCCTGGGCTCCACCTACTCCATCAATGGGCTCCTGGGCATCGCTCAGCCTGGCAGCGACAA: 750pax8D_mRNA 501:TGGCTGAGGGCGTCTGTGACAATGACACTGTGCCCAGTGTCAGCTCCATTAATAGAATCATCCGGACCAAAGTGCAGCAACCATTCAACCTCCCTATGGACAGCTGCGTGGCCACCAAGTCCCTGAGTCCCGGACACACGCTGATCCCCAGCTCAGCTGTAACTCCCCCGGAGTCACCCCAGTCGGATTCCCTGGGCTCCACCTACTCCATCAATGGGCTCCTGGGCATCGCTCAGCCTGGCAGCGACAA: 750pax8E_mRNA 501:TGGCTGAGGGCGTCTGTGACAATGACACTGTGCCCAGTGTCAGCTCCATTAATAGAATCATCCGGACCAAAGTGCAGCAACCATTCAACCTCCCTATGGACAGCTGCGTGGCCACCAAGTCCCTGAGTCCCGGACACACGCTGATCCCCAGCTCAGCTGTAACTCCCCCGGAGTCACCCCAGTCGGATTCCCTGGGCTCCACCTACTCCATCAATGGGCTCCTGGGCATCGCTCAGCCTGGCAGCGACAA: 750

. . . 760 . . . 770 . . . 780 . . . 790 . . . 800 . . . 810 . . . 820 . . . 830 . . . 840 . . . 850 . . . 860 . . . 870 . . . 880 . . . 890 . . . 900 . . . 910 . . . 920 . . . 930 . . . 940 . . . 950 . . . 960 . . . 970 . . . 980 . . . 990 . . .1000pax8A_mRNA 751:GAGGAAAATGGATGACAGTGATCAGGATAGCTGCCGACTAAGCATTGACTCACAGAGCAGCAGCAGCGGACCCCGAAAGCACCTTCGCACGGATGCCTTCAGCCAGCACCACCTCGAGCCGCTCGAGTGCCCATTTGAGCGGCAGCACTACCCAGAGGCCTATGCCTCCCCCAGCCACACCAAAGGCGAGCAGGGCCTCTACCCGCTGCCCTTGCTCAACAGCACCCTGGACGACGGGAAGGCCACCCTG:1000pax8B_mRNA 751:GAGGAAAATGGATGACAGTGATCAGGATAGCTGCCGACTAAGCATTGACTCACAGAGCAGCAGCAGCGGACCCCGAAAGCACCTTCGCACGGATGCCTTCAGCCAGCACCACCTCGAGCCGCTCGAGTGCCCATTTGAGCGGCAGCACTACCCAGAGGCCTATGCCTCCCCCAGCCACACCAAAGGCGAGCAGGGCCTCTACCCGCTGCCCTTGCTCAACAGCACCCTGGACGACGGGAAGGCCACCCTG:1000pax8C_mRNA 751:GAGGAAAATGGATGACAGTGATCAGGATAGCTGCCGACTAAGCATTGACTCACAGAGCAGCAGCAGCGGACCCCGAAAGCACCTTCGCACGGATGCCTTCAGCCAGCACCACCTCGAGCCGCTCGAGTGCCCATTTGAGCGGCAGCACTACCCAGAGGCCTATGCCTCCCCCAGCCACACCAAAGGCGAGCAGGGCCTCTACCCGCTGCCCTTGCTCAACAGCACCCTGGACGACGGGAAGGCCACCCTG:1000pax8D_mRNA 751:GAGGAAAATGGATGACAGTGATCAGGATAGCTGCCGACTAAGCATTGACTCACAGAGCAGCAGCAGCGGACCCCGAAAGCACCTTCGCACGGATGCCTTCAGCCAGCACCACCTCGAGCCGCTCGAGTGCCCATTTGAGCGGCAGCACTACCCAGAGGCCTATGCCTCCCCCAGCCACACCAAAGGCGAGCAGGGC......................................................: 946pax8E_mRNA 751:GAGGAAAATGGATGACAGTGATCAGGATAGCTGCCGACTAAGCATTGACTCACAGAGCAGCAGCAGCGGACCCCGAAAGCACCTTCGCACGGATGCCTTCAGCCAGCACCACCTCGAGCCGCTCGAGTGCCCATTTGAGCGGCAGCACTACCCAGAGGCCTATGCCTCCCCCAGCCACACCAAAGGCGAGC...........................................................: 941

. . .1010 . . .1020 . . .1030 . . .1040 . . .1050 . . .1060 . . .1070 . . .1080 . . .1090 . . .1100 . . .1110 . . .1120 . . .1130 . . .1140 . . .1150 . . .1160 . . .1170 . . .1180 . . .1190 . . .1200 . . .1210 . . .1220 . . .1230 . . .1240 . . .1250pax8A_mRNA 1001:ACCCCTTCCAACACGCCACTGGGGCGCAACCTCTCGACTCACCAGACCTACCCCGTGGTGGCAGATCCTCACTCACCCTTCGCCATAAAGCAGGAAACCCCCGAGGTGTCCAGTTCTAGCTCCACCCCTTCCTCTTTATCTAGCTCCGCCTTTTTGGATCTGCAGCAAGTCGGCTCCGGGGTCCCGCCCTTCAATGCCTTTCCCCATGCTGCCTCCGTGTACGGGCAGTTCACGGGCCAGGCCCTCCTCT:1250pax8B_mRNA 1001:ACCCCTTCCAACACGCCACTGGGGCGCAACCTCTCGACTCACCAGACCTACCCCGTGGTGGCAG..........................................................................................................................................................................................:1064pax8C_mRNA 1001:ACCCCTTCCAACACGCCACTGGGGCGCAACCTCTCGACTCACCAGACCTACCCCGTGGTGGCAG...............................................................................CTCCGCCTTTTTGGATCTGCAGCAAGTCGGCTCCGGGGTCCCGCCCTTCAATGCCTTTCCCCATGCTGCCTCCGTGTACGGGCAGTTCACGGGCCAGGCCCTCCTCT:1171pax8D_mRNA 946:..........................................................................................................................................................................................................................................................: 946pax8E_mRNA 941:..........................................................................................................................................................................................................................................................: 941

. . .1260 . . .1270 . . .1280 . . .1290 . . .1300 . . .1310 . . .1320 . . .1330 . . .1340 . . .1350 . . .1360 . . .1370 . . .1380 . . .1390 . . .1400 . . .1410 . . .1420 . . .1430 . . .1440 . . .1450 . . .1460 . . .1470 . . .1480 . . .1490 . . .1500pax8A_mRNA 1251:CAGGGCGAGAGATGGTGGGGCCCACGCTGCCCGGATACCCACCCCACATCCCCACCAGCGGACAGGGCAGCTATGCCTCCTCTGCCATCGCAGGCATGGTGGCAGGAAGTGAATACTCTGGCAATGCCTATGGCCACACCCCCTACTCCTCCTACAGCGAGGCCTGGCGCTTCCCCAACTCCAGCTTGCTGAGTTCCCCATATTATTACAGTTCCACATCAAGGCCGAGTGCACCGCCCACCACTGCCAC:1500pax8B_mRNA 1064:...GGCGAGAGATGGTGGGGCCCACGCTGCCCGGATACCCACCCCACATCCCCACCAGCGGACAGGGCAGCTATGCCTCCTCTGCCATCGCAGGCATGGTGGCAGGAAGTGAATACTCTGGCAATGCCTATGGCCACACCCCCTACTCCTCCTACAGCGAGGCCTGGCGCTTCCCCAACTCCAGCTTGCTGAGTTCCCCATATTATTACAGTTCCACATCAAGGCCGAGTGCACCGCCCACCACTGCCAC:1311pax8C_mRNA 1172:CAGGGCGAGAGATGGTGGGGCCCACGCTGCCCGGATACCCACCCCACATCCCCACCAGCGGACAGGGCAGCTATGCCTCCTCTGCCATCGCAGGCATGGTGGCAGGAAGTGAATACTCTGGCAATGCCTATGGCCACACCCCCTACTCCTCCTACAGCGAGGCCTGGCGCTTCCCCAACTCCAGCTTGCTGAGTTCCCCATATTATTACAGTTCCACATCAAGGCCGAGTGCACCGCCCACCACTGCCAC:1421pax8D_mRNA 946:......GAGAGATGGTGGGGCCCACGCTGCCCGGATACCCACCCCACATCCCCACCAGCGGACAGGGCAGCTATGCCTCCTCTGCCATCGCAGGCATGGTGGCAGGAAGTGAATACTCTGGCAATGCCTATGGCCACACCCCCTACTCCTCCTACAGCGAGGCCTGGCGCTTCCCCAACTCCAGCTTGCTGAGTTCCCCATATTATTACAGTTCCACATCAAGGCCGAGTGCACCGCCCACCACTGCCAC:1190pax8E_mRNA 941:.......................................................................................................AGGAAGTGAATACTCTGGCAATGCCTATGGCCACACCCCCTACTCCTCCTACAGCGAGGCCTGGCGCTTCCCCAACTCCAGCTTGCTGAGTTCCCCATATTATTACAGTTCCACATCAAGGCCGAGTGCACCGCCCACCACTGCCAC:1088

. . .1510 . . .1520 . . .1530 . . .1540 . . .1550 . . .1560 . . .1570 . . .1580 . . .1590 . . .1600 . . .1610 . . .1620 . . .1630 . . .1640 . . .1650 . . .1660 . . .1670 . . .1680 . . .1690 . . .1700 . . .1710 . . .1720 . . .1730 . . .1740 . . .1750pax8A_mRNA 1501:GGCCTTTGACCATCTGTAGTTGCCATGGGGACAGTGGGAGCGACTGAGCAACAGGAGGACTCAGCCTGGGACAGGCCCCAGAGAGTCACACAAAGGAATCTTTATTTATTACATGAAAAATAACCACAAGTCCAGCATTGCGGCACACTCCCTGTGTGGTTAATTTAATGAACCATGAAAGACAGGATGACCTTGGACAAGGCCAAACTGTCCTCCAAGACTCCTTAATGAGGGGCAGGAGTCCCAGGGA:1750pax8B_mRNA 1312:GGCCTTTGACCATCTGTAGTTGCCATGGGGACAGTGGGAGCGACTGAGCAACAGGAGGACTCAGCCTGGGACAGGCCCCAGAGAGTCACACAAAGGAATCTTTATTTATTACATGAAAAATAACCACAAGTCCAGCATTGCGGCACACTCCCTGTGTGGTTAATTTAATGAACCATGAAAGACAGGATGACCTTGGACAAGGCCAAACTGTCCTCCAAGACTCCTTAATGAGGGGCAGGAGTCCCAGGGA:1561pax8C_mRNA 1422:GGCCTTTGACCATCTGTAGTTGCCATGGGGACAGTGGGAGCGACTGAGCAACAGGAGGACTCAGCCTGGGACAGGCCCCAGAGAGTCACACAAAGGAATCTTTATTTATTACATGAAAAATAACCACAAGTCCAGCATTGCGGCACACTCCCTGTGTGGTTAATTTAATGAACCATGAAAGACAGGATGACCTTGGACAAGGCCAAACTGTCCTCCAAGACTCCTTAATGAGGGGCAGGAGTCCCAGGGA:1671pax8D_mRNA 1191:GGCCTTTGACCATCTGTAGTTGCCATGGGGACAGTGGGAGCGACTGAGCAACAGGAGGACTCAGCCTGGGACAGGCCCCAGAGAGTCACACAAAGGAATCTTTATTTATTACATGAAAAATAACCACAAGTCCAGCATTGCGGCACACTCCCTGTGTGGTTAATTTAATGAACCATGAAAGACAGGATGACCTTGGACAAGGCCAAACTGTCCTCCAAGACTCCTTAATGAGGGGCAGGAGTCCCAGGGA:1440pax8E_mRNA 1089:GGCCTTTGACCATCTGTAGTTGCCATGGGGACAGTGGGAGCGACTGAGCAACAGGAGGACTCAGCCTGGGACAGGCCCCAGAGAGTCACACAAAGGAATCTTTATTTATTACATGAAAAATAACCACAAGTCCAGCATTGCGGCACACTCCCTGTGTGGTTAATTTAATGAACCATGAAAGACAGGATGACCTTGGACAAGGCCAAACTGTCCTCCAAGACTCCTTAATGAGGGGCAGGAGTCCCAGGGA:1338

. . .1760 . . .1770 . . .1780 . . .1790 . . .1800 . . .1810 . . .1820 . . .1830 . . .1840 . . .1850 . . .1860 . . .1870 . . .1880 . . .1890 . . .1900 . . .1910 . . .1920 . . .1930 . . .1940 . . .1950 . . .1960 . . .1970 . . .1980 . . .1990 . . .2000pax8A_mRNA 1751:AAGAGAACCATGCCATGCTGAAAAAGACAAAATTGAAGAAGAAATGTAGCCCCCAGCCGGTACCCACCAAAGGAGAGAAGAAGCAATAGCCGAGGAACTTGGGGGGATGGCGAATGGTTCCTGCCCGGGCCCAAGGGGTGCACAGGGCACCTCCATGGCTCCATTATTAACACAACTCTAGCAATTATGGACCATAAGCACTTCCCTCCAGCCCACAAGTCACAGCCTGGTGCCGAGGCTCTCCTCACCA:2000pax8B_mRNA 1562:AAGAGAACCATGCCATGCTGAAAAAGACAAAATTGAAGAAGAAATGTAGCCCCCAGCCGGTACCCACCAAAGGAGAGAAGAAGCAATAGCCGAGGAACTTGGGGGGATGGCGAATGGTTCCTGCCCGGGCCCAAGGGGTGCACAGGGCACCTCCATGGCTCCATTATTAACACAACTCTAGCAATTATGGACCATAAGCACTTCCCTCCAGCCCACAAGTCACAGCCTGGTGCCGAGGCTCTCCTCACCA:1811pax8C_mRNA 1672:AAGAGAACCATGCCATGCTGAAAAAGACAAAATTGAAGAAGAAATGTAGCCCCCAGCCGGTACCCACCAAAGGAGAGAAGAAGCAATAGCCGAGGAACTTGGGGGGATGGCGAATGGTTCCTGCCCGGGCCCAAGGGGTGCACAGGGCACCTCCATGGCTCCATTATTAACACAACTCTAGCAATTATGGACCATAAGCACTTCCCTCCAGCCCACAAGTCACAGCCTGGTGCCGAGGCTCTCCTCACCA:1921pax8D_mRNA 1441:AAGAGAACCATGCCATGCTGAAAAAGACAAAATTGAAGAAGAAATGTAGCCCCCAGCCGGTACCCACCAAAGGAGAGAAGAAGCAATAGCCGAGGAACTTGGGGGGATGGCGAATGGTTCCTGCCCGGGCCCAAGGGGTGCACAGGGCACCTCCATGGCTCCATTATTAACACAACTCTAGCAATTATGGACCATAAGCACTTCCCTCCAGCCCACAAGTCACAGCCTGGTGCCGAGGCTCTCCTCACCA:1690pax8E_mRNA 1339:AAGAGAACCATGCCATGCTGAAAAAGACAAAATTGAAGAAGAAATGTAGCCCCCAGCCGGTACCCACCAAAGGAGAGAAGAAGCAATAGCCGAGGAACTTGGGGGGATGGCGAATGGTTCCTGCCCGGGCCCAAGGGGTGCACAGGGCACCTCCATGGCTCCATTATTAACACAACTCTAGCAATTATGGACCATAAGCACTTCCCTCCAGCCCACAAGTCACAGCCTGGTGCCGAGGCTCTCCTCACCA:1588

LAEGVCDNDTVPSVSSINRIIRTKVQQPFNLPMDSCVATKSLSPGHTLIPSSAVTPPESPQSDSLGSTYSINGLLGIAQPGSDK

ATG

UAG

5’ UTR 1

2 3

4 5

6

7 8

9 10

11

siRNA

? ??

MPHNSIRSGHGGLNQLGGAFVNGRPLPE

VVRQRIVDLAHQGVRPCDISRQLRVSHGCVSKILGRYYETGSIRPGVIGGSKPKVATPKVVEKIGDYKRQNPTMFAWEIRDRLL

RKMDDSDQDSCRLSIDSQSSSSGPRKHLRTDAFSQHHLEPLECPFERQHYPEAYASPSHTKGEQG LYPLPLLNSTLDDGKATLT

PSNTPLGRNLSTHQTYPVVAD PHSPFAIKQETPEVSSSSSTPSSLSSSAFLDLQQVGSGVPPFNAFPHAASVYGQFTGQALLS

GREMVGPTLPGYPPHIPTSGQGSYASSAIAGMVAG SEYSGNAYGHTPYSSYSEAWRFPNSSLLSSPYYYSSTSRPSAPPTTAT

AFDHL

= paired domain= octapeptide

= partial homeodomain

= activation domain= repression domain

= intron with de novo CpG island

= translocation breakpoints with PPAR-gamma

= intron/exon boundaries

Splice Variants in PAX 8

What questions could a PAX What questions could a PAX 8 model answer?8 model answer?

Better understanding of :Better understanding of :Paired Domain-DNA interactionPaired Domain-DNA interaction– – ► Biological function of PDBiological function of PD

Function of N and C subdomainsFunction of N and C subdomains – –► Specific DNA contacts made by themSpecific DNA contacts made by them► Do they cooperate with each other, does one affect Do they cooperate with each other, does one affect

the function of the other and how?the function of the other and how?

Effects of mutationsEffects of mutations ► Relation to the abnormal phenotype Relation to the abnormal phenotype

Why Homology modeling?Why Homology modeling?

►No solved X- Ray structureNo solved X- Ray structure for our for our Target protein ie. PAX 8Target protein ie. PAX 8

Moreover:Moreover:►X-Ray structure is both time X-Ray structure is both time

consuming and expensiveconsuming and expensive►Only a small number of proteins can Only a small number of proteins can

bebe made to form crystals and crystal is made to form crystals and crystal is

not the protein’s native state.not the protein’s native state.

Why Homology modeling?Why Homology modeling?

►No solved NMR structureNo solved NMR structure for our for our Target protein ie. PAX 8Target protein ie. PAX 8

Moreover:Moreover:►NMR does not work too well for NMR does not work too well for

protein complexes.protein complexes.►Very time consuming Very time consuming

Obtain Target Sequence

Get Information about Target Protein

Template Selection

(Crystal Structures)

Initial Model

ValidateModel

Sequence Database (Genbank)

WHAT IF, PROCHECK, 3D JIGSAW,Esypred, SWISS Model,FUGUERAMPAGEMODELER TOOLBOX

Blastp, CDD

BLAST PDB database

Clean PDB files

Create alignment of target with template sequences (Convert aln to ali)

MODELER

CLUSTALW

Steps for Homology Steps for Homology ModelingModeling

The Template StructureThe Template Structure

PAX6PAX65822580|pdb|6PAX|A5822580|pdb|6PAX|A Chain A, Chain A, Crystal Structure Of The Crystal Structure Of The

Human Pax-6 Paired Domain-Dna Complex Reveals A Human Pax-6 Paired Domain-Dna Complex Reveals A General Model For Pax Protein-Dna InteractionsGeneral Model For Pax Protein-Dna Interactions

Length = 133 Length = 133

Score = 198 bits (503),Score = 198 bits (503),

Expect = 3e-52 Expect = 3e-52

Identities = 92/123 (74%), Identities = 92/123 (74%), Positives = 107/123 (86%)Positives = 107/123 (86%)

Query: 10 Query: 10 HGGLNQLGGAFVNGRPLPEVVRQRIVDLAHQGVRPCDISRQLRVSHHGGLNQLGGAFVNGRPLPEVVRQRIVDLAHQGVRPCDISRQLRVSHGCVSKILGRYYETG 69 H G+NQLGG FVNGRPLP+ RQRIV+LAH G GCVSKILGRYYETG 69 H G+NQLGG FVNGRPLP+ RQRIV+LAH G RPCDISR L+VS+GCVSKILGRYY TG Sbjct: 2 RPCDISR L+VS+GCVSKILGRYY TG Sbjct: 2 HSGVNQLGGVFVNGRPLPDSTRQRIVELAHSGARPCDISRILQVSNHSGVNQLGGVFVNGRPLPDSTRQRIVELAHSGARPCDISRILQVSNGCVSKILGRYYATG 61 Query: 70 GCVSKILGRYYATG 61 Query: 70 SIRPGVIGGSKPKVATPKVVEKIGDYKRQNPTMFAWEIRDRLLAEGVSIRPGVIGGSKPKVATPKVVEKIGDYKRQNPTMFAWEIRDRLLAEGVCDNDTVPSVSSIN 129 SIRP IGGSKP+VATP+VV KI YK++ P+CDNDTVPSVSSIN 129 SIRP IGGSKP+VATP+VV KI YK++ P++FAWEIRDRLL+EGVC ND +PSVSSIN Sbjct: 62 +FAWEIRDRLL+EGVC ND +PSVSSIN Sbjct: 62 SIRPRAIGGSKPRVATPEVVSKIAQYKQECPSIFAWEIRDRLLSEGVCTSIRPRAIGGSKPRVATPEVVSKIAQYKQECPSIFAWEIRDRLLSEGVCTNDNIPSVSSIN 121 Query: 130 RII 132 R++ Sbjct: 122 RVL NDNIPSVSSIN 121 Query: 130 RII 132 R++ Sbjct: 122 RVL 124124

Target-Template AlignmentTarget-Template Alignment

DNA ContactsDNA Contacts

MODELMODEL

Hypothetical DNA fit of the Hypothetical DNA fit of the modelmodel

ValidationValidation

1. Swiss Model(http:swissmodel.expasy.org)1. Swiss Model(http:swissmodel.expasy.org) WhatCheck Report generated for your SWISS MODEL request :WhatCheck Report generated for your SWISS MODEL request :

► No errors in amino acid nomenclatureNo errors in amino acid nomenclature► Improper Dihedral angle distribution OK —Improper Dihedral angle distribution OK —

The RMS Z-score for all improper dihedrals in the structure is within normal The RMS Z-score for all improper dihedrals in the structure is within normal range.range.

► Normal bond angle variability.Normal bond angle variability.► A few residues had abnormal backbone torsion angles.A few residues had abnormal backbone torsion angles.

► A few pair of atoms had abnormally short interatomic distances.A few pair of atoms had abnormally short interatomic distances.

Overall the model conforms to the common refinement constraintsOverall the model conforms to the common refinement constraints

Ramachandran plot Ramachandran plot (http://raven.bioc.cam.ac.uk/rampage.php)(http://raven.bioc.cam.ac.uk/rampage.php)

Residue [ 43 :ARG] ( 68.15, 44.04) in Allowed region Residue [ 73 :LYS] (-118.37, -75.31) in Allowed region Number of residues in favoured region (~98.0% expected) : 119 ( 98.3%)Number of residues in allowed region ( ~2.0% expected) : 2 ( 1.7%)Number of residues in outlier region : 0 ( 0.0%)

Main Chain-Side Chain Main Chain-Side Chain ContactsContactsSource: Source: MolProbity, an interactive macromolecular structure validation tool provided by the MolProbity, an interactive macromolecular structure validation tool provided by the Richardson laboratory, Duke University.Richardson laboratory, Duke University.

LimitationsLimitations

► Could not model the entire protein due to Could not model the entire protein due to lack of homologous structures and extensive lack of homologous structures and extensive loop region which is tough to model.loop region which is tough to model.

► The paired box region may undergo some The paired box region may undergo some structural changes in the presence of the structural changes in the presence of the partial homeodomain (cooperativity in DNA partial homeodomain (cooperativity in DNA binding). binding).

► The DNA contacts made by the model may The DNA contacts made by the model may differ from the template due to presence of differ from the template due to presence of other non-identical residues.other non-identical residues.

ReferencesReferences

1. 1.

2.2.

3.3.

4.4.

5.5.

6.6.

Simon C. Lovell, Ian W. Davis, W. Simon C. Lovell, Ian W. Davis, W. Bryan Arendall III, Paul I. W. de Bryan Arendall III, Paul I. W. de Bakker, J. Michael Word, Michael G. Bakker, J. Michael Word, Michael G. Prisant, Jane S. Richardson, David Prisant, Jane S. Richardson, David C. Richardson (2003) C. Richardson (2003) Structure validation by C-alpha geometrStructure validation by C-alpha geometry: phi, y: phi, psipsi, and C-beta deviation., and C-beta deviation. Proteins: Proteins: Structure, Function, and Genetics. Structure, Function, and Genetics. 5050: 437-450.: 437-450.

7.

8.8.

Documents

pax8b