23
Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Übung II Einführung, Teil 1 Arbeiten mit Ensembl

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Übung II

Einführung, Teil 1

Arbeiten mit Ensembl

Page 2: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Genome Browser (Bereitstellung von Vielzeller-Genomen)

• Projekt wurde 1999 initiiert

• Projektpartner

– EMBL – European Bioinformatics Institute (EBI)

– Wellcome Trust Sanger Institute

• > 40 Entwickler beschäftigt

• Software, Daten und Resultate frei verfügbar

• Vergleichende Genomik

• Variation und Regulation

• Integration von externen Daten (DAS)

Page 3: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Ensembl Core database

– normalisiert, jeder Eintrag nur 1 mal gespeichert

– schnelle Updates, geringer Speicheraufwand

• Mart database

– De-normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen

• Biomart

– Abfrage Tool Erstellung personalisierter Abfragen

• Weitere Zugriffsmöglichkeiten

– Direkter Datenbankzugriff (ensembldb.ensembl.org)

– MySQL client, Perl, REST, R

Page 4: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Spezien in Ensembl v104

• Stand Juni 2021

• 310 Spezien (hauptsächlich Vertebraten)

• Weitere Instanzen mit Organismen aus:

– EnsemblMetazoa

– EnsemblPlants

– EnsemblFungi

– EnsemblProtist

– EnsemblBacteria

Page 5: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

• Ensembl ID: stabiler Identifier

• Format:

– ENS#

– ENSG# ............... Gen (Human)

– ENST# ............... Transkript

– ENSP# ............... Protein

– ENSE# ............... Exon

– ENSR# ............... Regulatorisches element

• Spezien prefixes:

– ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte – rattus norvegicus) ....

Page 6: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

BRCA1

Human

Page 7: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 8: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 9: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl

Page 10: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Ensembl BioMart

Page 11: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Exercise 2 - Task 1: Working with Ensembl

2.1 Exploring features related to a gene

2.2 Examining the supporting evidence for a gene prediction

2.3 Extracting sequences related to a gene

2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbSNP

Page 12: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Übung II

Einführung, Teil 2

Vergleichend Genomik

Page 13: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Vergleichende Genomik• Vergleich genomischer “features” unterschiedlicher Organismen:

– DNA sequence– Gene– Genreihenfolge– Regulatorische Sequenzen

• Der Vergleich ganzer oder große Teile mehrerer Genome ergibt:– Grundlegende biologische Ähnlichleiten oder Unterschiede– Evolutionäre Beziehungen zwischen Organismen

Hauptprinzip/Annahme der vergleichenden Genomikgemeinsame “features” sind in konservierten DNA Bereichen kodiert

• Methode– Alignment von Genom Sequenzen– finden von orthologen Sequenzen in den “alignten” Genomen– Feststellung des Ausmaßes der Konservierung– Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden

Page 14: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Vergleichende Genomik – Tools/DBs

• Orthologe/paraloge Gene– HomoloGene (NCBI)

– Inparanoid (CGB, Karolinska Institute)

– OrthoMCL, Markov Clustering algorithm (University of Pennsylvania)

– YOGY (eukarYotic OrtholoGY) web-based resource, integriert 5 independent resources (Sanger)

– …

• Protein Familien (PFAM, Sammlung von Protein Familien)

• Chromosomen Synteny e.g. Ensembl viewer

Page 15: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Multiple sequence alignment(CLUSTALW, Clustal Omega)

Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehrbiologischen Sequenzen, generell Protein, DNA, or RNA.

MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen

Jalview

Page 16: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Exercise 2 - Task 2: Comparative Genomics

2.5 Comparative Genomics using Ensembl

2.6 Comparing gene related sequences from different organisms

2.7 Find orthologs of a human protein and generate a MSA

Page 17: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Transkript

• UTR

• 5‘ upstream region

• Protein domain

• Chromosomenband

• SNP

• Contig

Clone

Homologie

Synteny

GeneOntology

RefSeq

BLASTz

InterPro

Page 18: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Transkript

Reifes mRNA Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] - somit fertig für die

Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing-Varianten können

unterschiedliche Transkripte entstehen.

• Untranslated region (UTR)

Randbereiche der mRNA welche nicht für Proteine codieren (5‘, 3‘, PolyA)

• 5‘ - upstream region (5‘-flanking, cis-regulatory or promoter region)

Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische

Elemente, ...

Page 19: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Protein domain

Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zB:

hydrophob, polar, DNA-binding domain, ATP-binding domain

• Protein Familien

Gruppe von evolutionär-abhängigen Proteinen → leiten sich von gemeinsamen Vorfahren ab

(Homologie), ähnliche 3D-Struktur

• Chromosomenband

Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf

Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.

Page 20: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Single nucleotide polymorphism (SNP)

Variationen einzelner Basenpaare in einem DNA-Strang; ca. 90 % aller genetischen Varianten des

menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten

Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1-3 mio SNPs pro Individuum

• Genomic marker

Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien,

Klonierung, ...

• GeneOntology

Vereinheitlichung eines Teils des Vokabulars der Biowissenschaften → Ontologie-Datenbank; Ziel:

Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen

Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von

Proteinen

Page 21: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• RefSeq

Nicht-redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten

Referenzstandards besteht aus Genome-, Transkript- und Proteinsequenzen

• BLASTz / LASTz

Multiple Sequence Alignment Program für Genom-Genom Alignments

• Clone

Teil einer DNA die zB in Plasmid eingebracht wurde um diese dann zu vervielfältigen

• Contig

Ein Set überlappender DNA-Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig

kann dazu genutzt werden, die Original-DNA-Sequenz dieser genetischen Quelle abzuleiten.

Page 22: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• InterPro: the integrative protein signature database

- Vorhersage von Protein Signaturen (domains, families and functional sites)

- Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene

• Synteny

Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung

der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso

konservierter, je verwandter die verglichenen Arten sind.

Page 23: Übung II Einführung, Teil 1 Arbeiten mit Ensembl

Glossar

• Homologie

Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer

Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind

– Orthologie

Artenbildung (Speciation)

funktional verwandte und von einem gemeinsamen

Vorgänger abstammende Gene und deren Proteine

– Paralogie

Genduplikation (Gene duplication)

Verwandtschaft von Genen mit möglicherweise

unterschiedlicher Funktion innerhalb des

Genoms, auch Ausbildung neuer Funktion möglich

Orthologe haben meist die selbe oder ähnliche Funktion,

Paraloge nicht unbedingt.