Upload
carly-booker
View
69
Download
1
Embed Size (px)
DESCRIPTION
Bioinformatyczne bazy danych. Genomowe Proteomowe Publikacje. pierwotne wtórne. Jako merytoryczna weryfikacja danych. Biologiczne bazy danych przeszukuje się głównie w celu znalezienia: sekwencji nukleotydowych sekwencji białkowych struktur białkowych - PowerPoint PPT Presentation
Citation preview
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Bioinformatyczne bazy danychBioinformatyczne bazy danych
• Genomowe
• Proteomowe
• Publikacje
Jako merytoryczna weryfikacja danych
Biologiczne bazy danych przeszukuje się głównie w celu znalezienia:
• sekwencji nukleotydowych• sekwencji białkowych• struktur białkowych• informacji merytorycznych i publikacji
pierwotnewtórne
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Wyszukiwarki popularnych serwisówWyszukiwarki popularnych serwisów
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Przeszukiwanie za pomocą słów kluczowychPrzeszukiwanie za pomocą słów kluczowych
• Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy
• Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym:(hemoglobin) AND ((human) OR (bovine)) NOT (alpha)
• Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania”
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Historia wyszukiwania w NCBIHistoria wyszukiwania w NCBI
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Przeszukiwanie za pomocą odnośnikówPrzeszukiwanie za pomocą odnośników
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Przeszukiwanie na podstawie Przeszukiwanie na podstawie wprowadzonej sekwencjiwprowadzonej sekwencji
• http://www.ncbi.nlm.nih.gov/blast/producttable.shtml
• http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
BLASTBLAST
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Etapy dopasowywania sekwencjiEtapy dopasowywania sekwencji
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
• Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami)
• Długość porównywanych sekwencji (liczba porównywanych pozycji)
• Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji
• Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe)
• Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe)
Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Procedura oszacowania stopnia podobieństwa Procedura oszacowania stopnia podobieństwa porównywanych sekwencjiporównywanych sekwencji
Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników.
Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami.
Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie:
Gdzie:x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla
kwasów nukleinowych)n – długość sekwencji (liczba porównywanych par pozycji)a – ilość pozycji identycznych
anan
a
n xxxa
nxT
1
0
2
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
• Alignment, multiple alignment = dopasowanie (wielu) sekwencji
• Dopasowywanie globalnedopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą
• Dopasowywanie lokalnedopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen
Dopasowywanie dwóch sekwencjiDopasowywanie dwóch sekwencji
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Programowanie dynamiczneProgramowanie dynamiczneopiera się na podziale rozwiązywanego problemu na podproblemy
względem kilku parametrów.
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Dopasowanie globalne (1970) Dopasowanie globalne (1970) The Needleman and Wunsch AlgorithmThe Needleman and Wunsch Algorithm
Mi,j = Mij + max(Mk,j+1 , Mi+1,I)
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Powstawanie dot-matrixPowstawanie dot-matrix
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Dot-matrix ścieżka i alignmentDot-matrix ścieżka i alignment
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
FASTAFASTA
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Dot-matrixDot-matrix
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Dlaczego FAST?Dlaczego FAST?
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Podobieństwa biochemiczne i Podobieństwa biochemiczne i biofizyczne aminokwasówbiofizyczne aminokwasów
Diagram Venn-a
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Macierze substytucji (podstawień)Macierze substytucji (podstawień)
• Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym?
!!! MACIERZE SUBSTYTUCJI !!!
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
PAM i BLOSUMPAM i BLOSUM
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
PAMPAM
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
BLOSUM BLOSUM (62)
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Kara za przerwy Kara za przerwy (gap (gap costscosts, , gappenaltygappenalty))
Kara za otwarcie przerwy – GKara za przedłużenie przerwy – L
Kara = G + Lngdzie:n – długość przerwy
Standardowo:G = 10 - 15L = 1 - 2
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Programowanie Programowanie dynamicznedynamiczne
– – local alignmentlocal alignment
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Algorytmy i narzędzia dopasowań lokalnychAlgorytmy i narzędzia dopasowań lokalnych
• FASTA (FAST Alignment):– Pierwszy program do przeszukiwania baz w celu znalezienia podobnej
sekwencji
– Używa szablonów słów (wielkość słowa)
– Łączenie słów i prosta algorytmiczna optymalizacja
• BLAST (Basic Local Alignment Search Tool )– Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala
stosować słowa o dużych rozmiarach
– Kilka wersji BLAST-a
• ClustalW – multiple alignment
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jakiego BLAST-a wybrać?Jakiego BLAST-a wybrać?
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Formatka BLAST w NCBIFormatka BLAST w NCBI
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
BLAST – ustawienia zaawansowaneBLAST – ustawienia zaawansowane
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI
Graficzny przegląd wyników
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI
Szczegóły znalezionych dopasowań
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBIAlignmenty czyli zestawienia sekwencji
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
BLAST w EBIBLAST w EBI
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
ClustalW w EBIClustalW w EBI
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Analiza wyników ClustalWAnaliza wyników ClustalW
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Podstawy genetyczne Podstawy genetyczne algorytmów do zestawień algorytmów do zestawień
aminokwasów?aminokwasów?Replacement PAM250 BLOSUM62
Arg/Lys 3 2
Lys/Gln 1 1
Arg/Gln 1 1
Lys/Glu 0 1
Arg/Glu -1 0
MetAUG
MetAUG
ArgAGG
ArgAGG
LysAAG
LysAAG
ProCCC
ProCCC
AsnAAC
AsnAAC
ArgAGG
ArgAGG
GlnCAG
GlnCAG
HisCAC
HisCAC
SerAGC
SerAGC
ArgCGG
ArgCGG
ArgCGC
ArgCGC
LysAAG
LysAAG
?
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
AGCU 1
3 2
Q
Q
H
H
–
–
Y
Y
E
E
D
D
K
K
N
N
R
R
R
R
–
W
C
C
G
G
G
G
R
R
S
S
P
P
P
P
S
S
S
S
A
A
A
A
T
T
T
T
L
L
L
L
L
L
F
F
V
V
V
V
I
M
I
I
Diagram of amino acid genetic relationships CAA UAA GAA AAA
CAG UAG GAG AAG
CAC UAC GAC AAC
CAU UAU GAU AAU
CGA UGA GGA AGA
CGG UGG GGG AGG
CGC UGC GGC AGC
CGU UGU GGU AGU
CCA UCA GCA ACA
CCG UCG GCG ACG
CCC UCC GCC ACC
CCU UCU GCU ACU
CUA UUA GUA AUA
CUG UUG GUG AUG
CUC UUC GUC AUC
CUU UUU GUU AUU
Diagram of codon genetic relationshipsAlgorytm semihomologicznyAlgorytm semihomologiczny
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
Dot matrix pairwise alignmentDot matrix pairwise alignment
Internal homology (gene multiplication)
Chicken ovoinhibitor precursor
(7 domains)
Chicken ovomucoid precursor
(3 domains)
BLAST 2 SEQUENCES SEMIHOM
Bioinformatyka 2007/2008 wykład 3
Biotechnologia UWM
dr Jan Paweł Jastrzębski
FinFin