On the Power of Profiles for Transcription Factor Binding Site Detection
Sven Rahmann*
Tobias Müller†
Martin Vingron‡
* Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and
Computer Science, Freie Universität Berlin
† University of Würzburg
‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics
Chris Bielow [email protected]
Gliederung
Profile
Regularisierung des Profils
Profil Score Matrix
Verteilung der Scores
Fehlerabschätzungen
Qualität eines Profils
Profil-Qualität TRANSFAC
Profile
Profil Pu
Countmatrix C
Regularisiertes Profil P ??
s1 ACTGAs2 AGTGAs3 CGTGC
Multiples Alignment N Anzahl d. Sequenzen
L Länge d. Sequenzen
11 1
1
, ,
, , 1,..,
nu
m m
ijuij
n
p p
P m L n
p p
j iN
LC
P
11 1
1
, ,n
m mn
c c
C m L n
c c
Regularisierung des Profils
Große Datenmenge Kaum Veränderung
Kleine Datenmenge Generalisierung (!
Overfitting) Zero-Counts vermeiden
(„nothing is impossible“)
Datenmenge
Regularisierung des Profils Positionsabhängig
Regularisierende Verteilung
Berechung der neuen Zeile:
1 ,
(Verteilung über alle Daten)
L
iji
j
C
N Lj
Beispiels1 ACTGAs2 AGTGA s3 CGTGC
A C G
4 3 5 3, , ,
15 15 15 15
T
(1 ) , 0,1iP
wenn , dann wähle groß,
sonst wähle klein
Beispiel: (2,1,1,1)
(0.4,0.2,0.2,0.2)
(0.25,0.25,0.25,0.25)
1
(0.25,0.25,0.25,0.25)
i
i
C
P
(5,0,0,0)
(1,0,0,0)
(0.25,0.25,0.25,0.25)
0.0349
(0.9738,0.0087,0.0087,0.0087)
i
i
C
P
Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell
ACGTTGCATGGTCAATGC
gleitendes Fenster
Signal(TFBS)?
Ja Nein
Hintergrundmodell:
1 ,.., ,
1 1 1 1z.B. , , ,
4 4 4 4
nb b n
Score für ein Fenster W: ,1 1
( ) log /i i i
L L
i W W iWi i
Score W P S
( ) 0 ist Anzeichen, dass W ein Signal istScore W
log / i=1,...,L; jij ij jS P Score-Matrix S mit
1 1 1 1 , , ,
4 4 4 4&
Beispiel
Verteilung der Scores „high quality“ Profil
„low quality“ Profil
Fehlertypen
Fehlerabschätzungen
W‘keit für Fensterfehler (Window Error) (Typ I)
W‘keit für Sequenzfehler (Sequence Error) (Typ I)
W‘keit für Fensterfehler (Typ II)
W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t
hat [FN]
( ) : ( )t X t
1..
( ) : maxn ii n
t P X t
( ) ( für mindestens ein i) i=1..mm P it P X t
( ) : ( )Pt X t
Qualität eines Profils „Wie gut unterscheidet sich das Profil vom Hintergrund?“ Qualitätsmaß (hohe Werte ≈ gute Trennung)
QH - Maß für Informationsgehalt
Qsens - Sensitivität (TP Erkennung)
Qsel - Selektivität (FP Unterdrückung)
Qbal - Balance zwischen FP & FN
[0,1]sensQ
[0,1]selQ
[0,1]balQ
0HQ
Typischerweise:
n = 500
m = 1
Profil PHintergrundverteilung
π
Sequenzlänge n
#Signale mSequenzfehlerw‘keit
αn(t) Typ I (FP)
Sequenzlänge n
# Signale m
W‘keit βm(t) (FN)Sequenzlänge n
#Signale m
Gewicht c (αn zu βm)
Qbal
Profil-Qualität TRANSFAC 623 Countmatrizen
Regularisiertes Profil
Annahme von drei verschiedenen Hintergrundmodellen
AT-reich
uniform
GC-reich
Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen
Scoreverteilung berechnen
Qualitätsmaße bestimmen
2 1 1 2, , ,
6 6 6 6AT
1 1 1 1, , ,
4 4 4 4uni
1 2 2 1, , ,
6 6 6 6GC
Profil-Qualität TRANSFAC
Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile
Maximal 5% FN
Wie gut werden echte Signale erkannt?
uniform
AT-reich GC-reich
Profil-Qualität TRANSFAC
Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile
Power of Profiles
Detection power: 95%
Wie gut werden FP unterdrückt?
uniform
AT-reich GC-reich
Profil-Qualität TRANSFAC
Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05
• über 80% sind zu schwach (viele FN)
Verbesserungen
Suche in langen Sequenzen Lsg:
verwandte Genome (Suchraum reduzieren) Profile Clustern
Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung
( ) ( ) 1 tn mt t
0, 0n m
ENDE
Danke für die Aufmerksamkeit