17
On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow [email protected] berlin.de

On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Embed Size (px)

Citation preview

Page 1: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

On the Power of Profiles for Transcription Factor Binding Site Detection

Sven Rahmann*

Tobias Müller†

Martin Vingron‡

* Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and

Computer Science, Freie Universität Berlin

† University of Würzburg

‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics

Chris Bielow [email protected]

Page 2: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Gliederung

Profile

Regularisierung des Profils

Profil Score Matrix

Verteilung der Scores

Fehlerabschätzungen

Qualität eines Profils

Profil-Qualität TRANSFAC

Page 3: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profile

Profil Pu

Countmatrix C

Regularisiertes Profil P ??

s1 ACTGAs2 AGTGAs3 CGTGC

Multiples Alignment N Anzahl d. Sequenzen

L Länge d. Sequenzen

11 1

1

, ,

, , 1,..,

nu

m m

ijuij

n

p p

P m L n

p p

j iN

LC

P

11 1

1

, ,n

m mn

c c

C m L n

c c

Page 4: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Regularisierung des Profils

Große Datenmenge Kaum Veränderung

Kleine Datenmenge Generalisierung (!

Overfitting) Zero-Counts vermeiden

(„nothing is impossible“)

Datenmenge

Page 5: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Regularisierung des Profils Positionsabhängig

Regularisierende Verteilung

Berechung der neuen Zeile:

1 ,

(Verteilung über alle Daten)

L

iji

j

C

N Lj

Beispiels1 ACTGAs2 AGTGA s3 CGTGC

A C G

4 3 5 3, , ,

15 15 15 15

T

(1 ) , 0,1iP

wenn , dann wähle groß,

sonst wähle klein

Beispiel: (2,1,1,1)

(0.4,0.2,0.2,0.2)

(0.25,0.25,0.25,0.25)

1

(0.25,0.25,0.25,0.25)

i

i

C

P

(5,0,0,0)

(1,0,0,0)

(0.25,0.25,0.25,0.25)

0.0349

(0.9738,0.0087,0.0087,0.0087)

i

i

C

P

Page 6: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell

ACGTTGCATGGTCAATGC

gleitendes Fenster

Signal(TFBS)?

Ja Nein

Hintergrundmodell:

1 ,.., ,

1 1 1 1z.B. , , ,

4 4 4 4

nb b n

Score für ein Fenster W: ,1 1

( ) log /i i i

L L

i W W iWi i

Score W P S

( ) 0 ist Anzeichen, dass W ein Signal istScore W

log / i=1,...,L; jij ij jS P Score-Matrix S mit

1 1 1 1 , , ,

4 4 4 4&

Beispiel

Page 7: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Verteilung der Scores „high quality“ Profil

„low quality“ Profil

Page 8: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Fehlertypen

Page 9: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Fehlerabschätzungen

W‘keit für Fensterfehler (Window Error) (Typ I)

W‘keit für Sequenzfehler (Sequence Error) (Typ I)

W‘keit für Fensterfehler (Typ II)

W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t

hat [FN]

( ) : ( )t X t

1..

( ) : maxn ii n

t P X t

( ) ( für mindestens ein i) i=1..mm P it P X t

( ) : ( )Pt X t

Page 10: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Qualität eines Profils „Wie gut unterscheidet sich das Profil vom Hintergrund?“ Qualitätsmaß (hohe Werte ≈ gute Trennung)

QH - Maß für Informationsgehalt

Qsens - Sensitivität (TP Erkennung)

Qsel - Selektivität (FP Unterdrückung)

Qbal - Balance zwischen FP & FN

[0,1]sensQ

[0,1]selQ

[0,1]balQ

0HQ

Typischerweise:

n = 500

m = 1

Profil PHintergrundverteilung

π

Sequenzlänge n

#Signale mSequenzfehlerw‘keit

αn(t) Typ I (FP)

Sequenzlänge n

# Signale m

W‘keit βm(t) (FN)Sequenzlänge n

#Signale m

Gewicht c (αn zu βm)

Page 11: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Qbal

Page 12: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC 623 Countmatrizen

Regularisiertes Profil

Annahme von drei verschiedenen Hintergrundmodellen

AT-reich

uniform

GC-reich

Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen

Scoreverteilung berechnen

Qualitätsmaße bestimmen

2 1 1 2, , ,

6 6 6 6AT

1 1 1 1, , ,

4 4 4 4uni

1 2 2 1, , ,

6 6 6 6GC

Page 13: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile

Maximal 5% FN

Wie gut werden echte Signale erkannt?

uniform

AT-reich GC-reich

Page 14: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile

Power of Profiles

Detection power: 95%

Wie gut werden FP unterdrückt?

uniform

AT-reich GC-reich

Page 15: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05

• über 80% sind zu schwach (viele FN)

Page 16: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Verbesserungen

Suche in langen Sequenzen Lsg:

verwandte Genome (Suchraum reduzieren) Profile Clustern

Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

( ) ( ) 1 tn mt t

0, 0n m

Page 17: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

ENDE

Danke für die Aufmerksamkeit