Transcript
Page 1: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

On the Power of Profiles for Transcription Factor Binding Site Detection

Sven Rahmann*

Tobias Müller†

Martin Vingron‡

* Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and

Computer Science, Freie Universität Berlin

† University of Würzburg

‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics

Chris Bielow [email protected]

Page 2: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Gliederung

Profile

Regularisierung des Profils

Profil Score Matrix

Verteilung der Scores

Fehlerabschätzungen

Qualität eines Profils

Profil-Qualität TRANSFAC

Page 3: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profile

Profil Pu

Countmatrix C

Regularisiertes Profil P ??

s1 ACTGAs2 AGTGAs3 CGTGC

Multiples Alignment N Anzahl d. Sequenzen

L Länge d. Sequenzen

11 1

1

, ,

, , 1,..,

nu

m m

ijuij

n

p p

P m L n

p p

j iN

LC

P

11 1

1

, ,n

m mn

c c

C m L n

c c

Page 4: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Regularisierung des Profils

Große Datenmenge Kaum Veränderung

Kleine Datenmenge Generalisierung (!

Overfitting) Zero-Counts vermeiden

(„nothing is impossible“)

Datenmenge

Page 5: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Regularisierung des Profils Positionsabhängig

Regularisierende Verteilung

Berechung der neuen Zeile:

1 ,

(Verteilung über alle Daten)

L

iji

j

C

N Lj

Beispiels1 ACTGAs2 AGTGA s3 CGTGC

A C G

4 3 5 3, , ,

15 15 15 15

T

(1 ) , 0,1iP

wenn , dann wähle groß,

sonst wähle klein

Beispiel: (2,1,1,1)

(0.4,0.2,0.2,0.2)

(0.25,0.25,0.25,0.25)

1

(0.25,0.25,0.25,0.25)

i

i

C

P

(5,0,0,0)

(1,0,0,0)

(0.25,0.25,0.25,0.25)

0.0349

(0.9738,0.0087,0.0087,0.0087)

i

i

C

P

Page 6: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell

ACGTTGCATGGTCAATGC

gleitendes Fenster

Signal(TFBS)?

Ja Nein

Hintergrundmodell:

1 ,.., ,

1 1 1 1z.B. , , ,

4 4 4 4

nb b n

Score für ein Fenster W: ,1 1

( ) log /i i i

L L

i W W iWi i

Score W P S

( ) 0 ist Anzeichen, dass W ein Signal istScore W

log / i=1,...,L; jij ij jS P Score-Matrix S mit

1 1 1 1 , , ,

4 4 4 4&

Beispiel

Page 7: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Verteilung der Scores „high quality“ Profil

„low quality“ Profil

Page 8: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Fehlertypen

Page 9: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Fehlerabschätzungen

W‘keit für Fensterfehler (Window Error) (Typ I)

W‘keit für Sequenzfehler (Sequence Error) (Typ I)

W‘keit für Fensterfehler (Typ II)

W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t

hat [FN]

( ) : ( )t X t

1..

( ) : maxn ii n

t P X t

( ) ( für mindestens ein i) i=1..mm P it P X t

( ) : ( )Pt X t

Page 10: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Qualität eines Profils „Wie gut unterscheidet sich das Profil vom Hintergrund?“ Qualitätsmaß (hohe Werte ≈ gute Trennung)

QH - Maß für Informationsgehalt

Qsens - Sensitivität (TP Erkennung)

Qsel - Selektivität (FP Unterdrückung)

Qbal - Balance zwischen FP & FN

[0,1]sensQ

[0,1]selQ

[0,1]balQ

0HQ

Typischerweise:

n = 500

m = 1

Profil PHintergrundverteilung

π

Sequenzlänge n

#Signale mSequenzfehlerw‘keit

αn(t) Typ I (FP)

Sequenzlänge n

# Signale m

W‘keit βm(t) (FN)Sequenzlänge n

#Signale m

Gewicht c (αn zu βm)

Page 11: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Qbal

Page 12: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC 623 Countmatrizen

Regularisiertes Profil

Annahme von drei verschiedenen Hintergrundmodellen

AT-reich

uniform

GC-reich

Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen

Scoreverteilung berechnen

Qualitätsmaße bestimmen

2 1 1 2, , ,

6 6 6 6AT

1 1 1 1, , ,

4 4 4 4uni

1 2 2 1, , ,

6 6 6 6GC

Page 13: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile

Maximal 5% FN

Wie gut werden echte Signale erkannt?

uniform

AT-reich GC-reich

Page 14: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile

Power of Profiles

Detection power: 95%

Wie gut werden FP unterdrückt?

uniform

AT-reich GC-reich

Page 15: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Profil-Qualität TRANSFAC

Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05

• über 80% sind zu schwach (viele FN)

Page 16: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

Verbesserungen

Suche in langen Sequenzen Lsg:

verwandte Genome (Suchraum reduzieren) Profile Clustern

Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

( ) ( ) 1 tn mt t

0, 0n m

Page 17: On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology,

ENDE

Danke für die Aufmerksamkeit


Recommended