Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif...

Preview:

DESCRIPTION

Transcription factor binding sites איזורי קישור של פקטורי שיעתוק (motif search). מגיש: יער ראובני מנחה: פרופ' ניר פרידמן סמינריון בגישות מחקר בביולוגיה חישובית 2005/2006. אז מה המוטיב על סדר היום?. - PowerPoint PPT Presentation

Citation preview

Transcription factor binding sites

איזורי קישור של פקטורי שיעתוק

(motif search)

מגיש: יער ראובני

מנחה: פרופ' ניר פרידמןסמינריון בגישות מחקר בביולוגיה חישובית

2005/2006

motif search

אז מה המוטיב על סדר היום?נתחיל בסקירה מלאה על הנושא של חקר איזורי •

.(Wasserman and Sandelin 2004)הקישור של פקטורי שעתוק

אציג שני מחקרים:•

. עוסק בזיהוי של רשתות רגולטוריות ע"י 1 ,.Pilpel et al) . אנליזה קומבינטורית של מוטיבים

2001)

. עוסק בחיזוי של ביטוי גנים ישירות מהרצף, 2

.(Beer and Tavazoie, 2004) ובקנה מידה גנומי

נשווה בין גישות המחקרים.•.CRM’s cis-regulatory modulesבנוסף נדון קצת על •

motif search

מקורות:

• Wasserman WW, Sandelin A. (2004) Applied bioinformatics for the identification of regulatory elements. Nat Rev Genet. 5(4):276-287.

• Pilpel Y et al. )2001( Identifying regulatory networks by combinatorial analysis of promoter elements. Nat Genet. 29)2(:153-159.

• Beer MA, Tavazoie S. )2004( Predicting gene expression from sequence. Cell.117)2(:185-198.

motif search

מוטיבציה:

שנים של מחקר, יצרו אוסף מכובד של מנגנוני •בקרה ידועים שנתגלו בניסויי מעבדה.

בשנים האחרונות, במיוחד לאור השימוש • נוצרו מאגרי high-throughputבטכנולוגיות ה-

מידע גדולים בהם גנומים מרוצפים.

התפתח חקר micro-arrayע"י טכנולוגית ה- •ביטוי גנים לקנה מידה כלל גנומי.

motif search

Regulationבקרה על ביטוי גנים -

.DNAשינוי מבנה ה-•

שלב השיעתוק.•

שחבור ועריכה.•

שלב התרגום.•

.RNAטרנספורט של ה •

.mRNAדגרדציה של •

מודיפיקציות שלאחר התרגום.•

motif search

אז מה מבקר שיעתוק?

שינויים מבניים במבנה הכרומטיני.•

בקרה ע"י פקטורי שיעתוק – •

Transcription factors )TFs(

, וישנה בקרה transישנה בקרה באיזורי •.cis. אנחנו נתמקד בבקרת ה- cisבאיזורי

motif search

אז מה מבקר שיעתוק?

)Transcription factors )TFs- פקטורי שיעתוק -

מתחלקים לשני סוגים: – קרובproximalפרוקסימלי – • - מרוחק מהמרכזdistalדיסטלי – •

-CRM’s – cis-regulatory modules

רגולציה בהם מצבורים של אתרי cisאיזורי בקרה.

motif search

שלבים בבקרה:שינוי מבני•

TF’sקישור •

אינטראקציות •משותפות בין

לבין TF’sה CRMאיזורי ה

גיוס •הקופקטורים

ליצירת קומפלקס

הקואקטיבטור

יצירת קומפלקס •תחילת

השיעתוק

motif search

איך נזהה איזורי בקרה?

או TSS*המחקר היום מתרכז באיזורי פרומוטור

איזורי אנהנסר רחוקים יותר, באחת מהדרכים:

חקר שימור רצף בין גנים אורתולוגיים•

( PHYLOGENETIC FOOTPRINTING).

חקר ההרכב הרצפי.•

הערכות על סמך מידע שהצטבר על ביטוי גנים •.mRNAותעתיקי

*Transcription start site

motif search

איך נזהה איזורי בקרה?

מחקרים ביואינפורמטיים ראשונים חקרו בעיקר • בסיסים 30 כ-TATA-boxהופעות של רצפי

לפני נקודות תחילת שעתוק.

באופן TATA-box: יש רצף דמוי הבעיה• DNA בסיסים ב250ראנדומלי כל כ

וגם לגנים רבים יתכנו יותר מאיזור תחילת שיעתוק אחד.

motif search

איך נזהה איזורי בקרה?

בגלל אחד המאפיינים החשובים של איזורי •GCבקרה בגנום האנושי שהוא: עושר ברצפי

80% )כאשר מה שמפריד בין איזור בקרה לאיזור רגיל זה מתילציה של עד כ מהאיזורים הרגילים על הציטוזין(

התפתח מחקר רב לזיהוי של איזורים עשירי •CG בעיקר ע"י אלגוריתמי למידה חישובית כגון:

Eponine, FirstEF

וע"י cDNA או EST’sאו כאלו הנעזרים במאגרי •CAGE, SAGE' כגון: 5אנליזה של הקצה

motif search

PHYLOGENETIC FOOTPRINTING:

שיטה שמבוססת על חקר של גנים אורתולוגיים.•יוצאת מתוך ההנחה שמוטציות באיזורים •

פונקציונליים לא ישרדו אבולוציונית.ובנוסף מכך שלרגולציה של גנים אורתולוגים •

סביר להניח יהיה אותו מכאניזם.

גנים אורתולוגיים: גן הנמצא בשני מינים שונים ומקורו באב קדמון משותף לשניהם.

motif search

PHYLOGENETIC FOOTPRINTING:

איך זה עובד?בוחרים גנים אורתולוגים מתאימים להשוואה.-

COGs/KOGs, HOPs, HomoloGeneמאגרים מהם ניתן לבחור:

)במקרה שלנו נתמקד באיזורי מבצעים יישור של שני הגנים -

.פרומוטור(LAGAN או BLASTzע"י שימוש בשיטות המוקרות כגון

בודקים את השימור הרצפי לאחר היישור.-כאשר את הבדיקה ניתן לעשות ממש בעין, או שניתן להשתמש בכלים כמו

VISTA browser או PipMaker .לויזואליזציה של התוצאות

למשל:

motif search

PHYLOGENETIC FOOTPRINTING:

motif search

נרצה מודל המייצג מוטיב רצפי אליו :TF’sנקשרים

יש בד"כ העדפות ברורות לרצף ספציפי.TF’sל

יהיה זה אפשריTFבהנתן קבוצת איזורי קישור של

ליצור מודל כזה.

אבל, ישנן שתי בעיות:נרצה שהמודל יהיה מבוסס על מידע נסויי.-, שנקבל היא false positiveכמות האתרים-

לדוגמא עבור הגן בסיסים. 5000 עד 500גדולה, אחד ל myoD עשויים להיות פונקציונליים3^10~ מתוכם רק 6^10~ בגנום האדם נקבל כתחזית

motif search

מודל לייצוג מוטיב רצפי:

בשביל להבין את יתרונותיהן וחסרונותיהן של

חשוב לאTFהשיטות הנוכחיות ליצירת מודל ל

רק להכיר את התאוריה שמאחורי המודל, אלא

גם קצת את התהליך של הניקוד וההגבלות

שהשיטות כופות על המידע הניסויי.

MEF2נסתכל לדוגמא על קביעת המוטיב הרצפי של

MEF2 – myocyte enhancer factor 2

motif search

מודל לייצוג מוטיב רצפי:

.a:איסוף מידע איזורי קישור שידועים בספרות ומקורם בניסוי.8 יש MEF2ל

.b.נקבע רצף קונצנזוס

motif search

מודל לייצוג מוטיב רצפי:c ניצור .PFM:

לכל נוקלאוטיד נתאר כמה מופעים שלו קיימים בכל אתר.

d ניצור .PWM:)position specific weight matrix )PSWMאו בשמותיה האחרים

position specific scoring matrix )PSSM(

motif search

מודל לייצוג מוטיב רצפי:e ע"י מדגם מייצג של כלל הגנום, התוצאות מומרות באופן .

פורפורציוני לאנרגית הקישור.

f הצגה של המוטיב כלוגו בו גודל האות מייצג את מידת החיוניות .שלה

לאתר.

motif search

לפני שנתחיל:•AlignACE:

–Aligns Nucleic Acid Conserved Elements ומוצאת בהם אלמניטים DNAתוכנה המקבלת קבוצה של רצפי –

שמורים.. Gibbs samplingמשתמשת בדגימת גיבס –

•CompareACE:–Compares Nucleic Acid Conserved Elementsמבצעת השוואה בין שני מוטיבים.–-1.0 ל 1.0מחזירה ערך בין –1.0כאשר התאמה מושלמת תתן את הערך –

•ScanACE:–Scans for Nucleic Acid Conserved Elements . נתון ומחפשת בו מוטיב נתוןDNAסורקת רצף –PWMמשתמשת ב –

motif search

המחקר הראשון:

Identifying regulatory networks by combinatorial analysis of promoter

elements.

זיהוי של רשתות רגולטוריות ע"י אנליזה קומבינטורית של מוטיבים.

Pilpel Y et al. )2001(

motif search

המטרה:

למצוא קשרים רגולטוריים בין זוגות של מוטיבים, ואפיון של הרשת הרגולטורית של שמר ההנצה

Saccharomyces cerevisiae.

motif search

השיטה:ניצור מאגר של מוטיבים רגולטוריים.

לכל זוג מוטיבים, נזהה את כל הגנים המכילים את הזוג באיזור הפרומוטור.

.expression coherence scoreלכל קבוצת גנים נחשב את ציון עקביות הביטוי

נזהה את כל הקומבינציות הסינרגיסטיות בצורה משמעותית.

לבנות מפות סינרגיה של מוטיבים סינרגיסטיים

לויזואליזציה של הרשת הרגולטורית.

השוואת ההשפעה של מוטיבים בודדים וקומבינציות

של מוטיבים על הביטוי, ע"י "קומבינוגרם"

Combinogram.

motif search

מאגר המוטיבים:•Pilpel et al. מוטיבים 356 השתמשו במאגר של

ידועים.37מתוכם על AlignACE מהן, הם הפיקו ע"י שימוש בתוכנה 329•

upstream באיזורים )MIPS )2000מאגר גנים הנקרא לגן.

nonredundant מוטיבים אלו מייצגים תת-קבוצה 329•

, אותה השיגו ע"י התניה 819מתוך קבוצה ראשונית בת .CompareACEעל תוצאות התוכנה

SCPDשאר המוטיבים נלקחו מהספרות ומהמאגר •

motif search

זיהוי גנים המכילים זוגות מוטיבים:

( וסטית mלכל מוטיב הם חישבו את הממוצע )• על הגנים ScanACE( של ציוני ה SDהתקן )

ששימשו להפקת המוטיב.

upstream איזורי ה4,483התאימו מוטיבים ל- •)UR’s( הידועים ב S. Cerevisiae רק עבור

. )m-)2*SD אלו עם ציון גבוה מ

הכילו מוטיב הם לקחו UR’s 300אם יותר מ • עם הציון הגבוה ביותר.300את ה

motif search

חישוב ציון עקביות הביטוי(EC )expression coherence score

מידע על הביטוי של הגנים נלקח מהמאגר •ExpressDB.

בהנתן קבוצה של גנים, המכילה מוטיב מסויים •או קבוצת מוטיבים, ע"י חישוב המרחק האויקלידי

בין הממוצע לבין השונות המנורמלת של כל זוג משותף.ECמוטיבים, הם יצרו ציון עקביות

כעת נוכל לכל קומבינציה ליצור פרופיל ביטוי על •, טיפול וכד'stressמחזור התא, מצבי גבי מצבים רבים ומגוונים.

motif search

קיבלנו ציון שנותן הערכה על העקביות של •הופעת המוטיב, כלומר עד כמה המוטיב או

הקומבינציה של המוטיבים חיונית לבקרה.

ציון עקביות הביטוי(EC )expression coherence score

motif search

זיהוי קומבינציות סינרגיסטיות:

EC עכשיו שיש לנו ציוני נוכל לבדוק סינרגיה של

זוגות מוטיבים על גבי קבוצת גנים המכילה

אותם.קו אפור מייצג תבנית -

ביטוי ספציפית של גן.הקו האדום הממוצע -

שלהן.ומצורף ציון העיקביות.-

motif search

תוצאות:

מוטיבים סינרגיסטים.115זוהו •בינהם כאלו שכבר מוכרים וידועים.• כמוטיב מרכזי RAP1זוהה בבירור המוטיב •

בעל סינרגיה גבוהה עם מוטיבים רבים, באופן התואם את הידוע על תפקידו המרכזי בבקרת

שיעתוק בשמר.זוהתה סינרגיה חדשה וחזקה בין שני מוטיבים, •

PAC ו mRRPE שנתגלו בעיקר כמוטיבים .rRNAהמבקרים שיעתוק של

motif search

נוכל לזהות יחס סדר:

מכיוון שמדובר בזוגות, •ודאי קיימת אורינטציה מועדפת שלהם אחד לעומת השני ביחס ל

TSS. פרומוטורים שהכילו עותק יחיד 79מתוך •

קרוב mRRPE, mRRPE ו PACשל מהם.51 בTSSל

18%העדפות על אורינטציה נמצאו בכ- • 6%מהזוגות הסינרגיסטים לעומת רק כ-

על זוגות מקריים.

motif search

מפות סינרגיה:כשיש בידנו את כל המידע על כל הזוגות ניתן ליצר •

מפת סינרגיה

ניתן לראות -מקבצים עם

פעילות משותפת.

ניתן לראות -חשיבות של

מוטיבים, ובכמה מצבים שונים הם מעורבים.

motif search

השוואה בין קומבינציות של מוטיביםCombinogram:

•Pilpel et al. בנו שיטה להשוואה בין קומבינציות של מוטיבים, גם חישובית וגם ויזואלית.

5האנליזה מתחילה עם אוסף מוטיבים ) בד"כ כ- •(.20עד

– יש לו 1כל גן בגנום מקבל חתימה בינארית • – אם אין לו.0את המוטיב

GMC – gen set defined by motif combinationואז יוצרים •

קבוצת גנים המוגרת ע"י החתימה.

motif search

השוואה בין קומבינציות של מוטיביםCombinogram:

מחזור נביגההתא

motif search

השוואה בין קומבינציות של מוטיביםCombinogram:

Heat shok Nucleotide excision repair

motif search

סיכום:

ענין מרכזי שעובד לרעת התוצאות כאן, הוא •הטיפול במידע לפי זוגות של מוטיבים.

אין התייחסות לחוזק ולחיוניות של כל מוטיב •בפני עצמו, כלומר בהשוואה לאחרים.

אין התייחסות למרחקים, בין המוטיבים וביחס •.-TSSל

יש הצגה ויזואלית צבעונית ונחמדה.•

motif search

motif search

המחקר השני:

Predicting gene expression from sequence.

חיזוי של ביטוי גנים ישירות מהרצף

Beer MA, Tavazoie S. )2004(

motif search

המטרה:

לחזות רמת ביטוי של גנים ע"פ מאפיינים רצפיים, כלומר להסיק

מקומבינציות של מוטיבים רצפיים על רמות ביטוי.

motif search

השיטה: נתחיל עם מידע על ביטוי גנים שנאסף ע"י שימוש בטכנולוגית

microarray ונריץ עליו אלגוריתם קיבוץ clustering.

נחלק את הגנים לקבוצות )תבניות ביטוי( ע"פ מאפיני ביטוי דומים, כאלו המבוטאים ביחד ותלויים בכמה תנאים רצפיים

מסויימים.

בתבניות הביטוי נחפש אלמנטים רצפיים, מוטיבים המבוטאים ביתר בכל התבנית.

נשתמש ברשת בייסיאנית, למיין ולקבוע את החשיבות של המוטיבים לתבנית הביטוי.

כעת נוכל להשתמש במידע שנאסף על תבניות הביטוי השונות לחזות ביטוי גנים ע"פ הרצף.

motif search

איסוף מידע:

למרות שהגישה של המחקר ישימה על כל סוג של • microarrays Beerמאגר מידע המכיל תבניות ביטוי מ

et al.:בחרו להתמקד במאגרים -environmental stresses (Gasch et al., 2000)

-cell cycle (Spellman et al., 1998)

גנים.2587 מצבים, 255סה"כ •נזכור כי ככל שניקח מגוון גדול יותר של מצבים כך •

נוכל להקטין את רמת הרעש.מצד שני, יש לקחת בחשבון שרמת ביטוי של גן במצב •

מסויים עשויה להיות שונה מרמת הביטוי הרגילה שלו.

motif search

Clustering:

את תבניות הביטוי, הצבירו ע"י מודיפיקציה של •.k-means algorithmהאלגוריתם:

גנים 10ההבדל העיקרי, היה הגבלה של •למצבור.

את התניות האלגוריתם בחרו ככה שיהיה •מקסימום של תבניות ביטוי שונות.

תבניות ביטוי.49 גנים, נקבעו 2587מתוך ה •תבניות הביטוי קיבלו את סיווגם הפונקציונלי •

.MIPSבהסתמך על המאגר

motif search

למטרת ויזואליזציה -השתמשו באלגוריתם

force-directed placement

מודגשים גנים השייכים - תבניות 49 מתוך 9ל-

הביטוי שנמצאו במחקר.

ניתן לראות שהביטוי לא -בדיד אלא המשכי.

ושיש חפיפה בין תבניות -ביטוי שונות.

מגוון המקבצים הקטנים -התקבלו בזכות

המודיפיקציות על אלגרויתם הצבירה.

motif search

בשביל להבין תבניות ביטוי, דוגמא:

4נסתכל למשל על •תבניות ביטוי מוצגות על

המצבים.255 מתוך 77 גנים בתבנית 138ישנם •

מקודדים 122 מתוכם 1.לחלבונים ריבוזומליים

גנים בתבנית 114ישנם • מעורבים 21 מתוכם 4

.rRNAבשיעתוק

motif search

איך נקבעו המוטיבים הרצפיים:

בחיפוש של AlignACEע"י שימוש בתוכנת ה • 800 בסיסים עד כדי 12מוטיבים בגודל

לנקודת תחילת upstream' 5בסיסים באיזור ה תבניות 49 של כל הגנים מ TSSהשיעתוק

הביטוי.

motif search

:Bayesian networkרשת בייסיאנית

סטטיסטי המאפשר , היא מודלרשת בייסיאנית•הסקה של הסתברויות מותנות. הרשת מורכבת

מגרף מכוון חסר מעגלים וטבלאות של הסתברויות מותנות. כל קודקוד בגרף מסמל

משתנה מקרי, אליו צמודה טבלה המפרטת את ההסתברות המותנית שלו ביחס להוריו בגרף.

רשתות בייסיאניות משמשות לתוכנות הדורשות •הסקה סטטיסטית, ולתוכנות הלומדות מדוגמאות.

motif search

:Bayesian networkרשת בייסיאנית

הראשונים שהשתמשו בגישה הבייסיאנית •לחקר רגולציה של גנים היו

-2000, Friedman et al.

-Segal et al., 2003

ההבדל העיקרי בין הגישה שלהם לבין הגישה •שמוצגת כאן היא שהם עבדו לפי הקשר שבין

ובין הרצף, וכאן הגישה המוצגת mRNAביטוי בודקת רצף מול רצף.

motif search

:Bayesian networkרשת בייסיאנית הרשת מהסוג בה השתמשו

Beer et al.

מאפייני הגישה:לימוד המוטיבים נעשה מתוך תבניות -

הביטוי., ולא ע"י PWMsיצוג המוטיבים ע"י -

רצפי קונצנזוס.יצירת מוטיב נובעת מתבניות הביטוי -

ולא מאיזורי קישור קבועים ומוכרים כמו בשיטה המקובלת.

ההתניות על הרצף הכי כלליות שניתן -.TSSמלבד כמובן לקביעת נקודת ה

מיפוי הרצף לביטוי הוא הסתברותי ולא -לינארי.

motif search

:RRPE ו PACדוגמא, .rRNAאחראים על בקרת שיעתוק של •

חשיבות קיום אחד או -שני המוטיבים.

חשיבות סדר -המוטיבים זה ביחס

לזה.

motif search

אחרי הניתוח הבייסיאני, כיצד נחזה את הביטוי?

קבוצות מבחן, לצורך 5נחלק את הגנים ל •השוואה ואימות של התוצאות.

גנים בקבוצת אימון 80%נשמור על יחס של • גנים בכל קבוצת מבחן.20%מול

כעת נותר לבדוק רק עד כמה התחזית •מדוייקת...

motif search

אז איך יראה המחקר ביחס לכלל הגנום?

•Beer et al. מתייחסים לכמה סוגים של .NOT ו AND, ORתבניות ביטוי אופייניות

:RRPE ו PACנחזור לדוגמא של •

motif search

אז איך יראה המחקר ביחס לכלל הגנום?

motif search

התניות נוספות, אוריינטציה:

motif search

התניות נוספות, אוריינטציה:

motif search

תוצאות: עד כמה התחזית טובה?

ראשית כל, ניתן לראות •שקיימת חפיפה בין חלק

מתבניות הביטוי שהתקבלו, והם מניחים שאם מתקבלת תוצאה חופפת אז היא תחשב

כנכונה. 73%הצליחו לחזות נכון •

מתבניות הביטוי, כלומר 2587 מתוך 1898עבור גנים.

motif search

תוצאות: עד כמה התחזית טובה?

השוואה בין הרצה של •הרשת על מוטיב אחד בודד, רשת מלאה או

השמה ראנדומית.ניתן לראות שממוצע •

0.02המתאם עולה מ ברשת הראנדומית עד ל

ברשת המלאה.0.36

motif search

תוצאות: עד כמה התחזית טובה?

motif search

סיכום:

חיזוי של ביטוי 73%סה"כ תוצאות מרשימות, •גנים לפי הרצף.

ע"י הכללה ככל האפשר של ההתניות על הרצף, •יתקבלו כמה שיותר וריאציות של בקרה.

.microarryהחיזוי מתבסס על תוצאות ניסייות •אבל, בכל זאת התהליך הסתברותי, לא בהכרח •

תמיד צודק. כלומר יתכנו טעויות, תבניות חופפות.

תבניות ביטוי מיוחדות לא יתגלו.•

motif search

דיון:

נשווה בין שני המאמרים:

Pilpel et al.

קודם מייצר מאגר של מוטיבים -ואז מחפש אותם בתבניות

הביטוי.

מטפל לפי זוגות מוטיבים.-

לא מטפל במרחקים, רק -אורינטציה.

לא מתייחס לחיוניות של כל -מוטיב לביטוי.

Beer et al.

מתחיל עם תבניות ביטוי, ומייצר -מהן מאגר מוטיבים.

אין התניה על כמות המוטיבים.-

מטפל בכל התניה אפשרית, -גם מרחק בין הגנים וגם

אורינטציה.

נותן ציון לחיונית של כל מוטיב -לביטוי

RRPE ו PACעובדה מעניינת: הבדל בתוצאות, בקשר לאורינטציה של

motif search

:CRM’sחוב קודם,

כעת, אחרי שהבנו כיצד מוצאים ומנתחים מוטיבים

מתוך מאגרי מידע המכילים תבניות ביטוי של גנים

נשים לב לשתי העובדות הבאות:ניתן לקחת את השיטה הקיימת למציאת מוטיב, ולהרחיב 1.

אותה לכדי מציאת מקבץ שלם שמור מבחינת הרצף.

ניתן להרחיב את השיטות הקומבינטוריות שראינו כך שהן 2.יהיו מסוגלות למצוא קורלציה מתאימה בין גורמים רבים

במקבץ שכזה.

motif search

:CRM’sניתוח של

motif search

סיכום:

סקרנו את חקר הבקרה על השיעתוק:•GC.איזורים עשירי –

–PHYLOGENETIC FOOTPRINTING.

.PWMהכרנו את המודל ליצירת מוטיב רצפי ומטריצות –

ראינו מחקר, שחקר השפעה של קומבינציות •של זוגות של מוטיבים על בקרת השיעתוק.

ראינו מחקר שע"י ניתוח הסתברותי מצא •קורלציות בין אלמנטים רצפיים, ומציע דרך

לחזות ביטוי גנים מתוך הרצף.

motif search

Recommended