49
Statistical Properties Statistical Properties of DNA Sequences of DNA Sequences 東東東東東東東‧東東東 東東東東東東東‧東東東 111/06/09 111/06/09 東東東東

Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

  • View
    264

  • Download
    6

Embed Size (px)

Citation preview

Page 1: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Statistical Properties of DNA Statistical Properties of DNA SequencesSequences

東海大學物理系‧施奇廷東海大學物理系‧施奇廷112/04/18112/04/18生物物理

Page 2: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

生物學家最感興趣的:基因圖譜生物學家最感興趣的:基因圖譜

Page 3: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Music of LifeMusic of Life

將流行性感冒病毒之將流行性感冒病毒之 DNDNAA 序列轉換成樂譜:序列轉換成樂譜:

Page 4: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Z CurveZ CurveR. Zhang, and C. T. Zhang R. Zhang, and C. T. Zhang JJ.. Biomol Biomol.. Struc Struc.. Dynamics Dynamics 11, 767-782.11, 767-782.

Page 5: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

核苷酸的三種特性核苷酸的三種特性 嘌呤(嘌呤( A, GA, G ) ) vs vs 嘧啶(嘧啶( C, TC, T )) 強鍵(強鍵( C, GC, G ) ) vs vs 弱鍵(弱鍵( A, TA, T )) 氨基(氨基( A, CA, C ) ) vs vs 酮基(酮基( G, TG, T ))

Page 6: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 7: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

什麼是「什麼是「 Z Z 曲線」?曲線」? 對於任何一個對於任何一個 DNADNA 序列,若由第一個到第序列,若由第一個到第 nn 個鹼個鹼

基中,基中, A, T, C, GA, T, C, G 出現的個數各為 出現的個數各為 AAnn, T, Tnn, C, Cnn, G, Gnn

例如以下序列:例如以下序列: AATTGCATCCCGAGGAATTGCATCCCGAGG ,則( ,則( AAnn, T, Tnn, C, Cnn, G, Gnn )為:)為:n=1n=1 :(:( 1,0,0,01,0,0,0 ))n=5n=5 :(:( 2,2,0,1)2,2,0,1)n=10n=10 :(:( 3,3,3,13,3,3,1 ))n=15n=15 :(:( 4,3,4,44,3,4,4 ))

Page 8: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

什麼是「什麼是「 Z Z 曲線」?曲線」? 接著定義三維座標 接著定義三維座標 RRnn=(x=(xnn, y, ynn, z, znn)) ,其中,其中 xxnn, y, ynn, z, znn 定義為:定義為:

xxnn=2(A=2(Ann+G+Gnn)-n)-n

yynn=2(A=2(Ann+C+Cnn)-n)-n

zznn=2(A=2(Ann+T+Tnn)-n)-n 以前述序列為例以前述序列為例 AATTGCATCCCGAGG AATTGCATCCCGAGG ::

n=1n=1 :(:( 1,0,0,01,0,0,0 )→ )→ RRnn=(1,1,1)=(1,1,1)

n=5n=5 :(:( 2,2,0,1) → R2,2,0,1) → Rnn=(1,-1,3)=(1,-1,3)

n=10n=10 :(:( 3,3,3,13,3,3,1 ) → ) → RRnn=(-2,2,2)=(-2,2,2)

n=15n=15 :(:( 4,3,4,44,3,4,4 ) → ) → RRnn=(1,1,-1)=(1,1,-1)

Page 9: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

ZZ 曲線的意義曲線的意義 xxnn=2(A=2(Ann+G+Gnn)-n)-n → x → xnn>0 >0 表嘌呤類較多,嘧啶類較少表嘌呤類較多,嘧啶類較少 yynn=2(A=2(Ann+C+Cnn)-n)-n → y → ynn>0 >0 表氨基類較多,酮基類較少表氨基類較多,酮基類較少 zznn=2(A=2(Ann+T+Tnn)-n)-n → zn>0 → zn>0 表弱鍵結較多,強鍵結較少表弱鍵結較多,強鍵結較少 若有一序列總長度為 若有一序列總長度為 NN ,則可以由以上定義算出,則可以由以上定義算出 RR

nn (( N=1,2,3……,NN=1,2,3……,N ),並在三維空間中畫出軌跡),並在三維空間中畫出軌跡 亦可將足標亦可將足標 nn 視為「時間」,畫出視為「時間」,畫出 x(n),y(n),z(n)x(n),y(n),z(n)

Page 10: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

大腸桿菌之大腸桿菌之 ZZ 曲線曲線

Page 11: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA WalkDNA WalkC.K. Peng et al. Nature 356, 168 (1992).C.K. Peng et al. Nature 356, 168 (1992).

Page 12: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Random WalkRandom Walk 什麼是「無規行走」(什麼是「無規行走」( Random WalkRandom Walk )?)? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向一維:丟一枚銅板,出現正面則向前一步,出現背面則向

後一步後一步 二維:丟兩枚銅板,出現「++」則向前、「+-」向後、二維:丟兩枚銅板,出現「++」則向前、「+-」向後、

「-+」向左、「--」向右「-+」向左、「--」向右 如果沒有作弊,平均而言,走過很多步以後,會回到原點如果沒有作弊,平均而言,走過很多步以後,會回到原點

附近附近 但是不會剛好回到原點,而是在距離原點√但是不會剛好回到原點,而是在距離原點√ NN 的範圍之內的範圍之內 寫成數學表示法:寫成數學表示法: Y(N)=0± √NY(N)=0± √N 。若把標準差寫為 。若把標準差寫為 F(N)F(N) ,,

則 則 F(N)= √N F(N)= √N 或 或 NN0.50.5

利用電腦程式模擬看看:

Page 13: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA WalkDNA Walk

如果我們不用丟骰子的方式來決定往哪個方向走,如果我們不用丟骰子的方式來決定往哪個方向走,而是利用 而是利用 DNA DNA 序列來決定,結果如何?序列來決定,結果如何?

一維 一維 DNA walk DNA walk 方法:依序讀入 方法:依序讀入 DNA DNA 序列,序列,如果讀到 如果讀到 C, T C, T (嘧啶)則向前一步,如果讀到 (嘧啶)則向前一步,如果讀到 A, GA, G (嘌呤)則向後退一步(嘌呤)則向後退一步

二維 二維 DNA walk DNA walk 方法:四種核甘酸剛好對應四個方法:四種核甘酸剛好對應四個方向方向

Page 14: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 15: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

麵包酵母菌第三及第八條染色體之一維 麵包酵母菌第三及第八條染色體之一維 DNA WalkDNA Walk

Page 16: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

麵包酵母菌第二條染色體之二維 麵包酵母菌第二條染色體之二維 DNA WalkDNA Walk

Page 17: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

關於一維 關於一維 Walker Walker 的分析的分析 比較三種「走法」:前兩種是我們前面介紹過的 比較三種「走法」:前兩種是我們前面介紹過的

Random walk Random walk 以及 以及 DNA walkDNA walk 第三種是 第三種是 Fibonacci walk: Fibonacci walk: 利用所謂的 利用所謂的 FibonacFibonac

ci ci 數列方法產生一個「假的」數列方法產生一個「假的」 DNA DNA 序列序列 由 由 G G 開始→開始→ G G 變成 變成 GC→G GC→G 變成 變成 GCGC ,, C C

變成變成 GG (( GCGGCG )→)→ GCGGC→GCGGCGCG…GCGGC→GCGGCGCG………

產生出來的序列再用 產生出來的序列再用 DNA walk DNA walk 的方法去走,得的方法去走,得到下圖到下圖

Page 18: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA Walk (conti.)DNA Walk (conti.)Fluctuations:Fluctuations:

Correlation:Correlation:

Random sequence and short correlated Random sequence and short correlated sequence: sequence:

Long-range correlated sequence: Long-range correlated sequence:

)()()(

)()()(

00

222

lyllyly

lylylF

l

i

l

j

ijClF

lullululC

1 1

2

2

000

)()(

)()()()(

0.5 with ~)( llF

0.5 with ~)( llF

Page 19: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

F(N)

N

Page 20: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

關於一維 關於一維 Walker Walker 的分析的分析(續)(續)

由 由 F(N)=NF(N)=N 的行為看來,這三種序列有很大的的行為看來,這三種序列有很大的不同:不同:

Random walk: Random walk: = 0.5 = 0.5 Human Ch22: Human Ch22: ~ 0.6 ~ 0.6 Fibonacci: Fibonacci: << 0.5 << 0.5 Random walk Random walk 裡面不含資訊(全是隨機亂數),裡面不含資訊(全是隨機亂數),

因此 因此 =0.5 =0.5 表示「資訊量最低」表示「資訊量最低」 Fibonacci Fibonacci 序列有嚴謹的規則,所以 序列有嚴謹的規則,所以 偏離 偏離 0.5 0.5

很遠很遠 DNA ?DNA ? “有點亂又不是太亂”

Page 21: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA Walk (conti.)DNA Walk (conti.)

(a)(a) intron-containing intron-containing -cardiac myosin (● with a=0.67) and its cDNA (○ -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49)with a=0.49)

(b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a● with a=0.62) and its intronless genes (○ with a=0.49), see table=0.49), see table

(c)(c) same as in (a) for longer distancesame as in (a) for longer distance

Page 22: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA Walk (conti.)DNA Walk (conti.)

Page 23: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

奇怪的是……奇怪的是…… DNA DNA 序列中有分 序列中有分 coding (gene) coding (gene) 以及 以及 non-conon-co

ding (junk, intron) ding (junk, intron) 區域,我們很合理的猜測,編區域,我們很合理的猜測,編碼區應該是「含有資訊」,而非編碼區是接近亂碼區應該是「含有資訊」,而非編碼區是接近亂數序列、不含資訊的序列數序列、不含資訊的序列

可是根據對編碼區與非編碼區分別計算 可是根據對編碼區與非編碼區分別計算 的結 的結果……果……

編碼區的 = 0.5 ,非編碼區的 ~ 0.6 !

Page 24: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

雖然還是搞不清楚原因,不過還是提供了一雖然還是搞不清楚原因,不過還是提供了一個判斷編碼區或非編碼區的方法:個判斷編碼區或非編碼區的方法:

Page 25: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA DNA 「剪不斷,理還亂?」「剪不斷,理還亂?」 當 當 ≠≠ 0.5 0.5 時,表示這個序列有「時,表示這個序列有「 long range colong range co

rrelationrrelation 」,也就是第 」,也就是第 x x 步會與第 步會與第 x+N x+N 步有關步有關 DNA DNA 的 的 ≠≠ 0.50.5 ,也就表示 ,也就表示 DNA DNA 序列存在某序列存在某

種規則,種規則, but what ?but what ? 一個可能性:一個可能性: DNA DNA 的電子傳導(的電子傳導( S. Roche S. Roche et aet a

ll.. )) DNA DNA 的電子傳導性較 的電子傳導性較 random sequence random sequence 好好 DNA DNA 的電傳性質是目前一個非常重要的問題的電傳性質是目前一個非常重要的問題

Page 26: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 27: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

二維 二維 DNA Walk DNA Walk 分析分析 Diffusion Coefficients of Two-Dimensional Viral DNA WalDiffusion Coefficients of Two-Dimensional Viral DNA Wal

ks, T.-H Hsu and S.-L. Nyeoks, T.-H Hsu and S.-L. Nyeo (楊緒濃,成功大學物理(楊緒濃,成功大學物理系)系) , Phys. Rev. E , Phys. Rev. E 6767, 051991 (2003)., 051991 (2003).

Page 28: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Definition of Diffusion Definition of Diffusion CoefficientCoefficient

Page 29: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 30: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 31: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 32: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Still an open question!Still an open question!

Page 33: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic Analysis Linguistic Analysis R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)

Page 34: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic AnalysisLinguistic Analysis

Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 Ref.: R. N. Mantegna et al., Phys. Rev. E 52, 2939 (1995)(1995)

Zipf law:Zipf law:

Counting f, the frequency of occurrence of words in Counting f, the frequency of occurrence of words in a given text. f of each word is ordered from the most a given text. f of each word is ordered from the most frequent to the least one. The position of each word ifrequent to the least one. The position of each word in the ordered list is the rank R.n the ordered list is the rank R.

In nature languages, the Zipf law is satisfied with In nature languages, the Zipf law is satisfied with ζζclclose to 1.ose to 1.

R

af

Page 35: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic Analysis (conti.)Linguistic Analysis (conti.)

Use “n-tuple” Zipf analysis instead of the conventUse “n-tuple” Zipf analysis instead of the conventional one: the length of “word” is fixed as nional one: the length of “word” is fixed as n

Natural language (English), computer language Natural language (English), computer language (UNIX binary code) and DNA sequences are ana(UNIX binary code) and DNA sequences are analyzed by this methodlyzed by this method

Page 36: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic Analysis (conti.)Linguistic Analysis (conti.)

words)realfor (-0.8557.0

Page 37: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic Analysis (conti.)Linguistic Analysis (conti.)

77.0

Page 38: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Linguistic Analysis (conti.)Linguistic Analysis (conti.)

34.0

Page 39: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 40: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理
Page 41: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Puzzle:Puzzle:

Non-coding sequence: satisfies Zipf law as the natuNon-coding sequence: satisfies Zipf law as the natural or computer languagesral or computer languages

Coding sequence: doesn’t satisfy Zipf law but the loCoding sequence: doesn’t satisfy Zipf law but the logarithmic form:garithmic form:

Does this mean, there are some biological meaning Does this mean, there are some biological meaning in the non-coding region?in the non-coding region?

Rcbf 10log

Page 42: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Visualize the Complete GenomeVisualize the Complete Genome

利用符號動力學 利用符號動力學 (symbolic dynamics) (symbolic dynamics) 方法,可以方法,可以將物種的完整將物種的完整 DNADNA 序列圖像化,是一種粗粒化的方序列圖像化,是一種粗粒化的方式,雖然失去一些細節,然而卻能使某些重要的特式,雖然失去一些細節,然而卻能使某些重要的特性一目了然性一目了然

Page 43: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Method for VisualizationMethod for Visualization

將序列圖像化的方法:將序列圖像化的方法:1.1. 設定子序列長度,例如為設定子序列長度,例如為 222.2. 將一單位正方形分割為四將一單位正方形分割為四

等分,其所代表的鹼基如等分,其所代表的鹼基如圖所示。圖所示。

3.3. 將每一小格再細分為四格,將每一小格再細分為四格,亦以同樣的相對位置訂定亦以同樣的相對位置訂定對應鹼基。對應鹼基。

GG CC

AA TT

GCGC GGGG CGCG CCCC

GAGA GTGT CACA CTCT

AGAG ACAC TGTG TCTC

AAAA ATAT TATA TTTT

Page 44: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Method for Visualization (conti.)Method for Visualization (conti.)

統計序列中各長度為統計序列中各長度為 22 之之子序列出現的次數,例如子序列出現的次數,例如下列序列:下列序列: AATCGGACAATCGGACGTAACC GTAATATAGGTAACC GTAATATAGGG ,則其出現次數如右表,則其出現次數如右表所示。所示。

將各出現頻率依高低以不將各出現頻率依高低以不同的顏色表示,顏色越深同的顏色表示,顏色越深者表出現次數越多。者表出現次數越多。

所得之圖稱為該物種之所得之圖稱為該物種之 GGenome Portraitenome Portrait 。。

GCGC00

GGGG22

CGCG33

CCCC11

GAGA11

GTGT22

CACA00

CTCT00

AGAG11

ACAC22

TGTG00

TCTC11

AAAA33

ATAT33

TATA44

TTTT00

Page 45: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Statistical PropertiesStatistical Properties

如果如果 DNADNA 序列是隨序列是隨機序列,則各個子序機序列,則各個子序列出現的機率應該差列出現的機率應該差不多,但是由所研究不多,但是由所研究的幾個序列顯示,出的幾個序列顯示,出現機率的分佈極不均現機率的分佈極不均勻,因此勻,因此 DNADNA 序列序列顯然不是一個隨機序顯然不是一個隨機序列。列。

Page 46: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Genome Maps of Different Genome Maps of Different SpeciesSpecies

對不同的物種可以作相同的分析,發現有對不同的物種可以作相同的分析,發現有些物種的些物種的 Genome MapGenome Map 很類似,有些則差很類似,有些則差距較大。這種方法可能可以作為分類或是距較大。這種方法可能可以作為分類或是演化學研究的方法。演化學研究的方法。

Page 47: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

Why so few?Why so few?

既然既然 DNADNA 序列的子序列的子序列分佈不均勻,序列分佈不均勻,「經常出現」與「較「經常出現」與「較少出現」的子序列,少出現」的子序列,必然有其生物意義。必然有其生物意義。先由「較少出現」者先由「較少出現」者來看,在此圖形上似來看,在此圖形上似乎顯示出某種碎形乎顯示出某種碎形(( fractalfractal )的特性?)的特性?這是為了「躲避」限這是為了「躲避」限制內切脢的攻擊。制內切脢的攻擊。

Page 48: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

DNA DNA 中的迴文中的迴文 經過分析的結果,發現這經過分析的結果,發現這些「躲避」的字串都呈現些「躲避」的字串都呈現迴文的型態,如:迴文的型態,如: CTAGCTAG ,,GGACCGGACC ,, CCTAGG CCTAGG 等。等。

當某些酵素探測到這類序當某些酵素探測到這類序列時可以與之結合,並由列時可以與之結合,並由此處將 此處將 DNA DNA 長鏈切斷,長鏈切斷,造成該生物死亡造成該生物死亡

因此這些「因此這些「 DNA DNA 肖像」肖像」反映出這個物種的演化痕反映出這個物種的演化痕跡跡

Page 49: Statistical Properties of DNA Sequences 東海大學物理系‧施奇廷 2015/6/19 生物物理

結語結語 物理學家處理 物理學家處理 DNA DNA 特性的方式,與生物學家大特性的方式,與生物學家大

為不同為不同 生物學家希望能將每個生物的 生物學家希望能將每個生物的 DNA DNA 序列的每個序列的每個

基因找出來,並且探討這些基因在生物體內的功基因找出來,並且探討這些基因在生物體內的功能能

物理學家喜歡找「共同規則」,所以經常將各種物理學家喜歡找「共同規則」,所以經常將各種不同物種的序列拿來一起分析,希望找出共同點不同物種的序列拿來一起分析,希望找出共同點

但是由於目前資料量過於龐大,因此物理學家先但是由於目前資料量過於龐大,因此物理學家先用所熟悉統計工具來「玩」用所熟悉統計工具來「玩」 DNADNA

只要有好點子,都可以來玩玩看!只要有好點子,都可以來玩玩看!