40
生生生生生生 生 4 生 生生生生生生生生生生生 (3) 生生生生生生生生生生生生生生生

生命情報解析 第 4 回 シグナル配列の統計解析 (3)

  • Upload
    elda

  • View
    52

  • Download
    0

Embed Size (px)

DESCRIPTION

生命情報解析 第 4 回 シグナル配列の統計解析 (3). 慶應義塾大学先端生命科学研究所. 確率分布と有意性 (1). P = 0.00243815649926. 棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す. 確率分布と有意性 (2). 確率. 確率分布をはっきりさせる 検定対象の値から右側の面積を求める “こんなにも大きな値”が出る確率が求まる 有意性の指標として使う. 有意性. 確率変数が取る実数. 検定対象の値. Z Score の特徴. 平均が 0 、分散 ( データの散らばり ) が 1 になる - PowerPoint PPT Presentation

Citation preview

生命情報解析 第 4 回シグナル配列の統計解析 (3)

慶應義塾大学先端生命科学研究所

確率分布と有意性 (1)

10 6サイコロを 回ふったときの の目が出る回数とその確率との関係

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0 1 2 3 4 5 6 7 8 9 10

6の目が出る回数

確率

P = 0.00243815649926

棒グラフの右側部分の面積の合計が確率、すなわち有意性を表す

確率分布と有意性 (2)

• 確率分布をはっきりさせる• 検定対象の値から右側の面積を求める• “ こんなにも大きな値”が出る確率が求まる• 有意性の指標として使う

確率変数が取る実数

確率

有意性

検定対象の値

Z Score の特徴

• 平均が 0 、分散 ( データの散らばり )が 1 になる

• 元の分布が正規分布なら、その Z Score は標準正規分布となる

• どんな正規分布でも、 Z Score に直せば同じ土俵 (?) で確率計算ができる

• Z Score が 1.96 を超える確率は 0.025

Z Scoreの分布

0.00E+00

2.00E-02

4.00E-02

6.00E-02

8.00E-02

1.00E-01

1.20E-01

-4.47 -3.13 -1.79 -0.45 0.89 2.24 3.58 4.92 6.26 7.60 8.94 10.29 11.63 12.97 14.31 15.65 16.99 18.34 19.68 21.02 22.36

Z Score

確率

0 1.96

Z Score の計算

サイコロを 100 回振って、 90 回” 6” の目が出るときの Z Score は

17.216/56/190

6/110090

)1(Score Z obs

pNp

NpN

塩基の方も…• ここでは簡単のため、1塩基の偏りだけ

を考える• ゲノム全体の塩基組成を考えて、塩基 i が

対象となる場所において観測される確率は pi とする

• 今、 N 本の配列のうち、 Ni 個について、対象となる位置に塩基 i が観測された

• この条件では通常、 Ni は正規分布に従う

頻出塩基の統計的有意性

Z Score = )1( ii

ii

BNB

NBN

N : 解析する配列数Ni : 観測された塩基 i の数Bi : ゲノム中における塩基 i の割合

Z Score は標準正規分布に従う

Z Score > 1.96 なら、 P < 0.05

複数の塩基の有意性を同時に検定するには ?

• ゲノム全体の塩基組成を Ba=0.3, Bc=0.3, Bg

=0.3, Bt=0.1 として、与えられた位置における塩基 i の個数 Ni が Na = 40, Nc =40, Ng = 10, Nt = 10 のとき、偏りは有意か?

• Z Score を4つも計算すると…– 4つも値が出て、取り扱いが煩雑になる– 偶然に高い値を示すものが出やすくなる

• Χ2 値を使う

Χ2 値

• n 個の互いに独立な Z Score : Z1, Z2, Z3, …, Zn があるとき、

Χn2 値 = Z1

2+Z22+Z3

2+…+Zn2

• Χn2 値は自由度 n の Χn

2 分布に従う

Χ2 分布

0

0.2

0.4

0.6

0.8

1

1.2

1.4

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10

Χ 2値

確率

12345

自由度

Χ2 分布に従う値を求める• しかし、 Na, Nc, Ng, Nt は互いに独立ではないため、

これらの Z Score を足しても自由度4の Χ2 分布には従わない。そこで…

• 塩基がそれぞれ Bi の頻度で出現するとき、上記 Χ2 値は自由度3の Χ2 分布に従う

• Χ2 値 >12.84 なら P < 0.005

tg,c,a,

22

3

)(

i i

ii

B

BPN値

但し N は解析対象の配列数

Χ2 計算の例• ゲノム全体の塩基組成を Ba=0.3, Bc=0.3, Bg=0.3, Bt=0.1 と

して、与えられた位置における塩基 i の個数 Ni が Na = 40, Nc =40, Ng = 10, Nt = 10 のとき、偏りは有意か?

• この例では偏りが有意とは言えない。

2.00133.0033.0033.01.0

)1.01.0(

3.0

)3.01.0(

3.0

)3.04.0(

3.0

)3.04.0( 2222

大腸菌開始コドン周辺の塩基の χ2 乗値

0

2000

4000

6000

8000

10000

12000

14000

- 100 - 50 0 50 100

開始コドンからの相対位置

Χ自

乗値

2つの数式の関係 (1)

• 4 塩基を 2 種類に分類して考える– プリン (A,G) 、ピリミジン (C,T)

• ゲノム中のプリン、ピリミジンの頻度をそれぞれ Bpur, Bpyr とする

• 対象となる位置で観測されたプリン、ピリミジンの頻度をそれぞれ Ppur, Ppyr とする。但し、 Ppur + Ppyr = 1

n

i i

iin B

BPN

1

22

1

)(値 22

322

21

2nn ZZZZ 値

2つの数式の関係 (2)

• 2種類の塩基の数をもとに計算した Χ2 値は自由度 1 の Χ2 分布に従う

• 4 種類の塩基の数をもとに計算した Χ2 値は自由度 3 の Χ2 分布に従う

• 自由度は自由に動ける変数の数を意味する

2pur

purpur

2purpur

pyr

2pyrpyr

pur

2purpur

)1(

)()()(Z

BNB

NBNP

B

BP

B

BPN

演習問題

Ba=0.3,Bc=0.2,Bg=0.2,Bt=0.3 として、与えられた位置における塩基 i の個数 Ni が

(1) Na = 50, Nc = 30, Ng = 10, Nt = 10(2) Na = 500, Nc = 300, Ng = 100, Nt =

100のときの増加情報量、 χ2 値を求め

よ。log23 1.585≒ 、 log25 2.322 ≒

演習問題 解答• (1), (2) ともに

• (1)

• (2)

285.0159.01.0175.0368.03

1log

10

1

2

1log

10

1

2

3log

10

3

3

5log

2

12222

増加情報量

7.36)133.005.005.013.0(100

)()()()()10103050(

103

2103

101

51

251

101

51

251

103

103

2103

21

2

367)133.005.005.013.0(1000

)()()()()100100300500(

103

2103

101

51

251

101

51

251

103

103

2103

21

2

特定のシグナル配列の存在頻度

• 様々な塩基配列の偏りを調べるのではなく、特定のシグナル配列の存在頻度を調べたい (ex. SD 配列 “ AGG”)

• 最も単純なのは、頻度=あるシグナル配列が観測される配列数 ÷ 解析対象の配列数

大腸菌開始コドン周辺の” AGG” の頻度

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

- 100 - 50 0 50 100

開始コドンからの相対位置

"AG

G"の

頻度

頻出塩基配列パターンの統計的有意性

Z Score = )1( pNp

NpNobs

Nobs : パターン観測数 N: 解析する配列数p: ゲノム中におけるパターンの割合

パターンの出現頻度が p のとき、 Z Score は標準正規分布に従う

Z Score > 1.96 なら、 P < 0.05

-10

0

10

20

30

40

50

60

70

80

-100 -50 0 50 100

開始コドンからの相対位置

Z Sc

ore

大腸菌開始コドン周辺の” AGG” の Z-Score

翻訳開始シグナル抽出結果

Escherichia coli

16S rRNA 3- terminal: gcggttggatcacctcctta3Expected SD Sequence: 5taaggaggtgatccaaccgc

Pat. Z-Sc. Pos.agga 94.97 -11ggag 82.94 -10aagg 58.15 -11 gagg 53.08 -11gaga 42.23   -9

シグナル配列出現の評価• 塩基の偏り

– 偏りの程度 … エントロピー、増加情報量– 偏りの有意性 … Χ2 値

• 配列パターン– 出現の程度 … 頻度– 出現の有意性 … Z Score

分子レベルの生命現象の根幹~ セントラルドグマ ~

DNAATG

RNAAUG

転写

翻訳

タンパク質

TAA

UAA

機能

RNA レベルで機能する分子

• tRNA

• rRNA

• Other non-coding RNA

• Translational regulation by mRNA

tRNA

tRNA

UGCUCAUGUUGGACGAGUACA

ACC

rRNA

AUGAGGAGG

AUUCCUCC

16S rRNA

fMet-tRNAf

Methionine

Shine-Dalgarno sequence

開始コドンmRNA

16S rRNA の 3‘ 末端は Shine-Dalgarno 配列と対合する

リボソーム

翻訳での遺伝子の発現制御

5’ 3’

Ferritin gene

Fe

二次構造による終止コドンの読み飛ばし

Steneberg, P. 2001

UAA

通常の長さのタンパク質

リードスルーによってできた長いタンパク質

mRNA

二次構造

Function of readthrough product is stronger

Steneberg and Samakovlis, 2001

UAA UAAAUG

Short productLong product

hdc gene is expressed in tracheoles in larvae of D. melanogaster

hdc

Branching of lumens are inhibited strongly Branching of lumens are inhibited weakly

1034 2981 4274

Possibility of Regulation by readthrough?

cDNA 配列を用いた転写産物の収集

DNAATG

mRNAA UG

転写

逆転写

TAA

UAA

遺伝子

cDNAA TG UAA

マウス cDNA 配列の網羅的収集

コード領域を持たない cDNA?

Numata et al. 2003

ゲノム

cDNA

さらにコード領域を持たない多数の cDNA?

タンパク質をコードしない cDNA 配列が多くある

ゲノム

cDNA

ゲノムの 62.5%をカバー

多くの RNAは翻訳されなくても機能を持つ?非翻訳 RNAが多量に存在?

多数の非翻訳 RNAの存在が予想されているものの、ほとんどは機能未知

RNA の二次構造予測

• 一本鎖 RNA は DNA に比べ、自由な構造を取ることが可能

• RNA が機能する上で立体構造が重要になってくる

• 二次構造は、どの塩基とどの塩基が結合しているかを表す

• 一次配列から二次構造を予測しよう!

tRNA の二次構造予測の例

http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOPHER

http://www.bioinfo.rpi.edu/applications/mfold/old/rna/form1.cgi

Zuker の mfold

GenBank tRNA 配列http://www.genome.ad.jp/dbget-bin/www_bget?gb:ECOCPTGG