Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
2014年度「理論分子生物学」講義予定表 ! ゲノム解析・オミックス解析とバイオインフォマティクス ! 配列アライメント:ダイナミックプログラミング法 ! ホモロジー検索:FASTA、BLASTアルゴリズム ! マルチプルアライメント、系統樹解析 ! 配列モチーフ ! 二次構造予測、膜貫通部位予測、立体構造予測 ! メタゲノム解析
! 6月17日(緒方先生:ウイルスのメタゲノミクス) ! 遺伝子の機能アノテーション、比較ゲノム解析 ! ネットワーク解析 ! 分子生物学データベース ! 演習
! http://goto.kuicr.kyoto-u.ac.jp/lecture/bioinfo.html
1
遺伝子の機能アノテーション
2
! 遺伝子の機能を(塩基配列やアミノ酸配列から)予測して割り当てること。 ! ホモロジー検索、モチーフ検索、構造予測 ! 比較ゲノムに基づくアプローチ ! 発現情報、相互作用情報を利用するアプローチ
! 注)遺伝子アノテーション ! 遺伝子機能アノテーション ! 遺伝子構造アノテーション
" ゲノムから遺伝子のコード領域を探す遺伝子発見(gene finding)のこと
単純なホモロジー検索の問題点
3
! 配列類似度の指標の問題 ! オーソログ遺伝子とパラログ遺伝子の区別が難しい場合がある " 比較ゲノムに基づくアプローチ:オーソログ同定
! 非常によく保存された短いモチーフにヒットしてしまい、全体的に似ている遺伝子が取れない場合がある
! データベースの問題 ! データベース中に間違ってアノテートされた遺伝子がある場合があり、それにヒットしてしまう
! 機能未知遺伝子とホモロジーがあっても、うれしくない " 比較ゲノム、発現情報、相互作用情報を利用して機能的に関連していそうな遺伝子を探す
オーソログとパラログ
4
ホモログ(Homolog) 進化的な起源を同じくする遺伝子
オーソログ(Ortholog) 種分岐の際に同じ遺伝子だったもの 通常同じ機能を持つ
パラログ(Paralog) 遺伝子重複によってできた類似遺伝子 通常異なる機能を持つ
ゼノログ(Xenolog) 水平移動によって得られた類似遺伝子
a
a1 a1’
種分岐
種1 種2
a
a1 a2 遺伝子重複
a1 a2 a1 a2
種分岐
パラログ遺伝子の例
5
! ATP Binding Cassette (ABC) トランスポーター ! 各基質ごとに遺伝子のセットを持っている
基質結合タンパク質
細胞(内)膜 膜タンパク質
ATP結合タンパク質
基質
様々な種類の ABC トランスポーター
6 http://www.genome.jp/kegg/pathway/ko/ko02010.html
基質結合タンパク質 ATP結合タンパク質
膜タンパク質
比較ゲノムによるオーソログ同定
7
! 単純なオーソログ同定 ! ゲノムAの各遺伝子からゲノムBの各遺伝子にホモロジー検索をかける
! ベストヒット(最もスコアの高い遺伝子)をオーソログとする
ゲノムA� ゲノムB �
遺伝子A1 遺伝子A2 遺伝子A3 遺伝子A4 遺伝子A5 …
ゲノムA:新しく遺伝子機能アノテーションしたいゲノム ゲノムB:既に機能アノテーションされているゲノム�
遺伝子B1 遺伝子B2 遺伝子B3 遺伝子B4 遺伝子B5 …
比較ゲノムによるオーソログ同定
8
! 双方向ベストヒットによるオーソログ同定 ! ゲノム中の全遺伝子同士で相同性を計算する(ゲノムBからもホモロジー検索をかける)
! お互いにベストヒット(bidirectional best hit)のものだけをオーソログとする
ゲノムA� ゲノムB �
遺伝子A1 遺伝子A2 遺伝子A3 遺伝子A4 遺伝子A5 …
ゲノムA:新しく遺伝子機能アノテーションしたいゲノム ゲノムB:既に機能アノテーションされているゲノム�
遺伝子B1 遺伝子B2 遺伝子B3 遺伝子B4 遺伝子B5 …
KAAS での例
9
! 実際には様々なヒューリスティックスを使う ! KAAS: KEGG Automatic Annotation Server ! Bidirectional best hit rate
! 双方向ベストヒットを1とした時の実際のスコアの割合
BHRab = Rf × Rr
Genome A Genome B
Gene a
Gene a’ Gene b’
Gene b S
S’: best hit
Rf = S / S’ Rr はゲノムBからみた同様の値
Moriya, Y. et al. Nucl. Acids Res. 35:W182 (2007)
ゲノム上の位置を考慮したベストヒット
10
ゲノムA
ゲノムB
close グルタミン酸トランスポーター アスパラギン酸トランスポーター
グルタミン酸トランスポーター
Pair of close best hits
Overbeek, R. et al., Proc. Natl. Acad. Sci. USA, 96:2896 (1999)
単純なホモロジー検索の問題点
11
! 配列類似度の指標の問題 ! オーソログ遺伝子とパラログ遺伝子の区別が難しい場合がある " 比較ゲノムに基づくアプローチ:オーソログ同定 " 双方向ベストヒット " ゲノム上の位置を考慮したベストヒット
! データベースの問題 ! データベース中に間違ってアノテートされた遺伝子がある場合があり、それにヒットしてしまう
! 機能未知遺伝子とホモロジーがあっても、うれしくない " 比較ゲノム、発現情報、相互作用情報を利用して機能的に関連していそうな遺伝子を探す
機能的に関連していそうな遺伝子の探索
12
! 比較ゲノムに基づくアプローチ ! 系統プロファイル
! 発現情報を利用する方法 ! トランスクリプトーム、プロテオーム ! 遺伝子発現量の相関係数
! タンパク質間相互作用の情報を利用する方法 ! インタラクトーム:酵母2ハイブリッド、質量分析
! ロゼッタストーン
系統プロファイル
13
E.coli S.cerevisiae B.subtilis H.influenzae
遺伝子1 ○ × ○ 遺伝子2 ○ ○ × 遺伝子3 × ○ ○ 遺伝子4 ○ × × 遺伝子5 × ○ ○ 遺伝子6 ○ ○ ×
同じパターンを持つ遺伝子は 進化的・機能的に関連がある
Pellegrini et al., Proc. Natl. Acad. Sci. USA, 96:4285 (1999)�
! 同定したオーソログが機能未知の場合もある ! オーソログ遺伝子の種分布(系統プロファイル)を分類
系統プロファイルの例(MBGD)
14 微生物ゲノム比較解析システム@基礎生物学研究所 http://mbgd.genome.ad.jp/
系統プロファイルの例(MBGD)
15
ほぼ全生物種で保存されている遺伝子
真核生物と古細菌で保存されている遺伝子
1~ 6:古細菌 7~36:真性細菌 37~46:真核生物�
系統プロファイルの例(MBGD)
16
ほぼ全生物種で保存されている遺伝子はリボソームタンパク質
機能的に関連していそうな遺伝子の探索
17
! 比較ゲノムに基づくアプローチ ! 系統プロファイル
! 発現情報を利用する方法 ! トランスクリプトーム、プロテオーム ! 遺伝子発現量の相関係数
" 同じような発現パターンを持つ遺伝子同士は関連した機能を持つ可能性が高い
! タンパク質間相互作用の情報を利用する方法 ! インタラクトーム:酵母2ハイブリッド、質量分析
! ロゼッタストーン
オミックスデータの活用
18
トランスクリプトーム(共発現)�
プロテオーム(共発現)�
インタラクトーム(相互作用)�
比較ゲノムによる相互作用の推定
19
ロゼッタストーン ! 他の生物種でフュージョンしている2つの遺伝子は相互作用している可能性が高い
! 生物種間で保存されたドメインを探索する
Marcotte, E., et al., Science 285:751 (1999)
複数の情報を組み合わせることによる改良
20
複数のデータを統合して解析することにより、効果的な機能関連遺伝子の探索を試みる。
マイクロアレイ 遺伝子発現
酵母2 ハイブリッド
細胞内 局在情報
系統 プロファイル
遺伝子の機能関連 ネットワーク
遺伝子間の 類似度行列
Yamanishi, Y., et al. Bioinformatics, 20, i363-i370 (2004)
複数の情報を組み合わせることによる改良
21
遺伝子間の類似度行列
),...,2,1,(),( NjiKK jiij == xx€
x1,x2,...,xNN 個のタンパク質 � を仮定し、各タンパク質間の 類似度 K(数学的には特徴ベクトルの内積)を計算する
...,
2.03.03.02.0
)(,
3.02.04.01.0
)( 21
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=Φ
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=Φ xx
26.02.03.03.02.03.04.02.01.0)()(),( 2121
=×+×+×+×=
Φ⋅Φ= xxxxK
例:遺伝子間の塩基構成比
複数の情報を組み合わせることによる改良
22
遺伝子間の類似度行列
€
K =
K(x1,x1) K(x1,x2)!K(x2,x1) K(x2,x2)! " " #
⎡
⎣
⎢ ⎢ ⎢
⎤
⎦
⎥ ⎥ ⎥
=
0.3 0.26!0.26 0.26! " " #
⎡
⎣
⎢ ⎢ ⎢
⎤
⎦
⎥ ⎥ ⎥
一種の類似度行列とみなせる
一種の遺伝子類似性ネットワーク
=
複数の情報を組み合わせることによる改良
23
多様なデータを扱う必要がある。
データ データ型
マイクロアレイ発現データ 数値ベクトル
酵母2ハイブリッドによる相互作用データ グラフ
細胞内局在データ ビットベクトル
系統プロファイル ビットベクトル
複数の情報を組み合わせることによる改良
24
類似度の計算例
)/||||exp(),( 22 σjijiK xxxx −−=
2002) (Kondor, グラフのラプラシアンはここで L
LK )exp(−=
数値ベクトル間の類似度を求める関数
グラフ上の頂点間の類似度を求める関数
複数の情報を組み合わせることによる改良
25
複数の情報の統合
! 各データにおける遺伝子間の類似度行列を定義
! Kg: ゲノム上での遺伝子間の距離
! Ke: 発現パターンの類似度
! Kp: 系統プロファイルの類似度
! 類似度行列の和を取る
! K = Kg + Ke + Kp
! 統合された類似度行列 K を用いて遺伝子間の関係を変換
複数の情報を組み合わせることによる改良
26
遺伝子間の類似度行列
1x
2x
3x
似ているものが近くにくるように配置
複数の情報を組み合わせることによる改良
27
遺伝子間の類似度行列
1x
2x
3x
似ているものが近くにくるように配置
: ある閾値で機能的関係があると定義したもの
1x
2x
3x
類似度をそのまま用いた結果
28
酵母の酵素遺伝子を機能アノテーションした結果�
よい�
わるい�
教師付き学習を用いた改良
29
Unknown pathway
既知のタンパク質ネットワーク 発現データの類似度行列
教師付き学習を用いた改良
30
Unknown pathway
既知のタンパク質ネットワーク 発現データの類似度行列
トレーニング トレーニング
教師付き学習を用いた改良
31
Unknown pathway
既知のタンパク質ネットワーク 発現データの類似度行列
トレーニング トレーニング テスト テスト
教師付学習
32
トレーニングで既知のタンパク質ネットワークをよりうまく説明できる空間にマッピングして類似関係を調べる。
元の空間
1x
2x
3x
:トレーニングセット
教師付学習
33
トレーニングで既知のタンパク質ネットワークをよりうまく説明できる空間にマッピングして類似関係を調べる。
:トレーニングセット : 教師なしで直接予測した結果
1x
2x
3x
元の空間
教師付学習
34
トレーニングで既知のタンパク質ネットワークをよりうまく説明できる空間にマッピングして類似関係を調べる。
:トレーニングセット
1x
2x
3x
元の空間
:真のネットワーク
教師付学習
35
トレーニングで既知のタンパク質ネットワークをよりうまく説明できる空間にマッピングして類似関係を調べる。
ステップ1:相互作用するタンパク質ペアが近くに あるような特徴空間に射影
f1x
2x
3x
特徴空間 元の空間
:トレーニングセット :真のネットワーク
)( 1xf
)( 2xf
)( 3xf
教師付学習
36
トレーニングで既知のタンパク質ネットワークをよりうまく説明できる空間にマッピングして類似関係を調べる。
f
:トレーニングセット :真のネットワーク
ステップ2:テストセットに関与するタンパク質間 相互作用を予測
特徴空間 )( 1xf
)( 2xf
)( 3xf
:テストセット 1x
2x
3x
元の空間
教師付学習
37
€
α1,α2( ) = argmax α1TK1K2α2
1+ λ1α1TK1
2α1( )1/ 2 1+ λ1α2TK2
2α2( )1/ 2
行列ネットワークの類似度
列発現データの類似度行
::
2
1
KK
データの類似度行列が入力であることが特長
),()( 11
1 xxx j
n
jjKf ∑
=
= α
K1 と K2 の相関が最大になる係数を求める
関数 f を求めるためのアルゴリズム:正準相関分析
正準相関分析を用いた結果
38
直接予測
遺伝子の機能アノテーションまとめ
39
! 遺伝子の機能を(塩基配列やアミノ酸配列から)予測して割り当てること。 ! ホモロジー検索、モチーフ検索、構造予測 ! 比較ゲノムに基づくアプローチ ! 発現情報、相互作用情報を利用するアプローチ
! 双方向ベストヒットによるオーソログ同定 ! 系統プロファイルによる関連する機能の予測 ! 複数のゲノムデータを組み合わせて機能予測