1
ミスセンスSNVから病因性を予測するツール「 iMSVM」の開発 Development of individual-Meta Support Vector Machine (iMSVM) predicting disease susceptibility depended on missense single nucleotide variants (SNVs) 〇武田淳一([email protected]1 、七枝健太朗 1 、山岸諒大 1 、大野欽司 1 Jun-ichi Takeda ([email protected]) 1 , Kentaro Nanatsue 1 , Ryosuke Yamagishi 1 , Kinji Ohno 1 1 名古屋大学大学院医学系研究科神経遺伝情報学 1 Division of Neurogenetics, Center for Neurological Diseases and Cancer, Nagoya University Graduate School of Medicine 図1 解析フロー 図2 SNVカバー率の降順に並べた、 dbNSFPに含まれる23個のツール 図4 SNVカバー率の低いツール順に 引いた時のAUCSNVカバー率 図5 iMSVM8つの既存ツールの病因性予測 の評価比較(R to CMAF > 1% スコアを非同義のアミ ノ酸置換に分類 150パターン) ANNOVA+ dbNSFP 23ツール) HGMD (疾患SNVdbSNP (コモンSNVA to C A to D 80 85 90 95 100 CADD_raw CADD_phred DANN fathmm-MKL_coding phyloP20way_mammalian phastCons20way_mammalian phyloP7way_vertebrate phastCons7way_vertebrate GERP++_RS VEST3 SiPhy_29way_logOdds MetaSVM MetaLR MutationTaster Polyphen2_HDIV Polyphen2_HVAR integrated_fitCons integrated_confidence_value PROVEAN MutationAssessor SIFT FATHMM LRT 各アミノ酸置換毎に、 LIBSVMを用いて疾患 とコモンを判別 モデル ANNOVA+ dbNSFP 23ツール) 調べたい ミスセンスSNV モデル作成フロー 病因性予測フロー 作成したモデルを基 に、LIBSVMを用いて 病因性を予測 スコアに対して、該当アミノ酸置換のモデルを使用 SNVカバー率(%dbNSFPに含まれる23ツール ANNOVARrefGeneアノテーションの nonsynonymous SNVが対象 アミノ酸 一文字表記 化学的性質 構造 疎水性度 電荷 側鎖官能基 アルギニン R -4.5 塩基性 アミノ基 システイン C 2.5 中性 硫黄 グルタミン酸 E -3.5 酸性 カルボキシル基 アスパラギン酸 D -3.5 酸性 カルボキシル基 アルギニン(Rシスティン(Cアスパラギン酸(Dグルタミン酸(E図3 モデルの評価に使用したミスセンスSNVのアミノ酸性質 引いた数 ツール数 R to C E to D SNVカバー率(%AUC%SNVカバー率(%AUC%0 23 78.50 92.64 76.38 96.05 1 22 86.01 92.64 86.01 96.00 2 21 90.08 92.66 90.49 96.07 3 20 90.39 92.66 90.76 96.04 4 19 91.80 92.67 92.09 95.95 5 18 93.59 92.64 93.93 96.04 6 17 93.59 92.64 93.93 95.93 7 16 96.30 92.67 96.47 96.11 8 15 96.30 92.63 96.47 96.02 9 14 97.19 92.64 97.24 95.76 10 13 97.62 92.64 97.67 95.69 11 12 97.62 92.22 97.67 94.91 12 11 98.23 90.66 98.26 93.74 13 10 98.62 90.66 98.72 93.78 14 9 99.03 75.99 98.85 80.46 15 8 99.20 75.95 99.08 80.43 16 7 99.20 75.80 99.08 80.46 17 6 99.24 75.82 99.13 80.65 18 5 99.24 75.86 99.13 80.85 19 4 99.24 75.86 99.15 80.82 20 3 99.25 74.66 99.15 78.88 21 2 99.25 74.69 99.15 78.85 22 1 99.25 74.71 99.15 78.91 70 75 80 85 90 95 100 75 80 85 90 95 100 R to C E to D AUC%SNVカバー率(%0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1-特異度 SIFT polyphen2_HDIV polyphen2_HVAR LRT FATHMN VEST3 MetaSVM MetaLR iMSVM 10model iMSVM 23model Youden’s index = 感度 (1 特異度) iMSVMの概要を図1に示す。モデル作成にはHGMD(疾患SNV)とdbSNP(コモンSNV)を入力データとし、病因性予測には調べたいミスセンスSNVを入力データとする。 モデル作成・病因性予測共にANNOVARdbNSFPのアノテーションを行い、dbNSFPに含まれる23の病因性予測ツールのスコアを特徴量として、オープンソースの機械学 習ライブラリであるLIBSVMを用いて疾患とコモンの判別、および病因性予測を行う。疾患とコモンの判別モデルは、非同義のアミノ酸置換毎に作成した(150パターン)。 LIBSVM Toolsのプログラムを用い、アルギニンからシステイン(R to C)のアミノ酸置換を引き起こすSNVAUCを計算したところ、92.6%と高かったが、SNVカバー率は78.5% であった。AUCの値を維持し、SNVカバー率も高いモデルを追求するため、まずは23個のツールをSNVカバー率の高い順に並べ(図2)、SNVカバー率の低いツールから 1つずつ減らしたモデルを作成した。作成したモデルの評価には、極端なアミノ酸性質の変化を引き起こすミスセンスSNV(アルギニンからシステイン;R to C)と、アミノ酸 性質にほとんど変化のないミスセンスSNV(グルタミン酸からアスパラギン酸;E to D)を用いた(図3)。 一塩基置換(SNV)によるアミノ酸のミスセンス変異から病因性を予測するツールはいくつか存在するが(VEST3FATHMMなど)、これらは評価指標が異なるため結果 に統一性がない。そこで我々は、機械学習の1つであるサポートベクターマシン(SVM)を用いて既存ツールの評価指標を統合し、アミノ酸置換ごとに疾患か正常(コモン) かを網羅的に判別するツール「iMSVM」(正式名:individual-Meta Support Vector Machine )を開発した。疾患を引き起こすミスセンスSNVHuman Gene Mutation DatabaseHGMD)から抽出し、コモンSNVdbSNPからマイナーアレル頻度(MAF)が1%以上のものを抽出した。これら2種類のSNVグループに対してANNOVARを用いて dbNSFPに含まれる23の病因性予測ツールのスコアを算出し、これらを特徴量としてSVMによる判別を行った。150種類のアミノ酸置換モデルの1つ(アルギニンからシス テイン;R to C)から得られた感度と特異度によるROC曲線下面積(AUC)が既存ツールより上回っていたため、iMSVMは精度の高い病因性予測を行うことができた。 R to CおよびE to D共に、ツール数を9個まで減らしたところでAUCが大きく減少した。ツール数が10個のときには、AUCを大きく下げることなく高いSNVカバー率を維持 した(図4)。従って、23個のツールのいずれかが欠損する場合、10個のツールによるモデルを適用することとした。また、この10個のツールのいずれかに欠損がある場合 は、計算を行わないようにした。dbNSFP v3.0でアップデートされた4つのツール(SHIFT, 2 x Polyphen, LRT)、および最新の4つのツール(FATHMM, MetaLR, MetaSVM, VEST3)についてもR to CAUCを計算し、iMSVMROC曲線を比較した。iMSVMAUCとYouden’s indexは、23個および10個のモデル共に他ツールより大きかったため、 iMSVMが最も優れていることを示した(図5)。iMSVMWebサービスで動作し、その実行例(ミスセンスSNVの病因性予測例)を(図6)に示す。 SIFT polyphen2 _HDIV polyphen2 _HVAR LRT FATHMN VEST3 MetaSVM MetaLR iMSVM 23 iMSVM 10 1 - 特異度 0.372 0.297 0.307 0.344 0.268 0.175 0.074 0.146 0.118 0.134 感度 0.72 0.704 0.73 0.728 0.806 0.865 0.681 0.794 0.86 0.84 Youden’s index 0.348 0.407 0.423 0.384 0.538 0.69 0.607 0.648 0.742 0.706 AUC 0.728 0.734 0.78 0.713 0.83 0.905 0.883 0.895 0.925 0.907 まとめ ・サポートベクターマシン(SVM)により、ミスセンスSNVの病因性を予測するためのモデルを、150パターンある全アミノ酸置換毎に作成した。 入力:dbNSFPに含まれる23個もしくは10個の既存病因性予測ツールのスコア 出力:「HGMDに含まれる疾患SNV」と「dbSNPに含まれるコモンSNVMAF>0.01)」の判別 ・上記モデルを用い、同じくSVMを使って調べたいミスセンスSNVの病因性予測を行うWebサービスツール「iMSVM」を作成した。 iMSVMR to CAUC92.6%23個モデル)、90.7%10個モデル)であり、最新を含む既存病因性予測ツールよりも優れていた。 図6 iMSVMによるミスセンスSNVの病因性予測結果例 1023作成 予測 ミスセンスSNVのゲノム位置(例として染色体番号11番の2466671*)を入力 アミノ酸変異E>K23個モデルで病因性と予測 アミノ酸変異E>Q23個モデルで病因性と予測 *モデル作成に使用したHGMDにはなく、 ClinVarPathogenicだったSNV Licensed under a Creative Commons表示4.0国際ライセンス (c)2017 武田淳一(名古屋大学大学院医学系研究科)

Development of individual-Meta Support Vector Machine ... · 10 13 97.62 92.64 97.67 95.69 11 12 97.62 92.22 97.67 94.91 12 11 98.23 90.66 98.26 93.74 13 10 98.62 90.66 98.72 93.78

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Development of individual-Meta Support Vector Machine ... · 10 13 97.62 92.64 97.67 95.69 11 12 97.62 92.22 97.67 94.91 12 11 98.23 90.66 98.26 93.74 13 10 98.62 90.66 98.72 93.78

ミスセンスSNVから病因性を予測するツール「iMSVM」の開発Development of individual-Meta Support Vector Machine (iMSVM) predicting disease susceptibility depended on missense single nucleotide variants (SNVs) 〇武田淳一([email protected])1、七枝健太朗1 、山岸諒大1 、大野欽司1 Jun-ichi Takeda ([email protected])1, Kentaro Nanatsue1, Ryosuke Yamagishi1, Kinji Ohno1

1名古屋大学大学院医学系研究科神経遺伝情報学 1Division of Neurogenetics, Center for Neurological Diseases and Cancer, Nagoya University Graduate School of Medicine

図1 解析フロー 図2 SNVカバー率の降順に並べた、 dbNSFPに含まれる23個のツール

図4 SNVカバー率の低いツール順に 引いた時のAUCとSNVカバー率

図5 iMSVMと8つの既存ツールの病因性予測 の評価比較(R to C)

MAF > 1%

スコアを非同義のアミノ酸置換に分類(150パターン)

ANNOVA+ dbNSFP

(23ツール)

HGMD (疾患SNV)

dbSNP (コモンSNV)

A to C A to D …

80

85

90

95

100

CA

DD

_raw

CA

DD

_ph

red

DA

NN

fath

mm

-MK

L_co

din

g

ph

ylo

P2

0w

ay_m

amm

alia

n

ph

astC

on

s20

way

_mam

mal

ian

ph

ylo

P7

way

_ver

teb

rate

ph

astC

on

s7w

ay_v

erte

bra

te

GER

P++

_RS

VES

T3

SiP

hy_

29

way

_lo

gOd

ds

Met

aSV

M

Met

aLR

Mu

tati

on

Tast

er

Po

lyp

hen

2_H

DIV

Po

lyp

hen

2_H

VA

R

inte

grat

ed_f

itC

on

s

inte

grat

ed_c

on

fid

ence

_val

ue

PR

OV

EAN

Mu

tati

on

Ass

esso

r

SIFT

FATH

MM

LRT

各アミノ酸置換毎に、LIBSVMを用いて疾患とコモンを判別

モデル

ANNOVA+ dbNSFP

(23ツール)

調べたい ミスセンスSNV

モデル作成フロー 病因性予測フロー

作成したモデルを基に、LIBSVMを用いて病因性を予測

スコアに対して、該当アミノ酸置換のモデルを使用

SN

Vカバー率(%)

dbNSFPに含まれる23ツール

ANNOVARのrefGeneアノテーションの nonsynonymous SNVが対象

アミノ酸 一文字表記 化学的性質 構造

疎水性度 電荷 側鎖官能基

アルギニン R -4.5 塩基性 アミノ基システイン C 2.5 中性 硫黄 グルタミン酸 E -3.5 酸性 カルボキシル基アスパラギン酸 D -3.5 酸性 カルボキシル基

アルギニン(R) システィン(C)

アスパラギン酸(D)グルタミン酸(E)

図3 モデルの評価に使用したミスセンスSNVのアミノ酸性質

引いた数 ツール数 R to C E to D

SNVカバー率(%) AUC(%) SNVカバー率(%) AUC(%) 0 23 78.50 92.64 76.38 96.05 1 22 86.01 92.64 86.01 96.00 2 21 90.08 92.66 90.49 96.07 3 20 90.39 92.66 90.76 96.04 4 19 91.80 92.67 92.09 95.95 5 18 93.59 92.64 93.93 96.04 6 17 93.59 92.64 93.93 95.93 7 16 96.30 92.67 96.47 96.11 8 15 96.30 92.63 96.47 96.02 9 14 97.19 92.64 97.24 95.76

10 13 97.62 92.64 97.67 95.69 11 12 97.62 92.22 97.67 94.91 12 11 98.23 90.66 98.26 93.74 13 10 98.62 90.66 98.72 93.78 14 9 99.03 75.99 98.85 80.46 15 8 99.20 75.95 99.08 80.43 16 7 99.20 75.80 99.08 80.46 17 6 99.24 75.82 99.13 80.65 18 5 99.24 75.86 99.13 80.85 19 4 99.24 75.86 99.15 80.82 20 3 99.25 74.66 99.15 78.88 21 2 99.25 74.69 99.15 78.85 22 1 99.25 74.71 99.15 78.91

70

75

80

85

90

95

100

75 80 85 90 95 100

R to C

E to D

AU

C(%)

SNVカバー率(%)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1

感度

1-特異度

SIFT

polyphen2_HDIV

polyphen2_HVAR

LRT

FATHMN

VEST3

MetaSVM

MetaLR

iMSVM 10model

iMSVM 23model

Youden’s index = 感度 – (1 – 特異度)

iMSVMの概要を図1に示す。モデル作成にはHGMD(疾患SNV)とdbSNP(コモンSNV)を入力データとし、病因性予測には調べたいミスセンスSNVを入力データとする。 モデル作成・病因性予測共にANNOVARでdbNSFPのアノテーションを行い、dbNSFPに含まれる23の病因性予測ツールのスコアを特徴量として、オープンソースの機械学習ライブラリであるLIBSVMを用いて疾患とコモンの判別、および病因性予測を行う。疾患とコモンの判別モデルは、非同義のアミノ酸置換毎に作成した(150パターン)。LIBSVM Toolsのプログラムを用い、アルギニンからシステイン(R to C)のアミノ酸置換を引き起こすSNVのAUCを計算したところ、92.6%と高かったが、SNVカバー率は78.5%であった。AUCの値を維持し、SNVカバー率も高いモデルを追求するため、まずは23個のツールをSNVカバー率の高い順に並べ(図2)、SNVカバー率の低いツールから1つずつ減らしたモデルを作成した。作成したモデルの評価には、極端なアミノ酸性質の変化を引き起こすミスセンスSNV(アルギニンからシステイン;R to C)と、アミノ酸性質にほとんど変化のないミスセンスSNV(グルタミン酸からアスパラギン酸;E to D)を用いた(図3)。

要 旨

一塩基置換(SNV)によるアミノ酸のミスセンス変異から病因性を予測するツールはいくつか存在するが(VEST3やFATHMMなど)、これらは評価指標が異なるため結果 に統一性がない。そこで我々は、機械学習の1つであるサポートベクターマシン(SVM)を用いて既存ツールの評価指標を統合し、アミノ酸置換ごとに疾患か正常(コモン) かを網羅的に判別するツール「iMSVM」(正式名:individual-Meta Support Vector Machine )を開発した。疾患を引き起こすミスセンスSNVはHuman Gene Mutation Database(HGMD)から抽出し、コモンSNVはdbSNPからマイナーアレル頻度(MAF)が1%以上のものを抽出した。これら2種類のSNVグループに対してANNOVARを用いて dbNSFPに含まれる23の病因性予測ツールのスコアを算出し、これらを特徴量としてSVMによる判別を行った。150種類のアミノ酸置換モデルの1つ(アルギニンからシス テイン;R to C)から得られた感度と特異度によるROC曲線下面積(AUC)が既存ツールより上回っていたため、iMSVMは精度の高い病因性予測を行うことができた。

方 法

結 果

R to CおよびE to D共に、ツール数を9個まで減らしたところでAUCが大きく減少した。ツール数が10個のときには、AUCを大きく下げることなく高いSNVカバー率を維持 した(図4)。従って、23個のツールのいずれかが欠損する場合、10個のツールによるモデルを適用することとした。また、この10個のツールのいずれかに欠損がある場合 は、計算を行わないようにした。dbNSFP v3.0でアップデートされた4つのツール(SHIFT, 2 x Polyphen, LRT)、および最新の4つのツール(FATHMM, MetaLR, MetaSVM, VEST3)についてもR to CでAUCを計算し、iMSVMのROC曲線を比較した。iMSVMのAUCとYouden’s indexは、23個および10個のモデル共に他ツールより大きかったため、 iMSVMが最も優れていることを示した(図5)。iMSVMはWebサービスで動作し、その実行例(ミスセンスSNVの病因性予測例)を(図6)に示す。

SIFT polyphen2

_HDIV

polyphen2

_HVAR LRT FATHMN VEST3 MetaSVM MetaLR iMSVM 23 iMSVM 10

1 - 特異度 0.372 0.297 0.307 0.344 0.268 0.175 0.074 0.146 0.118 0.134

感度 0.72 0.704 0.73 0.728 0.806 0.865 0.681 0.794 0.86 0.84

Youden’s index 0.348 0.407 0.423 0.384 0.538 0.69 0.607 0.648 0.742 0.706

AUC 0.728 0.734 0.78 0.713 0.83 0.905 0.883 0.895 0.925 0.907

まとめ

・サポートベクターマシン(SVM)により、ミスセンスSNVの病因性を予測するためのモデルを、150パターンある全アミノ酸置換毎に作成した。入力:dbNSFPに含まれる23個もしくは10個の既存病因性予測ツールのスコア 出力:「HGMDに含まれる疾患SNV」と「dbSNPに含まれるコモンSNV(MAF>0.01)」の判別

・上記モデルを用い、同じくSVMを使って調べたいミスセンスSNVの病因性予測を行うWebサービスツール「iMSVM」を作成した。・iMSVMのR to CのAUCは92.6%(23個モデル)、90.7%(10個モデル)であり、最新を含む既存病因性予測ツールよりも優れていた。

図6 iMSVMによるミスセンスSNVの病因性予測結果例

10個

23個

作成 予測

ミスセンスSNVのゲノム位置(例として染色体番号11番の2466671*)を入力

アミノ酸変異E>K:23個モデルで病因性と予測

アミノ酸変異E>Q:23個モデルで病因性と予測

*モデル作成に使用したHGMDにはなく、ClinVarでPathogenicだったSNV

Licensed under a Creative Commons表示4.0国際ライセンス (c)2017 武田淳一(名古屋大学大学院医学系研究科)