27
Devium をををををををををををををををを @siero5335 #Tokyo.R 39 2014/05/31

Tokyo R #39

Embed Size (px)

DESCRIPTION

Devium を使ったヒト血清中化学物質の解析 R, ShinyベースのWebアプリで多変量解析やってみた。 環境媒体の分析データについて、なぜ測定する必要があるかなども少しづつ紹介してます。 アルゴリズムの紹介は力尽きました。 DeviumWeb https://github.com/dgrapov/DeviumWeb ローカル版は開発中 開発者HP http://imdevsoftware.wordpress.com/

Citation preview

Page 1: Tokyo R #39

Devium を使ったヒト血清中化学物質の解析      

@siero5335

#Tokyo.R 392014/05/31

Page 2: Tokyo R #39

AGENDA

自己紹介環境化学業界について

中国・インド・東南アジアの汚染の現状

Devium パッケージ紹介

OPLS-DA

解析例紹介

まとめ

Page 3: Tokyo R #39

自己紹介

Twitter ID: @siero5335

仕事 : 某大学で   化学物質曝露影響の解析   測定法の開発してます   専門 : 環境化学、分析化学

R→  測定結果のまとめに使用

Page 4: Tokyo R #39

  Devium パッケージ ... に入る前に

コードhttps://github.com/dgrapov/devium/blob/master/R/Devium%20PLS%20%20and%20OPLS.r

IRIS データを使った実行例https://github.com/dgrapov/TeachingDemos/blob/master/Demos/Predictive%20Modeling/Iris%20O-PLS-DA/O-PLS%20modeling%20of%20Iris%20data.md#prep

Dynamic multivariatE data analysis And VIsUalization PlatforM is a browser-based multivariate data analysis solution implemented in Shiny

DeviumWebhttps://github.com/dgrapov/DeviumWebローカル版は開発中

開発者 HPhttp://imdevsoftware.wordpress.com/

Page 5: Tokyo R #39

環境化学:どんな目的での研究が多い?

汚染の実態解析(測定メイン)→ 測定値とその他調査データから汚染源・汚染の広がりを解明

毒性の調査(細胞・動物実験などが多い)→ 細胞や動物に汚染物質を投与して影響を見る

健康・生態系への影響調査(疫学寄り)→ 癌・免疫・アレルギー・知能… etc との関係があるか?

Page 6: Tokyo R #39

どんなものを分析してる?

ポリ塩化ビフェニル( PCBs )

カネミ油症事件

ポリ臭化ビフェニルエーテル (PBDEs)難燃剤として電化製品等に添加

ダイオキシン(枯葉剤の不純物・焼却炉で生成) 鉛(鉛中毒)

ヒ素(事件多数)

水銀(水俣病)

Page 7: Tokyo R #39

なぜ測定する必要があるのか:金属

Neurobehavioural effects of developmental toxicity, 2014, 13, 330-8

神経発達に影響しそうな化学物質 Top5

1. 鉛(有鉛ガソリン)2. 有機水銀(水俣病)3. ヒ素(事件いろいろ)4. ポリ塩化ビフェニル5. トルエン等溶剤(シンナー)

Developmental neurotoxicity of industrial chemicals, 2006, 368, 2167-78

ヒ素及び重金属の高濃度曝露は致死に至る例が多い(比較的)低濃度であっても曝露が子供の精神発達に影響

Page 8: Tokyo R #39

なぜ測定する必要があるのか: PCB, Dioxin

Environmental exposure to polychlorinated biphenyls and quality of the home environment: effects on psychodevelopment in early childhood

Intellectual Impairment in Children Exposed to Polychlorinated Biphenyls in Utero

日本でも環境要因が子供の成長に与える影響の解明を目的とした大規模疫学調査がスタート

IQ 下がる→人類全体の平均知能が落ちて損失

Page 9: Tokyo R #39

どんなデータが出る?

塩素のつき方によって209 種類の PCBs が存在

塩素のつき方・構造の違いにより419 種類の異性体が存在

うち毒性が強いものが 31 種類

構造が似た化学物質なので自然界での挙動も似ている

ID 年齢 ・・・ 物質 A 濃度 物質 B 濃度 ・・・ 医学的な検査の結果

・・・

1 30 … XX AA … … …

2 15 … YY BB … … …

… … … … … … … …

N 70 … ZZ CC … … …

基本的にアンケート結果(検査結果)+ 物質濃度の連結データ

Page 10: Tokyo R #39

食物からの取り込み周辺環境からの曝露

Page 11: Tokyo R #39

どんなデータが出る?

塩素のつき方によって209 種類の PCBs が存在

塩素のつき方・構造の違いにより419 種類の異性体が存在

うち毒性が強いものが 31 種類

多重共線性がある場合が多く、目的変数との関係解析が困難

ID 年齢 ・・・ 物質 A 濃度 物質 B 濃度 ・・・ 医学的な検査の結果

・・・

1 30 … XX AA … … …

2 15 … YY BB … … …

… … … … … … … …

N 70 … ZZ CC … … …

基本的にアンケート結果(検査結果)+ 物質濃度の連結データ

Page 12: Tokyo R #39

どんな解析してる人が多い?ID 年齢 ・・・ 物質 A 濃度 物質 B 濃度 ・・・ 医学的な

検査の結果・・・

1 30 … XX AA … … …

2 15 … YY BB … … …

… … … … … … … …

N 70 … ZZ CC … … …

それぞれの物質濃度間の関係解析→相関解析・主成分分析など

アンケート結果を目的変数として汚染物質濃度との関係解析→一般化線形モデル(ロジスティクス回帰) , PLS回帰

検査結果を目的変数として汚染物質濃度との関係解析→一般化線形モデル(ロジスティクス回帰) , PLS回帰

とは言うものの多くは普通の線形回帰 or ノンパラでの相関解析

Page 13: Tokyo R #39

ここから自分のデータの話

Page 14: Tokyo R #39

 背景:中国・インド・東南アジアの汚染の現状

・急激な経済発展にともなう環境汚染の拡大

・電気電子機器リサイクルの産業化、屋内でリサイクル作業実施

・周辺環境からの曝露が懸念

Tue, N. M et al ., (2011) Environment Science & Technology, Tue, N. M et al ., (2010) Science of the Total Environment

リサイクル作業に従事するヒトを対象にした研究は少ない

Page 15: Tokyo R #39

 測定してみた(既報)

汚染の実態解析(測定メイン)→ 測定値とその他調査データから汚染源・汚染の広がりを解明

毒性の調査(細胞・動物実験などが多い)→ 細胞や動物に汚染物質を投与して影響を見る

健康・生態系への影響調査(疫学寄り)→ 癌・免疫・アレルギー・知能… etc との関係があるか?

Page 16: Tokyo R #39

チダンバラム沿岸域住民(RC)n = 20

バンガロールE-waste リサイクル従事者n = 25

 サンプリング地域

Eguchi et al. 2012. Environment International, 47, 8  改変

Page 17: Tokyo R #39

ID 居住性 BMI PCBs 濃度 難燃剤濃度 ・・・ PCB代謝物濃度

難燃剤代謝物濃度

1 汚染 OO XX AA … xx aa

2 対照 PP YY BB … yy bb

… … … … … … … …

45 汚染 QQ ZZ CC … zz cc

 データ構造

居住域 : 廃棄物処理地域 , 漁村

BMI, 年齢 , 食生活…

汚染物質濃度 : PCBs, 難燃剤( PBDEs )

汚染物質代謝物濃度 : PCBs代謝物 , PBDEs代謝物

* PBDEs代謝物には海洋で藻類が作る異性体が含まれる

Page 18: Tokyo R #39

PCA による解析の結果

PCB, OH-PCB 臭素化化合物

Eguchi et al. 2012. Environment International, 47, 8

RC: 沿岸域住民 NE: リサイクル従事者 (Non-vegetarian) VE: リサイクル従事者 (Vegetarian)

PCA でも群は分かれてるが…練習用にデータを再利用

Page 19: Tokyo R #39

  Devium

コードhttps://github.com/dgrapov/devium/blob/master/R/Devium%20PLS%20%20and%20OPLS.r

IRIS データを使った実行例https://github.com/dgrapov/TeachingDemos/blob/master/Demos/Predictive%20Modeling/Iris%20O-PLS-DA/O-PLS%20modeling%20of%20Iris%20data.md#prep

Dynamic multivariatE data analysis And VIsUalization PlatforM is a browser-based multivariate data analysis solution implemented in Shiny

DeviumWebhttps://github.com/dgrapov/DeviumWebローカル版は開発中

開発者 HPhttp://imdevsoftware.wordpress.com/

主成分分析 , 部分最小二乗法 , 直交部分最小二乗法の実行が可能なShinyベースのアプリケーション

Page 20: Tokyo R #39

  OPLS-DA (直交部分最小二乗法 -判別分析)

http://imdevsoftware.wordpress.com/ 参照

PLS (部分最小二乗法)の発展型

目的変数に直交する従属変数の変動に対処

従属変数の系統的変動を目的変数の予測と、目的変数に直行している変動に分割

従属変数 : X = x’ + tp’ + T0P0’ + E

目的変数 : Y = y’ + tq’ + E

T: スコア行列P, Q: ローディング行列E: 残差

逆行列演算がないから多重共線性に強い

変数量 >> サンプル数でも大丈夫

http://infocom-science.jp/product/detail/simca.html 参照

Page 21: Tokyo R #39

 アルゴリズムの参考文献Orthogonal projections to latent structures (O-PLS)http://onlinelibrary.wiley.com/doi/10.1002/cem.695/full

OPLS discriminant analysis: combining the strengths of PLS-DA and SIMCA classificationhttp://onlinelibrary.wiley.com/doi/10.1002/cem.1006/full

K-OPLS package: Kernel-based orthogonal projections to latent structures for prediction and interpretation in feature spacehttp://www.biomedcentral.com/1471-2105/9/106http://kopls.sourceforge.net/ ( 実行用 .R ファイルあり , カーネル対応 )

Multi- and Megavariate Data Analysis (書籍)http://umetrics.com/services/literature/multi-and-megavariate-data-analysis-basic-principles-and-applications-third

シェアウェアとして流通 (SIMCA-P)http://infocom-science.jp/product/detail/simca.html

Page 22: Tokyo R #39

  OPLS-DA: Devium パッケージで使用可

コードhttps://github.com/dgrapov/devium/blob/master/R/Devium%20PLS%20%20and%20OPLS.r

IRIS データを使った実行例https://github.com/dgrapov/TeachingDemos/blob/master/Demos/Predictive%20Modeling/Iris%20O-PLS-DA/O-PLS%20modeling%20of%20Iris%20data.md#prep

Dynamic multivariatE data analysis And VIsUalization PlatforM is a browser-based multivariate data analysis solution implemented in Shiny

DeviumWebhttps://github.com/dgrapov/DeviumWebローカル版は開発中

開発者 HPhttp://imdevsoftware.wordpress.com/

Page 23: Tokyo R #39

 モデル選択 : RMSEP(root mean squared error of prediction)

RMSEP が小さく、よりシンプルなモデルを選択

Page 24: Tokyo R #39

 モデル選択 : スコアプロットからの選択

グループのオーバーラップが小さく、分離がなるべく大きいモデルを選択

$`Validated Model Performance (Y1)` Xvar Q2 RMSEPmodel 47.79 ± 4.87 0.7997 ± 0.047 0.3069 ± 0.0559permuted model 32.5 ± 5.76 -0.2005 ± 0.398 0.596 ± 0.0865p-value 5.612e-06 2.103e-05 1.905e-07

Page 25: Tokyo R #39

  OPLS-DA 解析結果

それぞれの群において寄与率の高い因子が抽出された

電子電気機器廃棄物から放出される物質群

生物濃縮して食べ物から取り込まれる物質群

Page 26: Tokyo R #39

  OPLS-DA 解析まとめ

Eguchi et al. 2012. Environment International, 47, 8  改変

汚染物質および代謝物の曝露・代謝が職業や食生活に関連

食物由来の寄与

周辺環境の寄与

低塩素化 PCBsおよび代謝物

高臭素化難燃剤および代謝物

低臭素化 OH-PBDEs

高塩素化 PCBsおよび代謝物

Page 27: Tokyo R #39

 まとめ似たような挙動を取る物質が多いため多重共線性が問題に

PCA, PLS, OPLS のような手法なら多重共線性に強いしイケる気がする

OPLS, R に実装されました、ありがたく使います

自分のデータに適用したら、 PCAよりきれいに分かれた

 今後は?

化学物質のデータだけじゃなく、健康状態・病気などのデータも扱える部署なので、これらに絡む要因を化学分析・統計分析を使って明らかにしたいです。