21
1 The Institute of Statistical Mathematics, Research Organization of Information and Systems 2 JSTCREST 3 Graduate University for Advanced Studies ベイズ統計学とバイオサイエンスの協働 2013年11月26日 数理デザイン道場@産総研お台場 JST/CREST 「神経系まるごとの観測データに基づく神経回路の動作特性の抽出」 飯野チーム 吉田 1,2,3

数理デザイン道場@産総研お台場 「神経系まるごとの観測データ … · ベイズ統計学-全ての推測は「ベイズの確率反転公式」から Likelihood

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

1 The Institute of Statistical Mathematics, Research Organization of Information and Systems 2 JST・CREST 3 Graduate University for Advanced Studies

ベイズ統計学とバイオサイエンスの協働

2013年11月26日 数理デザイン道場@産総研お台場

JST/CREST 「神経系まるごとの観測データに基づく神経回路の動作特性の抽出」

飯野チーム 吉田 亮1,2,3

2

ベイズ統計学と機械学習を駆動力に

バイオサイエンス分野でユニークなアプリケーションを

3

Data Unknown object

nD y y 1, , ii. Estimation

i. Modeling We are given We want to find

統計的推測を行うための三つのプロセス

iii. Prediction

Activity yet unobserved Input chemical structure

| ,p Y G

GY

4

ベイズ統計学-全ての推測は「ベイズの確率反転公式」から

Likelihood function (尤度)

Goodness-of-fit to D of each ω, evaluated

with a mathematical model

p D p D p ~

Posterior distribution(事後分布)

Probability dist. of ω conditioned by D

Likeliness of ω evaluated after we observe D

Prior distribution(事前分布)

Prior knowledge on ω represented to a probability distribution

e.g. smoothness, sparseness, any others

posterior likelihood prior

事前情報(モデル)とデータを組み合わせ、

モデルやデータ単独では決して得ることができない知識を抽出する

ベイズ統計学とコンピュータ・グラフィックス

ACM Transactions on Graphics, 30(2), 2011

柳の木を真上から投影したときの影(2D)を拘束条件として,柳の3Dグラフィックを自動生成する

5

逆問題の解法 - 事前分布と尤度

Prior distribution

柳の立体構造を生成する確率モデル

枝の成長 分岐&刈り込み

Likelihood function

投影した影 = データ(拘束条件)

~ p D

オブジェクトの投影図と拘束条件の適合度を

ガウス分布で測る

6

2

p D D Jexp

Posterior distribution

• 事後分布からサンプリング:

• 拘束条件を満たす「柳」や「都市」を自動設計

7

~ p D p D p

The produced graphic on the city (left) targeted to a whale (right)

A set of young oak trees (top), exhibiting “SIGGRAPH” when viewed from above (bottom)

事後分布から ω をランダムサンプリング

ベイズ統計学でロバストな生化学反応系を自動設計

8

Problem: Design a network system so as to reduce the

fluctuation and to respond to the input signal quickly

Output

Input

0s

1s

x

Signal + Pulse

Noise

unknown

Time series data

(Red line)

Structure? How?

(1) Blockade the fluctuation

(2) Quick response

Starting from the

anchor model

Altered

?

Example: Noising causes asynchronous production

9 Output

Input

x

0s

1s

8s

8

8

s

x xs

2 2 1 s s s

1 1 0s s s + noise

Step function

Noise

Instability of the timing in

the production of X

Fluctuations become larger

as increasing layers

10

0N H ~ ,n n n ny x w w with

,,

, , , ,

,

, ,

r ia i

a i a i r i r i

i i

r iai i i i

a A r Ra a i r r i

sx x

s s

観測モデル

システムモデル – 生化学反応方程式ネットワーク(G)に任意の摂動

時系列データ :ny 状態ベクトル(システムの内部状態を表す非観測量) :nx

i i

i i i j j i jj T j C

s s s s noise

0 s input noise

• 出力変数:

• 仲介変数:

• 入力シグナル:

i

i i i i jj C

s s s noise

シグナル伝達

複合体の形成

状態空間表現 - データとモデルを関連付ける

11

ix

0 s

is

Input

Output

微分方程式のネットワーク構造Gと

パラメータ θ を同時に探索

最終生成物の時系列データを与える (red line)

逆問題の設定

入力シグナルと揺らぎのパターンを与える

13

1 1 d , , , ,N Np D p p D x x p x x x

シミュレーションの出力(black)とデータ(red)

の適合度を測る

シミュレーションに任意の摂動 パルス,ノイズ,システム損傷

デザイン・パラメータ G G ,

事後分布:二つのクライテリアを考慮

データに対する高い再現性

摂動の影響を抑制

ベイズ法で逆問題を解く

14

事後分布から10億個の“システム”をサンプリング (マルコフ連鎖モンテカルロ法)

ロバスト性を有する約4種類の生化学反応システムが見つかった

事後分布から生成したサンプルをカーネルPCAで二次元平面にプロット

15

Output

Input

0s

1s

2s

1 2ss

x

Pulse

Noise

Binding

0 1 2s ss

Binding

Ex. A robust signal transduction system

Three variables on different layers form two complexes

During the two binding processes, the noise

components are canceled out, contributing much

greater reduction of fluctuations

The rapid response of X is due to the involvement of

the input signal itself in the regulator

The search space is very huge, the posterior surface is inherently multimodal

Conventional method would be stacked to locally higher energy states

16 16

As diverse as many events could be detected

with onetime-parallel computation in a

statistically unbiased way

Most simulation trajectories starting from

different initial states would be absorbed to

a higher energy region

Independent parallel computation Multi-task parallel simulation

Repulsions are acted

Big challenge – Multimodality and High-dimensionality

Repulsive Parallel MCMC algorithm

Collaboration to H.Ikebata (GUAS) and A.Doucet (Oxford Univ)

「拡大事後分布(サイズMのレプリカ)」 + 「オブジェクト間の反発作用」

, , ,| |1

1

M

i k hk h

Mi

p p DD

オブジェクト間の類似度の減少関数

3

1

2

シミュレーション軌道を反発

違う領域に向かう作用

反発作用

β=0: バイアスが消える

作業分担:1回の並列シミュレーションで、多様な

オブジェクトを(バイアスなく)サンプリングする

18

データ統合型シミュレーション解析-データ同化

気象・海洋学に由来

様々な逆問題に対する解法

• パラメータの推定 (物理パラメータ,境界条件など)

• 部分観測データからシステム全体の内部状態の推定

• モデルの評価・選択・改変

バイオサイエンスにおける戦略的応用分野の開拓

統計数理研究所のデータ同化研究への取り組み

神経系まるごとの観測データに基づく神経回路の動作特性の解明

JST戦略的創造研究推進事業(CREST) 「生命動態の理解と制御のための基盤技術の創出」

G1 飯野 雄一(東京大学)

トランスジェニック株

4Dデジタルアトラス

勾配認識・学習機構

代表:飯野雄一(東京大学) 期間:H25.10-H31.3

G2 石原 健(九州大学)

4Dイメージング

自発的神経活動

行動決定機構

G3 岩崎 唯史(茨城大学)

神経系のモデリング

シミュレーション

G4 吉田 亮(統計数理研究所)

バイオイメージ・インフォマティクス

データ同化

実験班 モデル開発班

統数研: 徳永旭将 池端久貴 逸見昌之

金沢大学: 広瀬修 川口翔太朗

データ解析班

データの提供 画像解析による定量化 データ同化

感覚・行動系の情報処理

モデル

20

● 121 neurons ― Minimum spanning tree

生きた線虫の神経系のカルシウムイオン・イメージング 4D = 空間3次元+時間1次元 (時空間データ) 約160個のオブジェクト(神経細胞)の自動トラッキング・定量化

Ca2+ imaging data

21

データ同化-データとモデルを結び付ける

302ニューロンの神経回路モデル

(シナプスの配線図は既知)

100-160ニューロンの時系列データ

(部分観測システム)

逆問題を解き、神経系全体の内部状態を復元

22

実験生物学へのアピール ※統計科学(データサイエンス)は「理論」でも「数理」でもありません

計測 モデル

理論生物学へのアピール

モデル、データ単独では抽出できない知識を

計測 統

先進的な計測技術

統計科学が最も得意とする領域

モデル 統

データのない統計学も ネットワークシステムのモデル設計

化合物の分子設計(量子化学シミュレーション)