Social genome annotation

Preview:

Citation preview

ソーシャル・ゲノム・アノテーション

中尾光輝mn@kazusa.or.jp

かずさディー・エヌ・エー研究所

1

中尾光輝

•かず さの特別研究員

•植物ゲノム情報研究室• CBRC の協力研究員

•ホートンチーム

2

• BioRubyプロジェクト開発者

•オープンバイオ研究会(open-bio.jp)

• Ruby会議実行委員

•「RとBioconductorを用いたバイオインフォマティクス」の翻訳

3

内容•アノテーションとは•アノテーションのライフサイクル•課題の整理•ソーシャル・ゲノム・アノテーション•かずさの取り組み

4

アノテーション

5

アノテーション

•ゲノムアノテーション•遺伝子アノテーション

6

ゲノムアノテーション

•遺伝子構造アノテーション•遺伝子機能アノテーション

7

GenBank レコード

• Features table に遺伝子構造アノテーションが書かれている

8

9

10

5 4 3 2 1

11

遺伝子構造•遺伝子予測•エキソン-イントロン構造

•機能性RNA、SNP、cis-エレメント

•ゲノム配列(一次元)における座標のセット

12

Sequence Onotolgy

13

UniProtKB/Swiss-Prot

•タンパク質知識ベース• UniProt.org

• beta.uniprot.org がオススメ

14

15

16

17

18

19

20

21

遺伝子機能

•対象•遺伝子シンボル、アミノ酸配列

•機能についてのアノテーション•その他の記載

22

遺伝子機能

•分子機能(EC番号のつくもの)

•機能?•局在化部位(Component)

•系統関係など

23

GOアノテーション

• GeneOntology.org

•遺伝子産物への注釈をサポートするツール

24

3つのオントロジー

• Molecular Function

• Biological Process

• Cellular Component

25

26

gene_product association term

evidence根拠

遺伝子産物 用語

27

evidence根拠

28

アノテーションの例

29

GOの開いた世界

•タームの標準化•機能分類•集約(GOslim)

•種間比較

30

ゲノムアノテーション

•遺伝子構造アノテーション•遺伝子機能アノテーション•その他のアノテーション•コンテクストを与える

31

質的な範囲

•論文の結果•実験結果•大規模実験結果•自動

32

質のコントロール• UniProtKB

•用語のカテゴリ•論文の有無

• GO

• evidence codeevidence

根拠

33

gene_product association

evidence

term

根拠

遺伝子産物 用語

34

アノテーションのライフサイクル

•生成•成長•無効化/消失

35

生成場所•遺伝子DNA配列決定

•ゲノムプロジェクト•ゲノムデータベース•アノテーション大会•サードパーティーアノテーション

36

スケール•ゲノムスケール    網羅性

•一遺伝子       正確性

37

伝言ゲーム

•コピー&ペーストで typo が伝播する

• imilar to X protein

• Putative hypothetical protein

38

Excel の悲劇

•アクセッションに E123456

•読み込み時に数値に変換された

39

成長•改善/更新のプロセス• Hypothetical protein

• Similar to X protein

•新しい論文•新しいデータベース、方法

40

成長場所•遺伝子DNA配列決定

•ゲノムプロジェクト•ゲノムデータベース•アノテーション大会•サードパーティーアノテーション

41

ゲノムデータベース

• MGI, SGD, FlyBase, TAIR, ...

•持続的な更新• GO アノテーションを利用

42

サードパーティ

• KEGG

• GO Annotation @ EBI

• NCBI RefSeq, Gene

• UniProtKB

43

無効化/消失

•遺伝子構造の更新•アミノ酸配列の更新•根拠にした論文のとりさげ•元にしたデータの更新

44

アノテーション利用

• GenBankエントリの作成

•遺伝子データベースの遺伝子単位のページのコンテンツのソース

•カテゴリカルデータ

45

アノテーション• IDをもったもの(遺伝子など)

•用語体系(コンテクスト)•根拠と参照元•つけた人•作成日

46

gene_product association

evidence

term

根拠

ID 用語

47

根拠と参照元•論文•教科書•ほかのアノテーション•学会発表•心の眼

48

自動アノテーション•充実している• InterProScan

•各種予測ツール• Evideice code: IEA

•ホモロジーサーチ

49

手動アノテーション

•論文を読む速度に依存•検索、取得、理解

•整理法に依存

50

課題

•アノテーション高度化•参照元を増やす•質を高める

51

対策

•作業効率を上げる•人を数を増やす

52

作業効率を上げる•論文の取得は加速された•インターネット 、電子出版

•検索• Medline, PubMed

•オープンアクセス53

作業効率を上げる

•論文から転記するところは?• UI、ツールでサポート

54

人の数を増やす

•お金でかいけつ•参入障壁をさげる• UI、ツールでサポート

•コミュニティーでやる

55

ソーシャルアノテーション

•ソーシャルブックマーク• CiteULike

•はてなブックマーク•ソーシャルアノテーション• diigo.com

56

CiteULike.org

•論文情報の共有・保存・管理• PDF保存

•メモ、タグ付け•共有•ブックマークレット

57

58

あとから参照する仕組み

•検索•タグ

59

60

タグで分類

•階層分類しない

61

共有

•論文セミナーに利用•おなじ興味をもつ人の読んでる論文を知る

62

ブックマークレット•ユーザーインターフェイス•ワンクリックでいま見ている

PubMedのページ(の論文)を登録するブックマーク

• JavaScriptでできたブックマーク

63

はてなブックマーク

• URLをブックマーク

•コメント•タグ付け•キーワードの自動抽出

64

65

66

あとから参照する仕組み

•検索•タグ•キーワード•コメント

67

diigo.com

•ソーシャル・アノテーション• URLをブックマーク

•本文から抜き書き•コメント、付箋化•タグ

68

69

70

71

72

73

74

抜き書きにコメントをつける仕組み

•情報カード•情報整理ツール•調査用のツール

75

一般的な意味でのアノテーション

•ゲノム座標セットにタームをつける•遺伝子産物にタームをつける• URLにコメントやタグをつける

76

gene_product association

evidence

term

根拠

遺伝子産物 用語

77

URL association

evidence

コメントタグ

任意

対象 任意

78

UI によるサポート

•ブックマークレット•ワンクリックでブックマークできる

•領域選択による抜き書き、付箋化

79

共有

•参照可能なアノテーションの拡大•マスコラボレーションの可能性• Wikipedia の成功

• Wikiproteins の挑戦

80

Wikiprotains.org

• UniProtの内容をWIkiに移しているだけ?

81

極端なアノテーションの定義

•データモデルから見ると• evidence code でわければ

•関連付けるのは全部アノテーション

82

ゲノムアノテーション

•更新問題•人でによる更新速度•人が少ない

83

コミュニティ・アノテーション

•共有•特定の興味分野(生物種、現象)•改善の運動

84

UIやツールでなんとかなるかもしれない

•参照元を増やす•参加障壁をさげる•作業効率を上げる

85

かずさの取り組み

•ゲノム配列決定機関•ゲノムデータベース•ますます増えるゲノム配列•アノテーションの新規作成と更新

86

かずさの取り組み

•ソーシャルなゲノムアノテーションのツールを開発中

•ゲノムDBが遺伝子URLを提供

•遺伝子URLにアノテーションする

87

•個人的な情報整理からリリースするアノテーションまでおなじツールで管理

•データにはアクセス権限の設定をする

•個人、グループ、パブリック

88

•タグで分類•タグにコンテクストを任せる

89

まとめ

•アノテーションの更新は大変•ソーシャルなツールで克服できるかもしれない

•かずさで実証実験をする

90

Recommended