25
Big data: preprocessing How do we incorporate chemical knowledge to separate good data from bad as a preprocessing step? Arctic Analyscis Ilulissat, Greenland 10th – 14th March 2014

Big data: preprocessing - models.life.ku.dk

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Big data: preprocessing - models.life.ku.dk

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Big data: preprocessing

How do we incorporate chemical knowledge to separate good

data from bad as a preprocessing step?

Arctic Analyscis Ilulissat, Greenland 10th – 14th March 2014

Page 2: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

«My» data

NMR, chromatography and mass spectrometry for:

− (Environmental) metabolomics

− Analysis of complex mixtures

Page 3: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Is it big?

BIG DATA

• Volume

• Velocity

• Variety

E. Dumbill - Big Data 1 (2013)

Page 4: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Is it big?

i5 laptop 4GB RAM

Dual Xeon Workstation

Yes!

Can it be bigger?

• Larger studies

• Multiple sets to be matched

• Testing of multiple metaparameters and optimisation

Page 5: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

PredictIV

5 years project

21 partners

3 target organs

7 cellular models

3 time points investigated

30 chemicals initially; reduced to 4

Genomics, Transcriptomics, Proteomics and Metabolomics platforms

Hepatotoxicty Neurotoxicity Nephrotoxicity

Amiodarone Ibuprofen Chloropromazine Cyclosporin

Amiodarone Diazepam Chloropromazine Cyclosporin

Cyclosporin

The overall objective of Predict-IV is to develop

strategies to improve the assessment of drug safety

by using innovative schemes not based on animal

tests and involving optimised cell culture systems,

different chemical treatments and an intelligent

combination of cell biology, mechanistic toxicology,

in-silico modelling and "omics" approaches like

metabolomics.

Page 6: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Metabostudio server

Architecture

• Data stored as CDF

• Web R server and interface

• XCMS and related packages

controlled through scripts

Meta data handling

• CSV files, Excel worksheets and/or RMDBs

Page 7: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Workflow

The whole procedure is semi-automated

Some parts are already parallelised

• Feature detection/baseline

• Deisotoping, identification of adducts and fragment?

Others could be but are not

• Alignment (Obiwarp)

• Filling of empy cells

• Testing

Bottlenecks

• Choice of metaparameters

• Annotation

• Assessment of different steps

Page 8: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

A perfect world? Q

C1

Q

C2

Page 9: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Metabolomics (July 31, 2011)

Page 10: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 11: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 12: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 13: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 14: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 15: Big data: preprocessing - models.life.ku.dk

Maybe not so much!

Peak aliasing (extration and filling)

Contaminations

Fourier Transform artefacts

Mass negative bias due to intensity

“Bad” features

Group heterogeneity

Arbitrary rejection of peaks

Ionisation source effects

Page 16: Big data: preprocessing - models.life.ku.dk

Ion source

ElectroSpray Ionisation

Main ion

Few from Neutral Losses (-HCOOH , -H

2O, etc)

Adducts with ions (K+, Na+ and NH4+)

in solution

Adducts with other molecules

Advion TriVersa NanoMate

• source is more exposed to the outside environment

• The flow through the nozzle is not always stable

Page 17: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

CAMERA

R/CAMERA package allows to

identify

• Isotopic peaks

• Adducts

• Neutral losses

• Regroups peaks according to

retention time window (FWHM)

• Some problems with Direct

Infusion

• Correlation threshold and

mass/charge is checked

• Flexible set of rules

Many alternatives

• Astream

• MZedDb

• …

Page 18: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

CAMERA

R/CAMERA package allows to

identify

• Isotopic peaks

• Adducts

• Neutral losses

• Regroups peaks according to

retention time window (FWHM)

• Some problems with Direct

Infusion

• Correlation threshold and

mass/charge is checked

• Flexible set of rules

Many alternatives

• Astream

• MZedDb

• …

Page 19: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

CAMERA

R/CAMERA package allows to

identify

• Isotopic peaks

• Adducts

• Neutral losses

• Regroups peaks according to

retention time window (FWHM)

• Some problems with Direct

Infusion

• Correlation threshold and

mass/charge is checked

• Flexible set of rules

Many alternatives

• Astream

• MZedDb

• …

Page 20: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Cyclosporine

Mass accuracy is set to 5 ppm

The correlation threshold is set to 0.9

Up to 5 isotopic peaks were allowed

Up to double charge

A set of 68 rules was created allowing for

• Adducts with HCOOH, Methanol, Acetonitrile and DMSO

• Adducts with H+, Na

+, K

+ and

NH4+

• Neutral loss of up to 2H2O

name nmol charge massdiff Oid score

quasi ips

[M+H]+ 1 1 1.0076 1 1 1

[M+Na]+ 1 1 22.98922 8 1 1

[M+K]+ 1 1 38.96316 10 1 1

[M+NH4]+ 1 1 18.03382 16 1 1

[M + Met + H]+ 1 1 33.03349 66 0 0.25

[M + Met + Na]+ 1 1 55.01543 67 0 0.25

[M + Met + K]+ 1 1 70.98937 68 0 0.25

[M + Met + NH4]+ 1 1 50.06004 69 0 0.25

[M + ACN + H]+ 1 1 42.03383 76 0 0.25

[M + ACN + Na]+ 1 1 64.01577 77 0 0.25

[M + ACN + K]+ 1 1 79.98971 78 0 0.25

[M + ACN + NH4]+ 1 1 59.06038 79 0 0.25

[M + DMSO + H]+ 1 1 79.02122 96 0 0.25

[M + DMSO + Na]+ 1 1 101.0032 97 0 0.25

[M + DMSO + K]+ 1 1 116.9771 98 0 0.25

[M + DMSO + NH4]+ 1 1 96.04777 99 0 0.25

[M + Form + H]+ 1 1 47.01276 86 0 0.5

[M + Form + Na]+ 1 1 68.9947 87 0 0.25

[M + Form + K]+ 1 1 84.96864 88 0 0.25

[M + Form + NH4]+ 1 1 64.03931 89 0 0.25

[M+2Na-H]+ 1 1 44.97084 34 0 0.5

[M+2K-H]+ 1 1 76.91872 60 0 0.5

[M - H + Na]+ 1 1 21.9814 61 0 0.75

… … … … … … …

Page 21: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Cyclosporine

Mass accuracy is set to 5 ppm

The correlation threshold is set to 0.9

Up to 5 isotopic peaks were allowed

Up to double charge

A set of 68 rules was created allowing for

• Adducts with HCOOH, Methanol, Acetonitrile and DMSO

• Adducts with H+, Na

+, K

+ and

NH4+

• Neutral loss of up to 2H2O

Page 22: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Annotation

• Seven golden rules (Rdisop) Brute formula

• Matching towards online data base:

• HMDB

• Metlin (XCMS)

• KEGG

• Drug-bank

• PubChem

• Manchester Metabolmics Database (MMD)

• …

• Some R-packages only contain references to other data bases (MZedDB)

• Breitling proposed a method similar to CAMERA to disambiguate metabolits using common mass differences due to metabolism (IDEOME)

Page 23: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Annotation (HepRG – Acetaminophen)

Label fold change

p-value Link Class

Notes

328.1/474.753 2564,26 1,0E-07 cf. Metlin Aa Glucuronide

152.069/474.753 159,17 9,4E-08 cf. Metlin Aa Acetaminophenol

345.127/475.095 58,07 1,2E-07 Cf. Metlin Ab

153.074/474.23 5,40 6,7E-08 Cf. Metlin Ab

271.073/477.735 755,23 2,1E-05 Cf Metlin B

272.257/759.358 3,75 1,4E-02 Cf. Metlin B Fatty acid (amino)

311.254/903.778 2,67 2,0E-02 Cf. Metlin B Hydroxy Lipid ester

204.085/485.008 2,34 6,6E-04 Cf. Metlin B

329.227/802.957 2,03 7,7E-03 Cf. Metlin B Fatty acid (hydroxy)

347.238/564.207 1,87 2,5E-02 Cf. Metlin B Fatty acid (dicarboxylic)

176.072/528.037 1,62 2,3E-03 Cf. Metlin B

190.088/566.409 1,51 9,7E-03 Cf. Metlin B

162.059/471.352 1,46 3,9E-03 Cf. Metlin B

207.173/834.109 1,31 3,0E-02 Cf. Metlin B Fatty aldehyde

375.248/879.212 1,24 3,2E-02 Cf. Metlin B Calcitroic acid (Vit. D met) 526.289/681.763 1,23 3,9E-02 Cf. Metlin B Desmosine (HMDB00572)

119.069/525.56 1,13 4,9E-02 Cf. Metlin B

87.043/525.552 1,12 4,4E-02 Cf. Metlin B

273.259/759.361 3,50 2,3E-02 Cf. Metlin C Abietadiene (Plant met.?)

300.215/578.84 2,67 5,2E-03 Cf. Metlin C

307.188/741.797 2,16 4,0E-02 Cf. Metlin C 101.058/525.491 1,12 4,6E-02 Cf. Metlin C Isotopic peak of

"contaminant"

233.029/539.819 Inf 8,0E-04 Cf Metlin D

249.052/540.876 5684,20 5,8E-04 Cf. Metlin D

329.104/474.933 3730,19 1,4E-07 Cf. Metlin D

387.137/474.324 674,48 9,4E-08 Cf. Metlin D

371.142/475.4 671,72 1,6E-06 Cf. Metlin D

415.168/475.14 131,39 1,7E-07 Cf. Metlin D

531.178/485.008 Inf 4,8E-10 Cf. Metlin E

457.135/493.712 69,54 9,3E-05 Cf. Metlin E 331.137/585.967 5,74 4,5E-02 Cf. Metlin E Ranitidine (drug) oxide /

gibberellin

416.152/662.678 4,53 1,3E-04 Cf. Metlin E

504.328/770.45 1,92 2,2E-02 Cf. Metlin E

346.235/564.222 1,77 2,5E-02 Cf. Metlin E Polypeptides

430.277/755.641 1,61 9,6E-03 Cf. Metlin E

351.153/623.091 1,43 6,0E-04 Cf. Metlin E

315.132/692.315 1,40 4,3E-03 Cf. Metlin E Ranitidine (drug)

333.142/639.419 1,35 1,9E-02 Cf. Metlin E Drug metabolite / Polypet

419.274/880.369 1,26 1,2E-02 Cf. Metlin E Simavastin (drug)

225.108/555.916 1,25 4,9E-02 Cf. Metlin E

Butalbital (sold in combination with Acetaminophen)

347.158/681.322 1,25 2,3E-02 Cf. Metlin E Polypept / Fluorescence probe

536.183/477.733 Inf 4,4E-03 Cf. Metlin F

232.026/540.598 18204,03 7,0E-04 Cf. Metlin F Sulphate?

458.139/493.634 156,41 9,0E-05 Cf. Metlin F

362.251/623.193 2,10 2,2E-03 Cf. Metlin F

511.314/558.612 1,63 2,2E-02 Cf. Metlin F

466.145/529.044 1,32 4,0E-02 Cf. Metlin F

622.213/595.11 1,26 3,3E-02 Cf. Metlin F

88.111/523.471 1,23 4,9E-02 Cf. Metlin F

88.047/526.034 1,13 1,8E-02 Cf. Metlin F

Page 24: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Merging sets: a “big data” problem?

Annotation is an imperfect task and is done after some significance is established

It often not really an option in lower resolution instruments

Proper identification of compounds is often costly money- and time-wise

Can we treat consensus tables, or even the raw data as the heterogeneous input big data?

(Identity) data fusion is close to SQL’s joining of data bases

The unique key that we use for matching the table is a combination of mass, isotopic ratios, fragmentation patterns

Can we merge/fuse data from wildly different sets?

Page 25: Big data: preprocessing - models.life.ku.dk

Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning

Overskrift her

For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod

Thanks!

Acknowledgements:

C. Guillou

D. Carpi

H. Chassaigne

S. Furbo