22
Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire IN’Tech; 23 Octobre 2003

Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Embed Size (px)

Citation preview

Page 1: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Interopérabilité et qualité dans le contexte de Swiss-Prot

Amos Bairoch; Institut Suisse de Bioinformatique (ISB)

Groupe Swiss-Prot

Séminaire IN’Tech; 23 Octobre 2003

Page 2: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Swiss-Prot Created in July 1986; since 1987, a collaboration of Created in July 1986; since 1987, a collaboration of

the SIB and the EMBL/EBI; from 2003 onward it is the SIB and the EMBL/EBI; from 2003 onward it is the central part of the UniProt project;the central part of the UniProt project;

AnnotatedAnnotated, , non-redundantnon-redundant, , cross-referencedcross-referenced, , documenteddocumented protein sequence protein sequence knowledgeknowledge resource; resource;

136’000136’000 sequences; 125’000 references; 1’200’000 sequences; 125’000 references; 1’200’000 cross-references; ~320 Mb of annotations;cross-references; ~320 Mb of annotations;

About About 935’000935’000 sequences in TrEMBL, the Swiss- sequences in TrEMBL, the Swiss-Prot computer-annotated supplement;Prot computer-annotated supplement;

Weekly releases; available from about 50 servers, Weekly releases; available from about 50 servers, the main source being ExPASy.the main source being ExPASy.

Page 3: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

The ExPASy WWW server

• First molecular biology server on the Web (August 1993); ~320 million access since;

• Dedicated to proteomics:– Databases: Swiss-Prot, PROSITE, Swiss-2DPAGE, etc.;

– Many 2D/MS protein identification/characterization and sequence analysis tools;

• Mirror sites in Australia, Bolivia, Canada, China, Korea, Taiwan and USA. Soon in Brazil.

10 years of continuous service to the user community

Page 4: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

The contents of the Swiss-Prot protein

knowledgebase• Sequences!

• ANNOTATIONS

• References

• Taxonomic data

• Keywords

• Cross-references

• Documentation

•Function(s); role(s)•Post-translational modifications•Domains•Subcellular location•Protein/protein interactions•Similarities•Diseases, mutagenesis•Conflicts and variants

Page 5: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

ID CYC_HUMAN STANDARD; PRT; 104 AA.AC P00001; Q96BV4;DT 21-JUL-1986 (Rel. 01, Created)DT 21-JUL-1986 (Rel. 01, Last sequence update)DT 15-JUN-2002 (Rel. 41, Last annotation update)DE Cytochrome c.GN CYC.OS Homo sapiens (Human), andOS Pan troglodytes (Chimpanzee).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.OX NCBI_TaxID=9606, 9598;RN [1]RP SEQUENCE.RC SPECIES=Human; TISSUE=Heart;RA Matsubara H., Smith E.L.;RT "The amino acid sequence of human heart cytochrome c.";RL J. Biol. Chem. 237:3575-3576(1962).RN [2]RP SEQUENCE.RC SPECIES=Human; TISSUE=Heart;RA Matsubara H., Smith E.L.;RT "Human heart cytochrome c. Chymotryptic peptides, tryptic peptides,RT and the complete amino acid sequence.";RL J. Biol. Chem. 238:2732-2753(1963).RN [3]RP SEQUENCE FROM N.A.RC SPECIES=Human;RX MEDLINE=89071748; PubMed=2849112;RA Evans M.J., Scarpulla R.C.;RT "The human somatic cytochrome c gene: two classes of processedRT pseudogenes demarcate a period of rapid molecular evolution.";RL Proc. Natl. Acad. Sci. U.S.A. 85:9625-9629(1988).RN [4]RP SEQUENCE FROM N.A.RC SPECIES=Human; TISSUE=Amygdala;RA Ansorge W., Wirkner U., Mewes H.-W., Weil B., Wiemann S.;RL Submitted (MAR-2002) to the EMBL/GenBank/DDBJ databases.RN [5]RP SEQUENCE FROM N.A.RC SPECIES=Human;RC TISSUE=Bone marrow, Brain, Skeletal muscle, Skin, and Urinary bladder;RA Strausberg R.;RL Submitted (FEB-2002) to the EMBL/GenBank/DDBJ databases.RN [6]RP SEQUENCE, AND COMPOSITION OF CHYMOTRYPTIC PEPTIDES.RC SPECIES=P.troglodytes;RX MEDLINE=69150225; PubMed=4975694;RA Needleman S.B., Margoliash E.;RL Unpublished results, cited by:RL Margoliash E., Fitch W.M.;RL Ann. N.Y. Acad. Sci. 151:359-381(1968).RN [7]RP REVIEW ON ROLE IN APOPTOSIS.RX PubMed=9515723;RA Skulachev V.P.;RT "Cytochrome c in the apoptotic and antioxidant cascades.";RL FEBS Lett. 423:275-280(1998).

CC -!- FUNCTION: Electron carrier protein. The oxidized form of theCC cytochrome c heme group can accept an electron from the heme groupCC of the cytochrome c1 subunit of cytochrome reductase. Cytochrome cCC then transfers this electron to the cytochrome oxidase complex,CC the final protein carrier in the mitochondrial electron-transportCC chain.CC -!- FUNCTION: Play a role in apoptosis. Suppression of the anti-CC apoptotic members or activation of the pro-apoptotic members ofCC the Bcl-2 family leads to altered mitochondrial membraneCC permeability resulting in release of cytochrome c into theCC cytosol. Binding of cytochrome c to Apaf-1 triggers the activationCC of caspase-9, which then accelerates apoptosis by activating otherCC caspases. CC -!- SUBCELLULAR LOCATION: Mitochondrial matrix.CC -!- PTM: Binds one heme group per molecule.CC -!- SIMILARITY: Belongs to the cytochrome c family.DR EMBL; M22877; AAA35732.1; -.DR EMBL; AL713681; CAD28485.1; -.DR EMBL; BC005299; AAH05299.1; -.DR EMBL; BC008475; AAH08475.1; -.DR EMBL; BC008477; AAH08477.1; -.DR EMBL; BC009578; AAH09578.1; -.DR EMBL; BC009579; AAH09579.1; -.DR EMBL; BC009582; AAH09582.1; -.DR EMBL; BC009587; AAH09587.1; -.DR EMBL; BC009602; AAH09602.1; -.DR EMBL; BC009607; AAH09607.1; -.DR EMBL; BC014359; AAH14359.1; -.DR EMBL; BC014361; AAH14361.1; -.DR EMBL; BC015130; AAH15130.1; -.DR EMBL; BC016006; AAH16006.1; -.DR EMBL; BC021994; AAH21994.1; -.DR EMBL; BC022330; AAH22330.1; -.DR PIR; A31764; CCHU.DR PIR; A00002; CCCZ.DR HSSP; P00004; 1WEJ.DR MIM; 123970; -.DR InterPro; IPR000345; CytC_heme_bind.DR InterPro; IPR003088; Cyt_CI.DR InterPro; IPR002327; Cyt_CIAB.DR Pfam; PF00034; cytochrome_c; 2.DR PRINTS; PR00604; CYTCHRMECIAB.DR ProDom; PD000375; Cyt_CIAB; 1.DR PROSITE; PS00190; CYTOCHROME_C; 1.KW Mitochondrion; Electron transport; Respiratory chain; Heme;KW Acetylation; Polymorphism; Apoptosis.FT INIT_MET 0 0FT MOD_RES 1 1 ACETYLATION.FT BINDING 14 14 HEME (COVALENT).FT BINDING 17 17 HEME (COVALENT).FT METAL 18 18 IRON (HEME AXIAL LIGAND).FT METAL 80 80 IRON (HEME AXIAL LIGAND).FT VARIANT 65 65 M -> L (IN 10% OF HUMAN).FT /FTId=VAR_002204.FT CONFLICT 17 17 C -> Y (IN REF. 5; AAH15130).SQ SEQUENCE 104 AA; 11617 MW; D47C9B513DF1C5C2 CRC64; GDVEKGKKIF IMKCSQCHTV EKGGKHKTGP NLHGLFGRKT GQAPGYSYTA ANKNKGIIWG EDTLMEYLEN PKKYIPGTKM IFVGIKKKEE RADLIAYLKK ATNE//

Page 6: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Names, gene names, species, taxonomy

Page 7: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

References

Page 8: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Comments annotations

Page 9: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Cross -references

Keywords

Page 10: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Features annotation

Page 11: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Sequence

Page 12: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

The golden goals of Swiss-Prot

• Annotated;

• Complete;

• Non-redundant;

• Highly cross-referenced;

• Available from a variety of servers and through sequence analysis software tools;

• Associated with a wide-range of documentation.

Page 13: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

TrEMBL: a platform for the improvement of automatic annotion

tools• Two important factors:– It is not possible to «manually» cope with the speed with which

new data is coming out;– We do not want to dilute the quality of Swiss-Prot

• The solution: – TrEMBL (TRanslation of EMBL): contains all what is not yet in

Swiss-Prot;– TrEMBL is automatically generated and annotated;– After a lot of testing; some sequence analysis tools will be applied

systematically: SignalP, TMHMM, REP, InterPro domain assignement, etc.;

– Rule based annotation expert systems are being developed and will be applied to TrEMBL starting in early 2004;

– EVIDENCE TAGS are added to any part of a TrEMBL entry not derived from the original EMBL entry.

Page 14: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Cross-references• Explicitly cross-referenced to 53 databases. Such as

DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB), domain/families (PROSITE, InterPro, Pfam, etc.), genomic (MIM, MGD, FlyBase, SGD, SubtiList, etc.), 2D-gel (Swiss-2DPAGE), specialized db (REBASE, TRANSFAC, etc.);

• Implicitly cross-referenced to 30 additional db on the WWW (DIP, Ensembl, GeneCards, etc.);

• Additional links at the level of the taxonomy (NCBI taxonomy browser and NewT); references (PubMed and journal full texts); comments (specialized Web pages) and features (dbSNP).

Page 15: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Domains, sites, familiesHAMAPInterProPIRSFPfamPRINTSProDomPROSITESMARTTIGRFAMs

SequenceEMBLPIR

StructureHSSPPDB

Organism-specificdbSNPDictyDbEcoGeneFlyBaseGeneDB_SPombeGenewGKGrameneHIVLepromaListiListMaizeDBMGDMypuListOMIMSagaListSGDStyGeneSubtiListTIGRTubercuListWormPepZFIN

MiscellaneousGermOnlineGOMEROPSREBASETRANSFAC

2D-gel electrophoresis ANU-2DPAGEAarhus/Ghent-2DPAGECOMPLUYEAST-2DPAGEECO2DBASEHSC-2DPAGEMAIZE-2DPAGEPHCI-2DPAGEPMMA-2DPAGESiena-2DPAGESWISS-2DPAGE

PTMGlycoSuiteDBPhosSite

Swiss-Prot

explicit links

Page 16: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Controlled vocabularies in Swiss-Prot– Taxonomy (species names and classification);

– Strain names;– Plasmid names;– Tissues;– Protein names and synonyms;– Catalytic activity (ENZYME db);– Gene names; Human(HUGO/Genew), Mouse(MGD),

Yeast(SGD), Drosophila(Flybase) Bacterial (EcoGene/SubtiList);

– Keywords (list -> dictionary);– Author names!;– Journal abbreviations;– Feature keys and some descriptions (PTM);– CC similarity statements (BELONGS/CONTAINS);– In the near future: COFACTOR, PATHWAY, SUBUNIT.

Page 17: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Certains problèmes• Un manque de rigueur de la part de la communauté des

sciences de la vie à utiliser et à faire évoluer des règles de nomenclature;

• L’extraordinaire hétérogénéité de l’information biologique, que ce soit au niveau de la qualité, du type de données ou de leur représentation;

• Les ontologies telles que GO (Gene Ontology) sont une aide précieuse pour permettre de représenter des processus biologiques, mais malheureusement elles sont souvent utilisées hors de leur contexte et souvent mal appliquées.

Page 18: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

La qualité (1/3)• La qualité de l’information “primaire”: séquence et

structure va en augmentant grâce aux avancées technologiques;

• La qualité de l’information “secondaire”: l’interprétation des résultats expérimentaux est en constante baisse. La pression “publish or perish” devient de plus en plus forte et par conséquent:– Ne permet pas aux chercheurs de prendre le temps de réfléchir;– La compétition étant féroce, il est difficile de bénéficier de

l’expertise de collègues travaillant dans le même domaine;– Comme il est presque impossible de décrire des résultats

négatifs, ceux-ci sont mis à la trappe;– Il faut savoir se “vendre” et donc tirer les conclusions vers ce

qui est le plus porteur et ceci souvent au mépris du bon sens.

Page 19: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

La qualité (2/3)

• Paradoxalement:– Les auteurs des informations collectées par Swiss-

Prot ne sont pas toujours les mieux à même d’assurer une qualité et une consistence maximum;

– La qualité des informations ne dépend que très peu du «prestige» de la source primaire de l’information. En d’autres termes il y a autant d’erreurs dans «Nature» ou «Science» que dans un journal bien moins loti en «impact factor»:

Page 20: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

La qualité (3/3)

• Formation des annotatrices/annotateurs. Deux ans pour devenir «indépendent», mais un apprentissage constant;

• Chaque entrée de Swiss-Prot est toujours vue par deux personnes et vérifiée par des logiciels qui contrôlent le contenu et la consistence de l’information;

• Nous développons des systèmes experts pour aider à trouver les erreurs possibles. C’est loin d’être trivial car une exception n’est souvent pas une erreur, mais la conséquence de l’extraordinaire variété du monde vivant.

Page 21: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

Le contraulle de kallité

Est essentiel pour toute banque de données, il est crucial dans le domaine des sciences de la vie. Dans Swiss-Prot nous passons une partie importante de notre temps à cette activité

Page 22: Interopérabilité et qualité dans le contexte de Swiss-Prot Amos Bairoch; Institut Suisse de Bioinformatique (ISB) Groupe Swiss-Prot Séminaire INTech; 23

• Group leaders: Amos Bairoch, Rolf Apweiler

• Annotators/curators: Andrea Auchincloss, Kristian Axelsen, Kirsty Bates, Margaret Biswas, Marie-Claude Blatter Garin, Brigitte Boeckmann, Silvia Braconi Quintaje, Paul Browne, Eveyl Camon, Danielle Coral, Elisabeth Coudert, Tania de Oliveira Lima, Kirill Degtyarenko, Sylvie Dethiollaz, Anne Estreicher, Livia Famiglietti, Nathalie Farriol-Mathis, Stephanie Federico, Serenella Ferro, Gill Fraser, John Garavelli, Raffaella Gatto, Vivienne Gerritsen, Arnaud Gos, Nadine Gruaz-Gumowski, Ursula Hinz, Chantal Hulo, Nicolas Hulo, Janet James, Florence Jungo, Vivien Junker, Youla Karavidopoulou, Maria Krestyaninova, Kati Laiho, Minna Lehvaslaiho, Michele Magrane, Karine Michoud, Virginie Mittard, Madelaine Moinat, Nicola Mulder, Claire O'Donovan, Sandra Orchard, Sandrine Pilbout, Sylvain Poux, Manuela Prüss, Sorogini Reynaud, Catherine Rivoire, Bernd Röchert, Michel Schneider, Christian Sigrist, André Stutz, Shyamala Sundaram, Michael Tognoli, Sandra van den Broek, Eleanor Whitfield

• Programmers and system administrators: Daniel Barrell, David Binns, Laurent Bollondi, Sergio Contrino, Michael Darsow, Edouard deCastro, Séverine Duvaud, Alexander Fedetov, Astrid Fleischmann, Wolfgang Fleischmann, Elisabeth Gasteiger, Alain Gateau, Andre Hackmann, Henning Hermjakob, Ivan Ivanyi, Eric Jain , Alexander Kanapin, Paul Kersey, Ernst Kretschmann, Corinne Lachaize, Maria-Jesus Martin, Xavier Martin, John O ’Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow, Nicole Redaschi, Kai Runte, Florence Servant, Allyson Williams, Dan Wu

• Research staff: Pavel Dobrokhotov, Alexandre Gattiker, Margus Luk, Anne Morgat, Anne-Lise Veuthey

• Clerical and secretarial assistance: Veronique Mangold, Claudia Sapsezian, Margaret Shore-Nye, Laure Verbregue

The Swiss-Prot staff at SIB and EBI