53
Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected]

Bioinformacijos duomenų valdymas

Embed Size (px)

DESCRIPTION

Bioinformacijos duomenų valdymas. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Turinys. Biochem. duomenų charakteristikos Bioinformatikos duomenų bazės (DB) Duomenų formatai Duomenų integravimas DB architektūros. Problema. - PowerPoint PPT Presentation

Citation preview

Page 1: Bioinformacijos duomenų valdymas

Doc. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-415Email: [email protected]

Page 2: Bioinformacijos duomenų valdymas

TurinysBiochem. duomenų charakteristikosBioinformatikos duomenų bazės (DB)Duomenų formataiDuomenų integravimasDB architektūros

Bioinformatika (B110M100) 2

Page 3: Bioinformacijos duomenų valdymas

ProblemaDuomenų organizavimas

Milžiniška duomenų gausybė yra naudinga tik tuomet, jei bus sukurti ir efektyviai naudojami modernūs duomenų paieškos ir apdorojimo įrankiai ir algoritmai

Didžiulių duomenų kiekių skaitmeninis kodavimas, indeksavimas, paieška reikalauja ypač gerų ITžinių ir įgūdžių

IT, ypač internetas, yra naudojamos bioinformacinių duomenų, kurie vėliau yra analizuojami taikant matematinius ir statistinius metodus, rinkimui, saugojimui, platinimui, priėjimui ir naudojimui

Bioinformatika naudoja taikomąsias kompiuterines programas kaip įrankius duomenų bazių kūrimui, informacijos organizavimui ir valdymui, saugojimui ir integravimui, reikalingų bioinformacinių duomenų paieškai, analizei ir vizualizavimui

Bioinformatika (B110M100) 3

Page 4: Bioinformacijos duomenų valdymas

Biocheminių duomenų požymiai (1)Sudėtingumas

saugomos didelės sudėtingos duomenų struktūros

Autonomiškumas naudojamos silpnai susijusios duomenų bazės su

intenetine sąsaja, kiekviena turi savo struktūrą ir valdoma atskirai. Daugelis duomenų bazių yra pasenusios ir visai nestruktūrizuotos

Heterogeniniai duomenų formatai duomenys gali būti saugomi paprastuose duomenų

failuose (tekstiniuose, XML, dvejetainiuose), komercinėse struktūrizuotose (reliacinėse) duomenų bazėse arba įprastinėse skaičiuoklėse

Bioinformatika (B110M100) 4

Page 5: Bioinformacijos duomenų valdymas

Biocheminių duomenų požymiai (2)Semantinis heterogeniškumas

Duomenų šaltiniai nesuderinami semantiniame lygmenyje, neturi meta-duomenų aprašo, saugomi panašūs arba persidengiantys duomenys, kurių semantinės apibrėžtys nesutampa.

Dinamiškumas Duomenys nuolat keičiasi, papildomi naujų tyrimų rezultatais.

Keičiasi tiek duomenų bazių turinys, tiek struktūra. Pasirodo naujos duomenų bazės, o kai kurios senos duomenų bazės išnyksta

Duomenų tipų įvairovė simbolių eilutės tipo nukleotidų sekos, matricos tipo genų

išraiškos rezultatai, paveikslėlio tipo mikromatricos duomenys

Eksponentinis duomenų augimas Bioinformatika (B110M100) 5

Page 6: Bioinformacijos duomenų valdymas

Pagrindinės duomenų organizavimo problemosDuomenų šaltinių semantika, sąsajos ir duomenų

formatai skiriasiDuomenų bazės buvo kuriamos nepriklausomai, todėl jų

valdymo sistemos ir duomenų formatai labai skiriasi. Daugiausiai dėmesio skiriama duomenų organizavimo

problemoms ir vartotojo sąsajoms tobulintiMažai dėmesio skiriama duomenų valdymo problemoms,

užklausų kalbų tobulinimui, duomenų bazių optimizavimui ir priežiūrai

Duomenų integracijaTikslas: paversti sudėtingus ir heterogeninius

laboratorinių tyrimų duomenis į naudingą, gerai sutvarkytą informaciją ir toliau į sistematizuotas žinias

Bioinformatika (B110M100) 6

Page 7: Bioinformacijos duomenų valdymas

Bioinformatikos poreikiai duomenų valdymuiPriėjimas prie naujausių biologinių duomenų ir

galimybė surasti reikiamą informaciją atliekant sudėtingas užklausas daugelyje heterogeninių duomenų bazių

Priėjimas prie geriausių duomenų analizės įrankių ir algoritmų skirtų naudingos informacijos išgavimui iš didelio kiekio heterogeninių biologinių duomenų.

Informacijos integravimo architektūra, kuri apjungia įvairius darbo su duomenimis etapus, įskaitant duomenų bazių užklausas, skaičiavimo algoritmus ir taikomąją programinę įrangą

Bioinformatika (B110M100) 7

Page 8: Bioinformacijos duomenų valdymas

Bioinformacinių duomenų bazės (1)Duomenų bazė: organizuotas (sutvarkytas)

duomenų rinkinys, kuriuo galima individualiai naudotis elektroniniu ar kitu būduGali būti vienas failas, talpinantis daug įrašų, kurių

kiekvienas turi tokią pačią informacijos struktūrąDažniausiai susietos su specialia programa (Duomenų

bazių valdymo sistema - DBVS) skirta atnaujinti, ieškoti ir atrinkti saugomus duomenis

Bioinformatika (B110M100) 8

Page 9: Bioinformacijos duomenų valdymas

Bioinformacinių duomenų bazės (2)2006 m. duomenimis yra žinoma virš 1000

bioinformacinių duomenų bazių, kuriuose pateikiami genomikos ir proteomikos duomenys, genų nukleotidų sekos, baltymų amino rūgščių sekos, informacija apie genų funkciją, struktūrą ir vietą

chromosomoje, klinikiniai mutacijų rezultatai,panašumus į kitas biomolekulinės sekas.

Bioinformatika (B110M100) 9

Page 10: Bioinformacijos duomenų valdymas

Reikalavimai duomenų bazėmsKuo paprastesnis kreipimasis (sąsaja) į

duomenų bazęTuri būti realizuotas metodas, kuris atrinktų

geriausią informaciją į vartotojo (specifinius) užklausimus.

Bioinformatika (B110M100) 10

Page 11: Bioinformacijos duomenų valdymas

Bioinformacinių duomenų bazių tipaiViešos ir privačios (tarnybinės stotys, paieškos

programos, bioinformatikos įrankiai)Pirminės (saugomi „žali“ duomenys) ir antrinės

(saugoma informacija gauta apdorojant „žalius“ duomenis)

Nesidubliuojančios (saugo tik skirtingus duomenų įrašus)

Makromolekulių (DNR sekos, amino rūgščių sekos, baltymų trimatės struktūros) ir mažų molekulių

Orientuotos tekstui (bibliografinės (straipsnių), taksonominės)

Bioinformatika (B110M100) 11

Page 12: Bioinformacijos duomenų valdymas

Duomenų bazės (1)Nukleorūgščių (DNR, RNR) sekų bankai -

saugoma visa šiuo metu turima informacija apie gyvųjų organizmų biomolekulinės sekas.

Genomų sekų bankai.Baltymų sekų bankai.Genomo naršyklės – leidžia peržiūrėti anotuotus

genų prognozavimo ir struktūros, baltymų, ir lyginamosios analizės duomenis.

Specializuotos duomenų bazės.

Bioinformatika (B110M100) 12

Page 13: Bioinformacijos duomenų valdymas

Duomenų bazės (2)Metabolinių kelių duomenų bazės.Baltymų struktūros duomenų bazės.Mikromatricų duomenų bazės.Baltymų-baltymų sąveikos duomenų bazės.Metaduomenų bazės yra duomenų bazės, kurios

renka informaciją iš įvairių šaltinių ir pateikia ja patogesne forma.

Bioinformatika (B110M100) 13

Page 14: Bioinformacijos duomenų valdymas

Duomenų formataiAmino rūgščių sekos, baltymų struktūros

paveikslėliai, trimačių struktūrų skirtingi vaizdai ir baltymų hidrofobiškumo duomenys, ir kt.

Nukleotidų arba amino rūgščių sekų formataiKiekviena seka simbolizuoja atitinkamai tam tikrą geną

ar baltymą. Sekos sudaromos naudojant vienos raidės pažymėjimus. Tai sumažina saugomos informacijos kiekį ir pagreitina

sekos analizę.

Bioinformatika (B110M100) 14

Page 15: Bioinformacijos duomenų valdymas

Nukleotidų sekų DB įrašasRyšio tipasĮvesties seka, kartu su molekulės tipo

aprašymuŠaltinio (organizmo), iš kurio ji buvo išskirta

mokslinis pavadinimasLiteratūros nuorodos apie seką

Bioinformatika (B110M100) 15

Page 16: Bioinformacijos duomenų valdymas

FASTA duomenų formatasTekstinis duomenų formatas skirtas

nukleorūgščių sekų arba baltymų sekų atvaizdavimui. Seka prasideda aprašymo eilute (prasideda „>“

simboliu). Pirmas žodis po „>“ simbolio yra sekos pavadinimas. Toliau eilutėje yra sekos aprašymas (nebūtinas). Sekančiose eilutėse pateikiama pati seka. Nukleotidai ir amino rūgštys yra žymimos vienos raidės

kodu. Sekos pabaiga laikomas kitas „>“ simbolis. Komentarų eilutės pradedamos kabliataškio (;) simboliu. Eilučių ilgis turi neviršyti 80 simbolių.

Bioinformatika (B110M100) 16

Page 17: Bioinformacijos duomenų valdymas

FASTA pranašumaiPranašumai:

PaprastumasDuomenų apdorojimui galima naudoti teksto

apdorojimo įrankius ir scenarijų kalbas, pvz., Perl.

Bioinformatika (B110M100) 17

Page 18: Bioinformacijos duomenų valdymas

FASTA: pavyzdys

Bioinformatika (B110M100) 18

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] ;komentarai LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Page 19: Bioinformacijos duomenų valdymas

FASTA aprašymo eilutės standartai

Bioinformatika (B110M100) 19

GenBank gi|gi-number|gb|accession|locus EMBL Data Library gi|gi-number|emb|accession|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|name Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE Patents pat|country|number GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier NCBI Reference Sequence ref|accession|locus Local Sequence identifier lcl|identifier

Page 20: Bioinformacijos duomenų valdymas

FASTA sekos užrašymo formatasSekos yra užrašomos naudojant standartinius

IUB/IUPAC amino rūgščių ir nukleorūgščių kodus su šiomis išimtimis:mažosios raidės taip pat naudojamos;minusas (-) reiškia spragą (praleidimą) sekoje;žvaigždutė (*) reiškia transliavimo pabaigą;X reiškia bet kokią amino rūgštį;skaičiai kai kuriuose duomenų bazėse

naudojami vietai sekoje parodyti.

Bioinformatika (B110M100) 20

Page 21: Bioinformacijos duomenų valdymas

FASTA formato nukleorūgščių kodaiNukleorūgšties kodas Reikšmė

A AdeninasC CitozinasG GuaninasT TiminasU UracilasR G arba A (purino funkcinė grupė)Y T arba C (pirimidino funkcinė grupė)K G arba T (ketono funkcinė grupė)M A arba C (amino funkcinė grupė)S G arba C (stiprus ryšys)W A arba T (silpnas ryšys)B G arba T arba C (ne A)D G arba A arba T (ne C)H A arba C arba T (ne G)V G arba C arba A (ne T, ne U)N A arba G arba C arba T (bet koks)- nenustatyto ilgio spraga

Bioinformatika (B110M100) 21

Page 22: Bioinformacijos duomenų valdymas

FASTA formato amino rūgščių kodaiAmino rūgšties

kodasReikšmė

A AlaninasB Asparto rūgštis arba AsparaginasC CisteinasD Asparto rūgštisE Glutamo rūgštisF FenilalaninasG GlicinasH HistidinasI IzoleucinasK LizinasL LiucinasM MetioninasN AsparaginasP ProlinasQ GlutaminasR ArgininasS SerinasT TreoninasU SelenocisteinasV ValinasW TriptofanasY TirozinasZ Glutamo rūgštis arba glutaminasX Bet kokia* Transliavimo pabaiga- Nenustatyto ilgio spraga

Bioinformatika (B110M100) 22

Page 23: Bioinformacijos duomenų valdymas

Kiti duomenų formataiEMBLGCGGCG-RSFGenBankIGGenomatix

Bioinformatika (B110M100) 23

Page 24: Bioinformacijos duomenų valdymas

EMBL formatasFaile gali būti kelios sekosSekos aprašas pradedamas žodžiu ID, po

kurio eina sekos aprašasSeka pradedama eilute, kuri prasideda žodžiu

SQ.Sekos pabaiga žymima //

Bioinformatika (B110M100) 24

Page 25: Bioinformacijos duomenų valdymas

EMBL formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.

XX

AC AB000263;

XX

DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.

XX

SQ Sequence 368 BP;

acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 60

ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120

caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180

aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240

gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300

agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360

gacctgaa 368

//

Bioinformatika (B110M100) 25

Page 26: Bioinformacijos duomenų valdymas

GCG formatasPanašus į EMBL formatąSekos pradžia žymima dvejais taškais “..”Taip pat pateikiamas sekos numeris, sekos

ilgis ir kontrolinė suma

Bioinformatika (B110M100) 26

Page 27: Bioinformacijos duomenų valdymas

GCG formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.

XX

AC AB000263;

XX

DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.

XX

SQ Sequence 368 BP;

AB000263 Length: 368 Check: 4514 ..

1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg

61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg

121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc

181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag

241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga

301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca

361 gacctgaa

Bioinformatika (B110M100) 27

Page 28: Bioinformacijos duomenų valdymas

GenBank formatasFaile gali būti kelios sekosSekos aprašymas pradedamas žodžiu LOCUS, po

kurio pateikiamas sekos numeris, ilgis, tipas ir registravimo data

Po žodžio DEFINITION pateikiamas aprašymas natūralia kalba

Po žodžio ACCESSION – prieigos numeris duomenų bazėje

Seka pradedama žodžiu ORIGIN ir baigiama //

Bioinformatika (B110M100) 28

Page 29: Bioinformacijos duomenų valdymas

GENBank formato pavyzdysLOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999

DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete

cds.

ACCESSION AB000263

ORIGIN

1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg

61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg

121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc

181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag

241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga

301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca

361 gacctgaa

//

Bioinformatika (B110M100) 29

Page 30: Bioinformacijos duomenų valdymas

IG formatasViename faile gali būti kelios sekosKomentarų eilutės pradedamos kabliataškiu

“;”Seka pradedama sekos numeriuSeka baigiama skaitmeniu 1 arba 2

Bioinformatika (B110M100) 30

Page 31: Bioinformacijos duomenų valdymas

IG formato pavyzdys; komentaras

AB000263

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC

CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC

CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG

AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC

CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG

TTTAATTACAGACCTGAA1

Bioinformatika (B110M100) 31

Page 32: Bioinformacijos duomenų valdymas

Bioinformatikos duomenų integravimo sprendimai (1)I karta – mažos, greitai sukurtos programėlės

skirtos duomenų konvertavimui iš vieno formato į kitą. Įrankiai: Perl ir kitos panašios scenarijų kalbos.

Trūkumai: blogai pritaikomos prie kito kontekstoreikia žinoti DB struktūrą ir duomenų formatusneefektyvu ir nepritaikoma dideliam kiekiui

duomenų šaltinių DB pakeitus savo duomenų formatą reikia perrašyti

visas šį formatą naudojančias programas

Bioinformatika (B110M100) 32

Page 33: Bioinformacijos duomenų valdymas

Bioinformatikos duomenų integravimo sprendimai (2)II karta – duomenų integravimo architektūros.

Skirstomos į tris kategorijas: duomenų saugyklos, paskirstytos (federacinės) duomenų bazės, tarpininko architektūra.

Pranašumai: struktūrizuota aplinka, lankstus ir priderinamas duomenų integravimas

Bioinformatika (B110M100) 33

Page 34: Bioinformacijos duomenų valdymas

Reikalavimai duomenų integravimo sistemaiReikiamų duomenų parsiuntimas iš daugelio

atskirų duomenų šaltiniųParsiųstų duomenų transformavimas į

integravimui tinkamą duomenų modelįDuomenų modelis skirtas integruotų duomenų

objektų pateikimui galutiniams vartotojamsAukšto lygmens kalba skirta sudėtingų užklausų

daugeliui duomenų šaltinių formulavimui ir duomenų transformavimo užduotims atlikti

Užklausų optimizavimo valdymas

Bioinformatika (B110M100) 34

Page 35: Bioinformacijos duomenų valdymas

Duomenų integravimo sprendimai (1)Priėjimas prie duomenų:

per užklausas (papildomai atliekamos duomenų transformacijos)

naršant (tik suradimas ir parsiuntimas)Priėjimo realizavimas:

deklaratyvusprocedūrinis

Priėjimo kodas: bendrinisatskirai programuojamas kiekvienam duomenų šaltiniui

Bioinformatika (B110M100) 35

Page 36: Bioinformacijos duomenų valdymas

Duomenų integravimo sprendimai (2)Sprendžiama problema:

semantinis heterogeniškumas (skirtinga prasmė) sintaksinis heterogeniškumas (skirtingi formatai)

Integravimo modelis: duomenų saugyklos federacinis

Duomenų modelis: reliacinisnereliacinis

Bioinformatika (B110M100) 36

Page 37: Bioinformacijos duomenų valdymas

Duomenų saugyklosNaudojant duomenų saugyklomis grįstą

duomenų integravimo metodą, duomenų šaltiniai yra integruojami į centralizuotą sistemą su globalia duomenų schema (duomenų schema aprašo

duomenų bazėje saugomų duomenų komponentus ir ryšius tarp jų) ir

indeksavimo sistema, skirta duomenų paieškai ir atrinkimui.

Populiariausių duomenų saugyklų valdymui naudojamos reliacinės duomenų bazių valdymo sistemosReliacinis – pagrįstas lentelėmis

Bioinformatika (B110M100) 37

Page 38: Bioinformacijos duomenų valdymas

Reliacinės duomenų bazių valdymo sistemos (DBVS)Naudoja standartinę užklausų sudarymo kalbą

SQL Užklausų konvertavimą ir gautų rezultatų

integravimą atlieka įvyniojimo komponentai (wrappers)

Pranašumai: didelė branda, patikimumas, struktūriškumas, paprasta priežiūra, duomenys lengvai prieinami be interneto delsos arba

tinklo pralaidumo apribojimų.

Bioinformatika (B110M100) 38

Page 39: Bioinformacijos duomenų valdymas

Reliacinės duomenų bazių valdymo sistemos (DBVS)Trūkumai:

Dideli duomenų saugojimo, priežiūros ir atnaujinimo kaštai.

Prieš įvedant duomenis reikia atlikti kruopščią jų peržiūrą, kad išvengti galimų duomenų klaidų, pasikartojimų arba semantinio nesuderinamumo

Sudėtingiems duomenis atvaizduoti geriau tinka hierarchiniai nereliaciniai modeliai, pvz., lizdiniai modeliai

Bioinformatika (B110M100) 39

Page 40: Bioinformacijos duomenų valdymas

Pagr. duomenų saugyklų bruožaiOrientuotos į konkrečia sritį.Kinta laike

duomenys turi būti reguliariai atnaujinami.Statiniai duomenys

duomenys niekada neištrinami arba perrašomi.Integruoti duomenys

apjungiami visi tam tikros srities duomenys.

Bioinformatika (B110M100) 40

Page 41: Bioinformacijos duomenų valdymas

Duomenų saugyklos architektūra

Bioinformatika (B110M100) 41

Page 42: Bioinformacijos duomenų valdymas

Duomenų saugyklų įvertinimas (1)Pranašumai:

Galimybė filtruoti duomenis, kadangi duomenų saugykloje yra sukuriama ir saugoma nepriklausoma duomenų kopija

Galima pagerinti duomenų struktūrąDuomenų užklausos vykdomos greičiau, kadangi visi

duomenys yra vienoje vietojeInterneto tinklai apkraunami tik atliekant duomenų

atnaujinimą Duomenų šaltinių pasikeitimai tiesiogiai neįtakoja

duomenų saugyklos prieinamumo

Bioinformatika (B110M100) 42

Page 43: Bioinformacijos duomenų valdymas

Duomenų saugyklų įvertinimas (2)Trūkumai:

daug resursų reikalaujanti priežiūra, kadangi reikia palaikyti nufiltruotą ir transformuotą nutolusių duomenų šaltinių duomenų kopiją

Duomenys turi būti atnaujinami pakankamai dažnai, kad užtikrinti vartotojų priėjimą prie naujausių duomenų

Naujo duomenų šaltinio pridėjimas reikalauja daug duomenų persiuntimo, apdorojimo ir priežiūros darbo, todėl šis metodas realiai naudojamas tik nedidelio skaičiaus duomenų šaltinių, kurie keičiasi retai, integravimui

Bioinformatika (B110M100) 43

Page 44: Bioinformacijos duomenų valdymas

Paskirstytos (federacinės) DBMeta DB, kuri logiškai apjungia daug DB į federacinę DBResursai apjungiami logiškai ir gali apimti paprastus

tekstinius failus, skaičiuokles, ir duomenų analizės įrankius Suteikia savo vartotojams vieningą sąsają, per kurią

vartotojai gali ieškoti ir parsisiųsti duomenis iš atskirų DB Nereikia centralizuotos DB, todėl duomenų šaltiniai išlieka

autonominiai Bendras duomenų modelis ir schemų atvaizdavimo

taisyklėsSkirtingus schemos komponentus valdo duomenų žodynas Heterogeninių duomenų šaltinių integravimui dažnai

naudojamas ne reliacinis, o objektinis modelis

Bioinformatika (B110M100) 44

Page 45: Bioinformacijos duomenų valdymas

Federacinės DB tipinė architektūra

Bioinformatika (B110M100) 45

Nutolę duomenų šaltiniai

Nutolusių šaltinių sąsajos

Tarpininkai Centrinis federacijos valdymas

Bioinformatikos analizės įrankiai

Viešos/privačios duomenų bazės

Genomikos duomenų bazės

Proteomikos duomenų bazės

Literatūros duomenų bazės

Kitos duomenų bazės

Vidinės ir eksportavimo

schemos

Vidinės ir eksportavimo

schemos

Vidinės ir eksportavimo

schemos

Vidinės ir eksportavimo

schemos

Vidinės ir eksportavimo

schemos

Tekstiniai ir skaičiuoklių failai

Laboratorijų informacijos valdymo

sistemos

Tarpininkai Centrinė federacijos

duomenų bazė

Federacijos valdymo sistema

Federacijos valdymo sistema

Federacijos valdymo sistema

Federacijos valdymo sistema

Federacijos valdymo sistema

Page 46: Bioinformacijos duomenų valdymas

Pagrindiniai federacinių sistemų bruožaiAutonominiai duomenų šaltiniai.Heterogeniniai duomenų šaltiniai.Nutolę duomenų šaltiniai.Duomenų šaltiniai valdomi nepriklausomai

vienas nuo kito.Duomenys integuojami logiškai (ne fiziškai).Vieninga vartotojo sąsaja.

Bioinformatika (B110M100) 46

Page 47: Bioinformacijos duomenų valdymas

Federacinės DB problemos (1)Užklausų charakteristikos

Užklausos apdorojimo greitis ne didesnis kaip lėčiausios DB užklausos apdorojimo greitis.

Priklausomybė nuo autonominių duomenų šaltiniųDuomenų šaltiniai keičiasi greitai ir nenuspėjamai. Federacinės

DBVS turi greitai reaguoti į tuos pasikeitimusAugimas

Pridedant naujus duomenų šaltinius federacinės DB architektūra tampa sudetingesnė, išauga tinklo apkrova, atsiranda duomenų integravimo problemų, mažėja užklausos apdorojimo greitis.

KaštaiNaudojant federacinę DB sutaupoma nemažai kaštų, nes

nereikia sukurti atskiros duomenų saugyklos ir jos valdymo sistemos

Bioinformatika (B110M100) 47

Page 48: Bioinformacijos duomenų valdymas

Federacinės DB problemos (2)Duomenų naujumas

Nedelsiant prieinami visi nauji duomenys iš nutolusių duomenų bazių, todėl vartotojai gali laiku gauti visus naujausius duomenis.

Schemų evoliucijaDuomenų šaltinių duomenų schemos gali be jokio įspėjimo

pasikeisti, todėl DB priežiūros personalas turi greitai aptikti ir reaguoti į tokius pasikeitimus.

Techniniai sugebėjimaiPriklausomai nuo architektūros apimties ir sudėtingumo, jos

sukūrimui ir priežiūrai reikia daug techninių žiniųDuomenų dubliavimasis

Sumažina duomenų dubliavimą. Duomenys nėra kopijuojami ir saugomi atskirai, o tik integruojami ir perduodami vartotojui

Bioinformatika (B110M100) 48

Page 49: Bioinformacijos duomenų valdymas

Federacinių DB įvertinimasPranašumai:

Užtikrinamas priėjimas prie pačių naujausių duomenų Naujo duomenų šaltinio pridėjimas ir priežiūra

nereikalauja daug darbo, todėl šis metodas gali būti naudojamas didelio skaičiaus duomenų šaltinių apjungimui

Gali būti naudojama duomenų šaltinių, kurių duomenų negalima lengvai nukopijuoti į duomenų saugyklą (pvz., interneto puslapių), apjungimui

Nereikia modifikuoti pirminėse DB saugomų duomenų.Pagrindinis trūkumas:

užklausų apdorojimas, kai kurie federacijos nariai neprieinami

Bioinformatika (B110M100) 49

Page 50: Bioinformacijos duomenų valdymas

Tarpininko architektūraNaudoja tarpinį apdorojimo lygmenį, kuris atskiria

heterogeninius paskirstytus duomenų šaltinius ir vartotojo lygmenį

Tarpininko lygmenį sudaro komponentai, kurių vienintelis tikslas yra atlikti duomenų transformavimą ir integravimą

Integravimo sistema turi turėti bendrą duomenų modelį, kuris turi apimti įvairius duomenų formatus (tekstinius, XML, HTML) ir duomenų modelius (reliacinis, objektinis, lizdinis)

Be integravimo funkcijos, tarpininko lygmuo atlieka filtravimo, metaduomenų tvarkymo, semantinio nesuderinamumo išsprendimo funkcijas

Bioinformatika (B110M100) 50

Page 51: Bioinformacijos duomenų valdymas

Bioinformatika (B110M100) 51

Grafinė vartotojo sąsaja

Vartotojo užklausos Užklausų rezultatai

Integravimo schema

Nutolusios schemos ir

apribojimai

Schemos kompiliatorius

Metaduomenys Komandų prastinimo, perrašymo ir optimizavimo modulis

Apribojimų kompiliatorius

Komandos

Užklausų skirstytuvas

Kodo generatorius I Kodo generatorius II

Užklausa 1 Užklausa 2 Užklausa 3

DB1 DB2 DB3

Užklausų transliatorius Ia Užklausų transliatorius IIa

Užklausų transliatorius Ib Užklausų transliatorius IIb

Rezultatai 1 Rezultatai 2 Rezultatai 3

Rezultatų suliejiklis

Analizatorius

Optimizuotos komandos

Komanda 1 Komanda 2

Page 52: Bioinformacijos duomenų valdymas

Tarpininko komponentaiParseris (sintaksės analizatorius) naudojamas

užklausų skaitymui ir interpretavimui.Komandų prastinimo, perrašymo ir optimizavimo

modulis atlieka užklausos optimizavimą.Užklausų skirstytuvas atlieka užklausų paskirstymą

nutolusioms duomenų bazėms.Kodo generatorius generuoja naujas užklausas.Transliatoriai realizuoja bendravimą su išoriniais

duomenų šaltiniais.Rezultatų suliejiklis apjungia ir sinchronizuoja iš

išorinių duomenų bazių gaunamus rezultatus.

Bioinformatika (B110M100) 52

Page 53: Bioinformacijos duomenų valdymas

Tarpininko architektūros įvertinimasTarpininko architektūros pranašumai:

Lankstumas, priderinamumas, moduliškumas. Heterogeniniai ir dažnai besikeičiantys

duomenų šaltiniai yra atskiriami nuo galutinio vartotojo.

Įvyniojimo komponentai leidžia lengvai priimti duomenų schemų pasikeitimus.

Lengva papildyti sistemą naujais duomenų šaltiniais.

Bioinformatika (B110M100) 53