Bioinformacijos duomenų valdymas

Doc. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-415Email: [email protected]

TurinysBiochem. duomenų charakteristikosBioinformatikos duomenų bazės (DB)Duomenų formataiDuomenų integravimasDB architektūros

Bioinformatika (B110M100) 2

ProblemaDuomenų organizavimas

Milžiniška duomenų gausybė yra naudinga tik tuomet, jei bus sukurti ir efektyviai naudojami modernūs duomenų paieškos ir apdorojimo įrankiai ir algoritmai

Didžiulių duomenų kiekių skaitmeninis kodavimas, indeksavimas, paieška reikalauja ypač gerų ITžinių ir įgūdžių

IT, ypač internetas, yra naudojamos bioinformacinių duomenų, kurie vėliau yra analizuojami taikant matematinius ir statistinius metodus, rinkimui, saugojimui, platinimui, priėjimui ir naudojimui

Bioinformatika naudoja taikomąsias kompiuterines programas kaip įrankius duomenų bazių kūrimui, informacijos organizavimui ir valdymui, saugojimui ir integravimui, reikalingų bioinformacinių duomenų paieškai, analizei ir vizualizavimui


Biocheminių duomenų požymiai (1)Sudėtingumas

saugomos didelės sudėtingos duomenų struktūros

Autonomiškumas naudojamos silpnai susijusios duomenų bazės su

intenetine sąsaja, kiekviena turi savo struktūrą ir valdoma atskirai. Daugelis duomenų bazių yra pasenusios ir visai nestruktūrizuotos

Heterogeniniai duomenų formatai duomenys gali būti saugomi paprastuose duomenų

failuose (tekstiniuose, XML, dvejetainiuose), komercinėse struktūrizuotose (reliacinėse) duomenų bazėse arba įprastinėse skaičiuoklėse


Biocheminių duomenų požymiai (2)Semantinis heterogeniškumas

Duomenų šaltiniai nesuderinami semantiniame lygmenyje, neturi meta-duomenų aprašo, saugomi panašūs arba persidengiantys duomenys, kurių semantinės apibrėžtys nesutampa.

Dinamiškumas Duomenys nuolat keičiasi, papildomi naujų tyrimų rezultatais.

Keičiasi tiek duomenų bazių turinys, tiek struktūra. Pasirodo naujos duomenų bazės, o kai kurios senos duomenų bazės išnyksta

Duomenų tipų įvairovė simbolių eilutės tipo nukleotidų sekos, matricos tipo genų

išraiškos rezultatai, paveikslėlio tipo mikromatricos duomenys

Eksponentinis duomenų augimas Bioinformatika (B110M100) 5

Pagrindinės duomenų organizavimo problemosDuomenų šaltinių semantika, sąsajos ir duomenų

formatai skiriasiDuomenų bazės buvo kuriamos nepriklausomai, todėl jų

valdymo sistemos ir duomenų formatai labai skiriasi. Daugiausiai dėmesio skiriama duomenų organizavimo

problemoms ir vartotojo sąsajoms tobulintiMažai dėmesio skiriama duomenų valdymo problemoms,

užklausų kalbų tobulinimui, duomenų bazių optimizavimui ir priežiūrai

Duomenų integracijaTikslas: paversti sudėtingus ir heterogeninius

laboratorinių tyrimų duomenis į naudingą, gerai sutvarkytą informaciją ir toliau į sistematizuotas žinias


Bioinformatikos poreikiai duomenų valdymuiPriėjimas prie naujausių biologinių duomenų ir

galimybė surasti reikiamą informaciją atliekant sudėtingas užklausas daugelyje heterogeninių duomenų bazių

Priėjimas prie geriausių duomenų analizės įrankių ir algoritmų skirtų naudingos informacijos išgavimui iš didelio kiekio heterogeninių biologinių duomenų.

Informacijos integravimo architektūra, kuri apjungia įvairius darbo su duomenimis etapus, įskaitant duomenų bazių užklausas, skaičiavimo algoritmus ir taikomąją programinę įrangą


Bioinformacinių duomenų bazės (1)Duomenų bazė: organizuotas (sutvarkytas)

duomenų rinkinys, kuriuo galima individualiai naudotis elektroniniu ar kitu būduGali būti vienas failas, talpinantis daug įrašų, kurių

kiekvienas turi tokią pačią informacijos struktūrąDažniausiai susietos su specialia programa (Duomenų

bazių valdymo sistema - DBVS) skirta atnaujinti, ieškoti ir atrinkti saugomus duomenis


Bioinformacinių duomenų bazės (2)2006 m. duomenimis yra žinoma virš 1000

bioinformacinių duomenų bazių, kuriuose pateikiami genomikos ir proteomikos duomenys, genų nukleotidų sekos, baltymų amino rūgščių sekos, informacija apie genų funkciją, struktūrą ir vietą

chromosomoje, klinikiniai mutacijų rezultatai,panašumus į kitas biomolekulinės sekas.


Reikalavimai duomenų bazėmsKuo paprastesnis kreipimasis (sąsaja) į

duomenų bazęTuri būti realizuotas metodas, kuris atrinktų

geriausią informaciją į vartotojo (specifinius) užklausimus.


Bioinformacinių duomenų bazių tipaiViešos ir privačios (tarnybinės stotys, paieškos

programos, bioinformatikos įrankiai)Pirminės (saugomi „žali“ duomenys) ir antrinės

(saugoma informacija gauta apdorojant „žalius“ duomenis)

Nesidubliuojančios (saugo tik skirtingus duomenų įrašus)

Makromolekulių (DNR sekos, amino rūgščių sekos, baltymų trimatės struktūros) ir mažų molekulių

Orientuotos tekstui (bibliografinės (straipsnių), taksonominės)


Duomenų bazės (1)Nukleorūgščių (DNR, RNR) sekų bankai -

saugoma visa šiuo metu turima informacija apie gyvųjų organizmų biomolekulinės sekas.

Genomų sekų bankai.Baltymų sekų bankai.Genomo naršyklės – leidžia peržiūrėti anotuotus

genų prognozavimo ir struktūros, baltymų, ir lyginamosios analizės duomenis.

Specializuotos duomenų bazės.


Duomenų bazės (2)Metabolinių kelių duomenų bazės.Baltymų struktūros duomenų bazės.Mikromatricų duomenų bazės.Baltymų-baltymų sąveikos duomenų bazės.Metaduomenų bazės yra duomenų bazės, kurios

renka informaciją iš įvairių šaltinių ir pateikia ja patogesne forma.


Duomenų formataiAmino rūgščių sekos, baltymų struktūros

paveikslėliai, trimačių struktūrų skirtingi vaizdai ir baltymų hidrofobiškumo duomenys, ir kt.

Nukleotidų arba amino rūgščių sekų formataiKiekviena seka simbolizuoja atitinkamai tam tikrą geną

ar baltymą. Sekos sudaromos naudojant vienos raidės pažymėjimus. Tai sumažina saugomos informacijos kiekį ir pagreitina

sekos analizę.


Nukleotidų sekų DB įrašasRyšio tipasĮvesties seka, kartu su molekulės tipo

aprašymuŠaltinio (organizmo), iš kurio ji buvo išskirta

mokslinis pavadinimasLiteratūros nuorodos apie seką


FASTA duomenų formatasTekstinis duomenų formatas skirtas

nukleorūgščių sekų arba baltymų sekų atvaizdavimui. Seka prasideda aprašymo eilute (prasideda „>“

simboliu). Pirmas žodis po „>“ simbolio yra sekos pavadinimas. Toliau eilutėje yra sekos aprašymas (nebūtinas). Sekančiose eilutėse pateikiama pati seka. Nukleotidai ir amino rūgštys yra žymimos vienos raidės

kodu. Sekos pabaiga laikomas kitas „>“ simbolis. Komentarų eilutės pradedamos kabliataškio (;) simboliu. Eilučių ilgis turi neviršyti 80 simbolių.


FASTA pranašumaiPranašumai:

PaprastumasDuomenų apdorojimui galima naudoti teksto

apdorojimo įrankius ir scenarijų kalbas, pvz., Perl.


FASTA: pavyzdys


>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] ;komentarai LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

FASTA aprašymo eilutės standartai


GenBank gi|gi-number|gb|accession|locus EMBL Data Library gi|gi-number|emb|accession|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|name Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE Patents pat|country|number GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier NCBI Reference Sequence ref|accession|locus Local Sequence identifier lcl|identifier

FASTA sekos užrašymo formatasSekos yra užrašomos naudojant standartinius

IUB/IUPAC amino rūgščių ir nukleorūgščių kodus su šiomis išimtimis:mažosios raidės taip pat naudojamos;minusas (-) reiškia spragą (praleidimą) sekoje;žvaigždutė (*) reiškia transliavimo pabaigą;X reiškia bet kokią amino rūgštį;skaičiai kai kuriuose duomenų bazėse

naudojami vietai sekoje parodyti.


FASTA formato nukleorūgščių kodaiNukleorūgšties kodas Reikšmė

A AdeninasC CitozinasG GuaninasT TiminasU UracilasR G arba A (purino funkcinė grupė)Y T arba C (pirimidino funkcinė grupė)K G arba T (ketono funkcinė grupė)M A arba C (amino funkcinė grupė)S G arba C (stiprus ryšys)W A arba T (silpnas ryšys)B G arba T arba C (ne A)D G arba A arba T (ne C)H A arba C arba T (ne G)V G arba C arba A (ne T, ne U)N A arba G arba C arba T (bet koks)- nenustatyto ilgio spraga


FASTA formato amino rūgščių kodaiAmino rūgšties

kodasReikšmė

A AlaninasB Asparto rūgštis arba AsparaginasC CisteinasD Asparto rūgštisE Glutamo rūgštisF FenilalaninasG GlicinasH HistidinasI IzoleucinasK LizinasL LiucinasM MetioninasN AsparaginasP ProlinasQ GlutaminasR ArgininasS SerinasT TreoninasU SelenocisteinasV ValinasW TriptofanasY TirozinasZ Glutamo rūgštis arba glutaminasX Bet kokia* Transliavimo pabaiga- Nenustatyto ilgio spraga


Kiti duomenų formataiEMBLGCGGCG-RSFGenBankIGGenomatix


EMBL formatasFaile gali būti kelios sekosSekos aprašas pradedamas žodžiu ID, po

kurio eina sekos aprašasSeka pradedama eilute, kuri prasideda žodžiu

SQ.Sekos pabaiga žymima //


EMBL formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.

XX

AC AB000263;

XX

DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.

XX

SQ Sequence 368 BP;

acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 60

ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120

caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180

aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240

gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300

agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360

gacctgaa 368

//


GCG formatasPanašus į EMBL formatąSekos pradžia žymima dvejais taškais “..”Taip pat pateikiamas sekos numeris, sekos

ilgis ir kontrolinė suma


GCG formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.

XX

AC AB000263;

XX

DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.

XX

SQ Sequence 368 BP;

AB000263 Length: 368 Check: 4514 ..

1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg

61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg

121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc

181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag

241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga

301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca

361 gacctgaa


GenBank formatasFaile gali būti kelios sekosSekos aprašymas pradedamas žodžiu LOCUS, po

kurio pateikiamas sekos numeris, ilgis, tipas ir registravimo data

Po žodžio DEFINITION pateikiamas aprašymas natūralia kalba

Po žodžio ACCESSION – prieigos numeris duomenų bazėje

Seka pradedama žodžiu ORIGIN ir baigiama //


GENBank formato pavyzdysLOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999

DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete

cds.

ACCESSION AB000263

ORIGIN

1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg

61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg

121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc

181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag

241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga

301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca

361 gacctgaa

//


IG formatasViename faile gali būti kelios sekosKomentarų eilutės pradedamos kabliataškiu

“;”Seka pradedama sekos numeriuSeka baigiama skaitmeniu 1 arba 2


IG formato pavyzdys; komentaras

AB000263

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC

CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC

CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG

AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC

CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG

TTTAATTACAGACCTGAA1


Bioinformatikos duomenų integravimo sprendimai (1)I karta – mažos, greitai sukurtos programėlės

skirtos duomenų konvertavimui iš vieno formato į kitą. Įrankiai: Perl ir kitos panašios scenarijų kalbos.

Trūkumai: blogai pritaikomos prie kito kontekstoreikia žinoti DB struktūrą ir duomenų formatusneefektyvu ir nepritaikoma dideliam kiekiui

duomenų šaltinių DB pakeitus savo duomenų formatą reikia perrašyti

visas šį formatą naudojančias programas


Bioinformatikos duomenų integravimo sprendimai (2)II karta – duomenų integravimo architektūros.

Skirstomos į tris kategorijas: duomenų saugyklos, paskirstytos (federacinės) duomenų bazės, tarpininko architektūra.

Pranašumai: struktūrizuota aplinka, lankstus ir priderinamas duomenų integravimas


Reikalavimai duomenų integravimo sistemaiReikiamų duomenų parsiuntimas iš daugelio

atskirų duomenų šaltiniųParsiųstų duomenų transformavimas į

integravimui tinkamą duomenų modelįDuomenų modelis skirtas integruotų duomenų

objektų pateikimui galutiniams vartotojamsAukšto lygmens kalba skirta sudėtingų užklausų

daugeliui duomenų šaltinių formulavimui ir duomenų transformavimo užduotims atlikti

Užklausų optimizavimo valdymas


Duomenų integravimo sprendimai (1)Priėjimas prie duomenų:

per užklausas (papildomai atliekamos duomenų transformacijos)

naršant (tik suradimas ir parsiuntimas)Priėjimo realizavimas:

deklaratyvusprocedūrinis

Priėjimo kodas: bendrinisatskirai programuojamas kiekvienam duomenų šaltiniui


Duomenų integravimo sprendimai (2)Sprendžiama problema:

semantinis heterogeniškumas (skirtinga prasmė) sintaksinis heterogeniškumas (skirtingi formatai)

Integravimo modelis: duomenų saugyklos federacinis

Duomenų modelis: reliacinisnereliacinis


Duomenų saugyklosNaudojant duomenų saugyklomis grįstą

duomenų integravimo metodą, duomenų šaltiniai yra integruojami į centralizuotą sistemą su globalia duomenų schema (duomenų schema aprašo

duomenų bazėje saugomų duomenų komponentus ir ryšius tarp jų) ir

indeksavimo sistema, skirta duomenų paieškai ir atrinkimui.

Populiariausių duomenų saugyklų valdymui naudojamos reliacinės duomenų bazių valdymo sistemosReliacinis – pagrįstas lentelėmis


Reliacinės duomenų bazių valdymo sistemos (DBVS)Naudoja standartinę užklausų sudarymo kalbą

SQL Užklausų konvertavimą ir gautų rezultatų

integravimą atlieka įvyniojimo komponentai (wrappers)

Pranašumai: didelė branda, patikimumas, struktūriškumas, paprasta priežiūra, duomenys lengvai prieinami be interneto delsos arba

tinklo pralaidumo apribojimų.


Reliacinės duomenų bazių valdymo sistemos (DBVS)Trūkumai:

Dideli duomenų saugojimo, priežiūros ir atnaujinimo kaštai.

Prieš įvedant duomenis reikia atlikti kruopščią jų peržiūrą, kad išvengti galimų duomenų klaidų, pasikartojimų arba semantinio nesuderinamumo

Sudėtingiems duomenis atvaizduoti geriau tinka hierarchiniai nereliaciniai modeliai, pvz., lizdiniai modeliai


Pagr. duomenų saugyklų bruožaiOrientuotos į konkrečia sritį.Kinta laike

duomenys turi būti reguliariai atnaujinami.Statiniai duomenys

duomenys niekada neištrinami arba perrašomi.Integruoti duomenys

apjungiami visi tam tikros srities duomenys.


Duomenų saugyklos architektūra


Duomenų saugyklų įvertinimas (1)Pranašumai:

Galimybė filtruoti duomenis, kadangi duomenų saugykloje yra sukuriama ir saugoma nepriklausoma duomenų kopija

Galima pagerinti duomenų struktūrąDuomenų užklausos vykdomos greičiau, kadangi visi

duomenys yra vienoje vietojeInterneto tinklai apkraunami tik atliekant duomenų

atnaujinimą Duomenų šaltinių pasikeitimai tiesiogiai neįtakoja

duomenų saugyklos prieinamumo


Duomenų saugyklų įvertinimas (2)Trūkumai:

daug resursų reikalaujanti priežiūra, kadangi reikia palaikyti nufiltruotą ir transformuotą nutolusių duomenų šaltinių duomenų kopiją

Duomenys turi būti atnaujinami pakankamai dažnai, kad užtikrinti vartotojų priėjimą prie naujausių duomenų

Naujo duomenų šaltinio pridėjimas reikalauja daug duomenų persiuntimo, apdorojimo ir priežiūros darbo, todėl šis metodas realiai naudojamas tik nedidelio skaičiaus duomenų šaltinių, kurie keičiasi retai, integravimui


Paskirstytos (federacinės) DBMeta DB, kuri logiškai apjungia daug DB į federacinę DBResursai apjungiami logiškai ir gali apimti paprastus

tekstinius failus, skaičiuokles, ir duomenų analizės įrankius Suteikia savo vartotojams vieningą sąsają, per kurią

vartotojai gali ieškoti ir parsisiųsti duomenis iš atskirų DB Nereikia centralizuotos DB, todėl duomenų šaltiniai išlieka

autonominiai Bendras duomenų modelis ir schemų atvaizdavimo

taisyklėsSkirtingus schemos komponentus valdo duomenų žodynas Heterogeninių duomenų šaltinių integravimui dažnai

naudojamas ne reliacinis, o objektinis modelis


Federacinės DB tipinė architektūra


Nutolę duomenų šaltiniai

Nutolusių šaltinių sąsajos

Tarpininkai Centrinis federacijos valdymas

Bioinformatikos analizės įrankiai

Viešos/privačios duomenų bazės

Genomikos duomenų bazės

Proteomikos duomenų bazės

Literatūros duomenų bazės

Kitos duomenų bazės

Vidinės ir eksportavimo

schemos


schemos


schemos


schemos


schemos

Tekstiniai ir skaičiuoklių failai

Laboratorijų informacijos valdymo

sistemos

Tarpininkai Centrinė federacijos

duomenų bazė

Federacijos valdymo sistema





Pagrindiniai federacinių sistemų bruožaiAutonominiai duomenų šaltiniai.Heterogeniniai duomenų šaltiniai.Nutolę duomenų šaltiniai.Duomenų šaltiniai valdomi nepriklausomai

vienas nuo kito.Duomenys integuojami logiškai (ne fiziškai).Vieninga vartotojo sąsaja.


Federacinės DB problemos (1)Užklausų charakteristikos

Užklausos apdorojimo greitis ne didesnis kaip lėčiausios DB užklausos apdorojimo greitis.

Priklausomybė nuo autonominių duomenų šaltiniųDuomenų šaltiniai keičiasi greitai ir nenuspėjamai. Federacinės

DBVS turi greitai reaguoti į tuos pasikeitimusAugimas

Pridedant naujus duomenų šaltinius federacinės DB architektūra tampa sudetingesnė, išauga tinklo apkrova, atsiranda duomenų integravimo problemų, mažėja užklausos apdorojimo greitis.

KaštaiNaudojant federacinę DB sutaupoma nemažai kaštų, nes

nereikia sukurti atskiros duomenų saugyklos ir jos valdymo sistemos


Federacinės DB problemos (2)Duomenų naujumas

Nedelsiant prieinami visi nauji duomenys iš nutolusių duomenų bazių, todėl vartotojai gali laiku gauti visus naujausius duomenis.

Schemų evoliucijaDuomenų šaltinių duomenų schemos gali be jokio įspėjimo

pasikeisti, todėl DB priežiūros personalas turi greitai aptikti ir reaguoti į tokius pasikeitimus.

Techniniai sugebėjimaiPriklausomai nuo architektūros apimties ir sudėtingumo, jos

sukūrimui ir priežiūrai reikia daug techninių žiniųDuomenų dubliavimasis

Sumažina duomenų dubliavimą. Duomenys nėra kopijuojami ir saugomi atskirai, o tik integruojami ir perduodami vartotojui


Federacinių DB įvertinimasPranašumai:

Užtikrinamas priėjimas prie pačių naujausių duomenų Naujo duomenų šaltinio pridėjimas ir priežiūra

nereikalauja daug darbo, todėl šis metodas gali būti naudojamas didelio skaičiaus duomenų šaltinių apjungimui

Gali būti naudojama duomenų šaltinių, kurių duomenų negalima lengvai nukopijuoti į duomenų saugyklą (pvz., interneto puslapių), apjungimui

Nereikia modifikuoti pirminėse DB saugomų duomenų.Pagrindinis trūkumas:

užklausų apdorojimas, kai kurie federacijos nariai neprieinami


Tarpininko architektūraNaudoja tarpinį apdorojimo lygmenį, kuris atskiria

heterogeninius paskirstytus duomenų šaltinius ir vartotojo lygmenį

Tarpininko lygmenį sudaro komponentai, kurių vienintelis tikslas yra atlikti duomenų transformavimą ir integravimą

Integravimo sistema turi turėti bendrą duomenų modelį, kuris turi apimti įvairius duomenų formatus (tekstinius, XML, HTML) ir duomenų modelius (reliacinis, objektinis, lizdinis)

Be integravimo funkcijos, tarpininko lygmuo atlieka filtravimo, metaduomenų tvarkymo, semantinio nesuderinamumo išsprendimo funkcijas



Grafinė vartotojo sąsaja

Vartotojo užklausos Užklausų rezultatai

Integravimo schema

Nutolusios schemos ir

apribojimai

Schemos kompiliatorius

Metaduomenys Komandų prastinimo, perrašymo ir optimizavimo modulis

Apribojimų kompiliatorius

Komandos

Užklausų skirstytuvas

Kodo generatorius I Kodo generatorius II

Užklausa 1 Užklausa 2 Užklausa 3

DB1 DB2 DB3

Užklausų transliatorius Ia Užklausų transliatorius IIa

Užklausų transliatorius Ib Užklausų transliatorius IIb

Rezultatai 1 Rezultatai 2 Rezultatai 3

Rezultatų suliejiklis

Analizatorius

Optimizuotos komandos

Komanda 1 Komanda 2

Tarpininko komponentaiParseris (sintaksės analizatorius) naudojamas

užklausų skaitymui ir interpretavimui.Komandų prastinimo, perrašymo ir optimizavimo

modulis atlieka užklausos optimizavimą.Užklausų skirstytuvas atlieka užklausų paskirstymą

nutolusioms duomenų bazėms.Kodo generatorius generuoja naujas užklausas.Transliatoriai realizuoja bendravimą su išoriniais

duomenų šaltiniais.Rezultatų suliejiklis apjungia ir sinchronizuoja iš

išorinių duomenų bazių gaunamus rezultatus.


Tarpininko architektūros įvertinimasTarpininko architektūros pranašumai:

Lankstumas, priderinamumas, moduliškumas. Heterogeniniai ir dažnai besikeičiantys

duomenų šaltiniai yra atskiriami nuo galutinio vartotojo.

Įvyniojimo komponentai leidžia lengvai priimti duomenų schemų pasikeitimus.

Lengva papildyti sistemą naujais duomenų šaltiniais.


Documents

Bioinformacijos duomenų valdymas