Upload
karyn-glenn
View
63
Download
5
Embed Size (px)
DESCRIPTION
Bioinformacijos duomenų valdymas. Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: damarobe @soften.ktu.lt. Turinys. Biochem. duomenų charakteristikos Bioinformatikos duomenų bazės (DB) Duomenų formatai Duomenų integravimas DB architektūros. Problema. - PowerPoint PPT Presentation
Citation preview
Doc. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-415Email: [email protected]
TurinysBiochem. duomenų charakteristikosBioinformatikos duomenų bazės (DB)Duomenų formataiDuomenų integravimasDB architektūros
Bioinformatika (B110M100) 2
ProblemaDuomenų organizavimas
Milžiniška duomenų gausybė yra naudinga tik tuomet, jei bus sukurti ir efektyviai naudojami modernūs duomenų paieškos ir apdorojimo įrankiai ir algoritmai
Didžiulių duomenų kiekių skaitmeninis kodavimas, indeksavimas, paieška reikalauja ypač gerų ITžinių ir įgūdžių
IT, ypač internetas, yra naudojamos bioinformacinių duomenų, kurie vėliau yra analizuojami taikant matematinius ir statistinius metodus, rinkimui, saugojimui, platinimui, priėjimui ir naudojimui
Bioinformatika naudoja taikomąsias kompiuterines programas kaip įrankius duomenų bazių kūrimui, informacijos organizavimui ir valdymui, saugojimui ir integravimui, reikalingų bioinformacinių duomenų paieškai, analizei ir vizualizavimui
Bioinformatika (B110M100) 3
Biocheminių duomenų požymiai (1)Sudėtingumas
saugomos didelės sudėtingos duomenų struktūros
Autonomiškumas naudojamos silpnai susijusios duomenų bazės su
intenetine sąsaja, kiekviena turi savo struktūrą ir valdoma atskirai. Daugelis duomenų bazių yra pasenusios ir visai nestruktūrizuotos
Heterogeniniai duomenų formatai duomenys gali būti saugomi paprastuose duomenų
failuose (tekstiniuose, XML, dvejetainiuose), komercinėse struktūrizuotose (reliacinėse) duomenų bazėse arba įprastinėse skaičiuoklėse
Bioinformatika (B110M100) 4
Biocheminių duomenų požymiai (2)Semantinis heterogeniškumas
Duomenų šaltiniai nesuderinami semantiniame lygmenyje, neturi meta-duomenų aprašo, saugomi panašūs arba persidengiantys duomenys, kurių semantinės apibrėžtys nesutampa.
Dinamiškumas Duomenys nuolat keičiasi, papildomi naujų tyrimų rezultatais.
Keičiasi tiek duomenų bazių turinys, tiek struktūra. Pasirodo naujos duomenų bazės, o kai kurios senos duomenų bazės išnyksta
Duomenų tipų įvairovė simbolių eilutės tipo nukleotidų sekos, matricos tipo genų
išraiškos rezultatai, paveikslėlio tipo mikromatricos duomenys
Eksponentinis duomenų augimas Bioinformatika (B110M100) 5
Pagrindinės duomenų organizavimo problemosDuomenų šaltinių semantika, sąsajos ir duomenų
formatai skiriasiDuomenų bazės buvo kuriamos nepriklausomai, todėl jų
valdymo sistemos ir duomenų formatai labai skiriasi. Daugiausiai dėmesio skiriama duomenų organizavimo
problemoms ir vartotojo sąsajoms tobulintiMažai dėmesio skiriama duomenų valdymo problemoms,
užklausų kalbų tobulinimui, duomenų bazių optimizavimui ir priežiūrai
Duomenų integracijaTikslas: paversti sudėtingus ir heterogeninius
laboratorinių tyrimų duomenis į naudingą, gerai sutvarkytą informaciją ir toliau į sistematizuotas žinias
Bioinformatika (B110M100) 6
Bioinformatikos poreikiai duomenų valdymuiPriėjimas prie naujausių biologinių duomenų ir
galimybė surasti reikiamą informaciją atliekant sudėtingas užklausas daugelyje heterogeninių duomenų bazių
Priėjimas prie geriausių duomenų analizės įrankių ir algoritmų skirtų naudingos informacijos išgavimui iš didelio kiekio heterogeninių biologinių duomenų.
Informacijos integravimo architektūra, kuri apjungia įvairius darbo su duomenimis etapus, įskaitant duomenų bazių užklausas, skaičiavimo algoritmus ir taikomąją programinę įrangą
Bioinformatika (B110M100) 7
Bioinformacinių duomenų bazės (1)Duomenų bazė: organizuotas (sutvarkytas)
duomenų rinkinys, kuriuo galima individualiai naudotis elektroniniu ar kitu būduGali būti vienas failas, talpinantis daug įrašų, kurių
kiekvienas turi tokią pačią informacijos struktūrąDažniausiai susietos su specialia programa (Duomenų
bazių valdymo sistema - DBVS) skirta atnaujinti, ieškoti ir atrinkti saugomus duomenis
Bioinformatika (B110M100) 8
Bioinformacinių duomenų bazės (2)2006 m. duomenimis yra žinoma virš 1000
bioinformacinių duomenų bazių, kuriuose pateikiami genomikos ir proteomikos duomenys, genų nukleotidų sekos, baltymų amino rūgščių sekos, informacija apie genų funkciją, struktūrą ir vietą
chromosomoje, klinikiniai mutacijų rezultatai,panašumus į kitas biomolekulinės sekas.
Bioinformatika (B110M100) 9
Reikalavimai duomenų bazėmsKuo paprastesnis kreipimasis (sąsaja) į
duomenų bazęTuri būti realizuotas metodas, kuris atrinktų
geriausią informaciją į vartotojo (specifinius) užklausimus.
Bioinformatika (B110M100) 10
Bioinformacinių duomenų bazių tipaiViešos ir privačios (tarnybinės stotys, paieškos
programos, bioinformatikos įrankiai)Pirminės (saugomi „žali“ duomenys) ir antrinės
(saugoma informacija gauta apdorojant „žalius“ duomenis)
Nesidubliuojančios (saugo tik skirtingus duomenų įrašus)
Makromolekulių (DNR sekos, amino rūgščių sekos, baltymų trimatės struktūros) ir mažų molekulių
Orientuotos tekstui (bibliografinės (straipsnių), taksonominės)
Bioinformatika (B110M100) 11
Duomenų bazės (1)Nukleorūgščių (DNR, RNR) sekų bankai -
saugoma visa šiuo metu turima informacija apie gyvųjų organizmų biomolekulinės sekas.
Genomų sekų bankai.Baltymų sekų bankai.Genomo naršyklės – leidžia peržiūrėti anotuotus
genų prognozavimo ir struktūros, baltymų, ir lyginamosios analizės duomenis.
Specializuotos duomenų bazės.
Bioinformatika (B110M100) 12
Duomenų bazės (2)Metabolinių kelių duomenų bazės.Baltymų struktūros duomenų bazės.Mikromatricų duomenų bazės.Baltymų-baltymų sąveikos duomenų bazės.Metaduomenų bazės yra duomenų bazės, kurios
renka informaciją iš įvairių šaltinių ir pateikia ja patogesne forma.
Bioinformatika (B110M100) 13
Duomenų formataiAmino rūgščių sekos, baltymų struktūros
paveikslėliai, trimačių struktūrų skirtingi vaizdai ir baltymų hidrofobiškumo duomenys, ir kt.
Nukleotidų arba amino rūgščių sekų formataiKiekviena seka simbolizuoja atitinkamai tam tikrą geną
ar baltymą. Sekos sudaromos naudojant vienos raidės pažymėjimus. Tai sumažina saugomos informacijos kiekį ir pagreitina
sekos analizę.
Bioinformatika (B110M100) 14
Nukleotidų sekų DB įrašasRyšio tipasĮvesties seka, kartu su molekulės tipo
aprašymuŠaltinio (organizmo), iš kurio ji buvo išskirta
mokslinis pavadinimasLiteratūros nuorodos apie seką
Bioinformatika (B110M100) 15
FASTA duomenų formatasTekstinis duomenų formatas skirtas
nukleorūgščių sekų arba baltymų sekų atvaizdavimui. Seka prasideda aprašymo eilute (prasideda „>“
simboliu). Pirmas žodis po „>“ simbolio yra sekos pavadinimas. Toliau eilutėje yra sekos aprašymas (nebūtinas). Sekančiose eilutėse pateikiama pati seka. Nukleotidai ir amino rūgštys yra žymimos vienos raidės
kodu. Sekos pabaiga laikomas kitas „>“ simbolis. Komentarų eilutės pradedamos kabliataškio (;) simboliu. Eilučių ilgis turi neviršyti 80 simbolių.
Bioinformatika (B110M100) 16
FASTA pranašumaiPranašumai:
PaprastumasDuomenų apdorojimui galima naudoti teksto
apdorojimo įrankius ir scenarijų kalbas, pvz., Perl.
Bioinformatika (B110M100) 17
FASTA: pavyzdys
Bioinformatika (B110M100) 18
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] ;komentarai LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
FASTA aprašymo eilutės standartai
Bioinformatika (B110M100) 19
GenBank gi|gi-number|gb|accession|locus EMBL Data Library gi|gi-number|emb|accession|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus NBRF PIR pir||entry Protein Research Foundation prf||name SWISS-PROT sp|accession|name Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE Patents pat|country|number GenInfo Backbone Id bbs|number General database identifier gnl|database|identifier NCBI Reference Sequence ref|accession|locus Local Sequence identifier lcl|identifier
FASTA sekos užrašymo formatasSekos yra užrašomos naudojant standartinius
IUB/IUPAC amino rūgščių ir nukleorūgščių kodus su šiomis išimtimis:mažosios raidės taip pat naudojamos;minusas (-) reiškia spragą (praleidimą) sekoje;žvaigždutė (*) reiškia transliavimo pabaigą;X reiškia bet kokią amino rūgštį;skaičiai kai kuriuose duomenų bazėse
naudojami vietai sekoje parodyti.
Bioinformatika (B110M100) 20
FASTA formato nukleorūgščių kodaiNukleorūgšties kodas Reikšmė
A AdeninasC CitozinasG GuaninasT TiminasU UracilasR G arba A (purino funkcinė grupė)Y T arba C (pirimidino funkcinė grupė)K G arba T (ketono funkcinė grupė)M A arba C (amino funkcinė grupė)S G arba C (stiprus ryšys)W A arba T (silpnas ryšys)B G arba T arba C (ne A)D G arba A arba T (ne C)H A arba C arba T (ne G)V G arba C arba A (ne T, ne U)N A arba G arba C arba T (bet koks)- nenustatyto ilgio spraga
Bioinformatika (B110M100) 21
FASTA formato amino rūgščių kodaiAmino rūgšties
kodasReikšmė
A AlaninasB Asparto rūgštis arba AsparaginasC CisteinasD Asparto rūgštisE Glutamo rūgštisF FenilalaninasG GlicinasH HistidinasI IzoleucinasK LizinasL LiucinasM MetioninasN AsparaginasP ProlinasQ GlutaminasR ArgininasS SerinasT TreoninasU SelenocisteinasV ValinasW TriptofanasY TirozinasZ Glutamo rūgštis arba glutaminasX Bet kokia* Transliavimo pabaiga- Nenustatyto ilgio spraga
Bioinformatika (B110M100) 22
Kiti duomenų formataiEMBLGCGGCG-RSFGenBankIGGenomatix
Bioinformatika (B110M100) 23
EMBL formatasFaile gali būti kelios sekosSekos aprašas pradedamas žodžiu ID, po
kurio eina sekos aprašasSeka pradedama eilute, kuri prasideda žodžiu
SQ.Sekos pabaiga žymima //
Bioinformatika (B110M100) 24
EMBL formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.
XX
AC AB000263;
XX
DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.
XX
SQ Sequence 368 BP;
acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 60
ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120
caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180
aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240
gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300
agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360
gacctgaa 368
//
Bioinformatika (B110M100) 25
GCG formatasPanašus į EMBL formatąSekos pradžia žymima dvejais taškais “..”Taip pat pateikiamas sekos numeris, sekos
ilgis ir kontrolinė suma
Bioinformatika (B110M100) 26
GCG formato pavyzdysID AB000263 standard; RNA; PRI; 368 BP.
XX
AC AB000263;
XX
DE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.
XX
SQ Sequence 368 BP;
AB000263 Length: 368 Check: 4514 ..
1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg
61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg
121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc
181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag
241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga
301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca
361 gacctgaa
Bioinformatika (B110M100) 27
GenBank formatasFaile gali būti kelios sekosSekos aprašymas pradedamas žodžiu LOCUS, po
kurio pateikiamas sekos numeris, ilgis, tipas ir registravimo data
Po žodžio DEFINITION pateikiamas aprašymas natūralia kalba
Po žodžio ACCESSION – prieigos numeris duomenų bazėje
Seka pradedama žodžiu ORIGIN ir baigiama //
Bioinformatika (B110M100) 28
GENBank formato pavyzdysLOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999
DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete
cds.
ACCESSION AB000263
ORIGIN
1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg
61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg
121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc
181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag
241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga
301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca
361 gacctgaa
//
Bioinformatika (B110M100) 29
IG formatasViename faile gali būti kelios sekosKomentarų eilutės pradedamos kabliataškiu
“;”Seka pradedama sekos numeriuSeka baigiama skaitmeniu 1 arba 2
Bioinformatika (B110M100) 30
IG formato pavyzdys; komentaras
AB000263
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC
CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC
CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG
AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC
CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG
TTTAATTACAGACCTGAA1
Bioinformatika (B110M100) 31
Bioinformatikos duomenų integravimo sprendimai (1)I karta – mažos, greitai sukurtos programėlės
skirtos duomenų konvertavimui iš vieno formato į kitą. Įrankiai: Perl ir kitos panašios scenarijų kalbos.
Trūkumai: blogai pritaikomos prie kito kontekstoreikia žinoti DB struktūrą ir duomenų formatusneefektyvu ir nepritaikoma dideliam kiekiui
duomenų šaltinių DB pakeitus savo duomenų formatą reikia perrašyti
visas šį formatą naudojančias programas
Bioinformatika (B110M100) 32
Bioinformatikos duomenų integravimo sprendimai (2)II karta – duomenų integravimo architektūros.
Skirstomos į tris kategorijas: duomenų saugyklos, paskirstytos (federacinės) duomenų bazės, tarpininko architektūra.
Pranašumai: struktūrizuota aplinka, lankstus ir priderinamas duomenų integravimas
Bioinformatika (B110M100) 33
Reikalavimai duomenų integravimo sistemaiReikiamų duomenų parsiuntimas iš daugelio
atskirų duomenų šaltiniųParsiųstų duomenų transformavimas į
integravimui tinkamą duomenų modelįDuomenų modelis skirtas integruotų duomenų
objektų pateikimui galutiniams vartotojamsAukšto lygmens kalba skirta sudėtingų užklausų
daugeliui duomenų šaltinių formulavimui ir duomenų transformavimo užduotims atlikti
Užklausų optimizavimo valdymas
Bioinformatika (B110M100) 34
Duomenų integravimo sprendimai (1)Priėjimas prie duomenų:
per užklausas (papildomai atliekamos duomenų transformacijos)
naršant (tik suradimas ir parsiuntimas)Priėjimo realizavimas:
deklaratyvusprocedūrinis
Priėjimo kodas: bendrinisatskirai programuojamas kiekvienam duomenų šaltiniui
Bioinformatika (B110M100) 35
Duomenų integravimo sprendimai (2)Sprendžiama problema:
semantinis heterogeniškumas (skirtinga prasmė) sintaksinis heterogeniškumas (skirtingi formatai)
Integravimo modelis: duomenų saugyklos federacinis
Duomenų modelis: reliacinisnereliacinis
Bioinformatika (B110M100) 36
Duomenų saugyklosNaudojant duomenų saugyklomis grįstą
duomenų integravimo metodą, duomenų šaltiniai yra integruojami į centralizuotą sistemą su globalia duomenų schema (duomenų schema aprašo
duomenų bazėje saugomų duomenų komponentus ir ryšius tarp jų) ir
indeksavimo sistema, skirta duomenų paieškai ir atrinkimui.
Populiariausių duomenų saugyklų valdymui naudojamos reliacinės duomenų bazių valdymo sistemosReliacinis – pagrįstas lentelėmis
Bioinformatika (B110M100) 37
Reliacinės duomenų bazių valdymo sistemos (DBVS)Naudoja standartinę užklausų sudarymo kalbą
SQL Užklausų konvertavimą ir gautų rezultatų
integravimą atlieka įvyniojimo komponentai (wrappers)
Pranašumai: didelė branda, patikimumas, struktūriškumas, paprasta priežiūra, duomenys lengvai prieinami be interneto delsos arba
tinklo pralaidumo apribojimų.
Bioinformatika (B110M100) 38
Reliacinės duomenų bazių valdymo sistemos (DBVS)Trūkumai:
Dideli duomenų saugojimo, priežiūros ir atnaujinimo kaštai.
Prieš įvedant duomenis reikia atlikti kruopščią jų peržiūrą, kad išvengti galimų duomenų klaidų, pasikartojimų arba semantinio nesuderinamumo
Sudėtingiems duomenis atvaizduoti geriau tinka hierarchiniai nereliaciniai modeliai, pvz., lizdiniai modeliai
Bioinformatika (B110M100) 39
Pagr. duomenų saugyklų bruožaiOrientuotos į konkrečia sritį.Kinta laike
duomenys turi būti reguliariai atnaujinami.Statiniai duomenys
duomenys niekada neištrinami arba perrašomi.Integruoti duomenys
apjungiami visi tam tikros srities duomenys.
Bioinformatika (B110M100) 40
Duomenų saugyklos architektūra
Bioinformatika (B110M100) 41
Duomenų saugyklų įvertinimas (1)Pranašumai:
Galimybė filtruoti duomenis, kadangi duomenų saugykloje yra sukuriama ir saugoma nepriklausoma duomenų kopija
Galima pagerinti duomenų struktūrąDuomenų užklausos vykdomos greičiau, kadangi visi
duomenys yra vienoje vietojeInterneto tinklai apkraunami tik atliekant duomenų
atnaujinimą Duomenų šaltinių pasikeitimai tiesiogiai neįtakoja
duomenų saugyklos prieinamumo
Bioinformatika (B110M100) 42
Duomenų saugyklų įvertinimas (2)Trūkumai:
daug resursų reikalaujanti priežiūra, kadangi reikia palaikyti nufiltruotą ir transformuotą nutolusių duomenų šaltinių duomenų kopiją
Duomenys turi būti atnaujinami pakankamai dažnai, kad užtikrinti vartotojų priėjimą prie naujausių duomenų
Naujo duomenų šaltinio pridėjimas reikalauja daug duomenų persiuntimo, apdorojimo ir priežiūros darbo, todėl šis metodas realiai naudojamas tik nedidelio skaičiaus duomenų šaltinių, kurie keičiasi retai, integravimui
Bioinformatika (B110M100) 43
Paskirstytos (federacinės) DBMeta DB, kuri logiškai apjungia daug DB į federacinę DBResursai apjungiami logiškai ir gali apimti paprastus
tekstinius failus, skaičiuokles, ir duomenų analizės įrankius Suteikia savo vartotojams vieningą sąsają, per kurią
vartotojai gali ieškoti ir parsisiųsti duomenis iš atskirų DB Nereikia centralizuotos DB, todėl duomenų šaltiniai išlieka
autonominiai Bendras duomenų modelis ir schemų atvaizdavimo
taisyklėsSkirtingus schemos komponentus valdo duomenų žodynas Heterogeninių duomenų šaltinių integravimui dažnai
naudojamas ne reliacinis, o objektinis modelis
Bioinformatika (B110M100) 44
Federacinės DB tipinė architektūra
Bioinformatika (B110M100) 45
Nutolę duomenų šaltiniai
Nutolusių šaltinių sąsajos
Tarpininkai Centrinis federacijos valdymas
Bioinformatikos analizės įrankiai
Viešos/privačios duomenų bazės
Genomikos duomenų bazės
Proteomikos duomenų bazės
Literatūros duomenų bazės
Kitos duomenų bazės
Vidinės ir eksportavimo
schemos
Vidinės ir eksportavimo
schemos
Vidinės ir eksportavimo
schemos
Vidinės ir eksportavimo
schemos
Vidinės ir eksportavimo
schemos
Tekstiniai ir skaičiuoklių failai
Laboratorijų informacijos valdymo
sistemos
Tarpininkai Centrinė federacijos
duomenų bazė
Federacijos valdymo sistema
Federacijos valdymo sistema
Federacijos valdymo sistema
Federacijos valdymo sistema
Federacijos valdymo sistema
Pagrindiniai federacinių sistemų bruožaiAutonominiai duomenų šaltiniai.Heterogeniniai duomenų šaltiniai.Nutolę duomenų šaltiniai.Duomenų šaltiniai valdomi nepriklausomai
vienas nuo kito.Duomenys integuojami logiškai (ne fiziškai).Vieninga vartotojo sąsaja.
Bioinformatika (B110M100) 46
Federacinės DB problemos (1)Užklausų charakteristikos
Užklausos apdorojimo greitis ne didesnis kaip lėčiausios DB užklausos apdorojimo greitis.
Priklausomybė nuo autonominių duomenų šaltiniųDuomenų šaltiniai keičiasi greitai ir nenuspėjamai. Federacinės
DBVS turi greitai reaguoti į tuos pasikeitimusAugimas
Pridedant naujus duomenų šaltinius federacinės DB architektūra tampa sudetingesnė, išauga tinklo apkrova, atsiranda duomenų integravimo problemų, mažėja užklausos apdorojimo greitis.
KaštaiNaudojant federacinę DB sutaupoma nemažai kaštų, nes
nereikia sukurti atskiros duomenų saugyklos ir jos valdymo sistemos
Bioinformatika (B110M100) 47
Federacinės DB problemos (2)Duomenų naujumas
Nedelsiant prieinami visi nauji duomenys iš nutolusių duomenų bazių, todėl vartotojai gali laiku gauti visus naujausius duomenis.
Schemų evoliucijaDuomenų šaltinių duomenų schemos gali be jokio įspėjimo
pasikeisti, todėl DB priežiūros personalas turi greitai aptikti ir reaguoti į tokius pasikeitimus.
Techniniai sugebėjimaiPriklausomai nuo architektūros apimties ir sudėtingumo, jos
sukūrimui ir priežiūrai reikia daug techninių žiniųDuomenų dubliavimasis
Sumažina duomenų dubliavimą. Duomenys nėra kopijuojami ir saugomi atskirai, o tik integruojami ir perduodami vartotojui
Bioinformatika (B110M100) 48
Federacinių DB įvertinimasPranašumai:
Užtikrinamas priėjimas prie pačių naujausių duomenų Naujo duomenų šaltinio pridėjimas ir priežiūra
nereikalauja daug darbo, todėl šis metodas gali būti naudojamas didelio skaičiaus duomenų šaltinių apjungimui
Gali būti naudojama duomenų šaltinių, kurių duomenų negalima lengvai nukopijuoti į duomenų saugyklą (pvz., interneto puslapių), apjungimui
Nereikia modifikuoti pirminėse DB saugomų duomenų.Pagrindinis trūkumas:
užklausų apdorojimas, kai kurie federacijos nariai neprieinami
Bioinformatika (B110M100) 49
Tarpininko architektūraNaudoja tarpinį apdorojimo lygmenį, kuris atskiria
heterogeninius paskirstytus duomenų šaltinius ir vartotojo lygmenį
Tarpininko lygmenį sudaro komponentai, kurių vienintelis tikslas yra atlikti duomenų transformavimą ir integravimą
Integravimo sistema turi turėti bendrą duomenų modelį, kuris turi apimti įvairius duomenų formatus (tekstinius, XML, HTML) ir duomenų modelius (reliacinis, objektinis, lizdinis)
Be integravimo funkcijos, tarpininko lygmuo atlieka filtravimo, metaduomenų tvarkymo, semantinio nesuderinamumo išsprendimo funkcijas
Bioinformatika (B110M100) 50
Bioinformatika (B110M100) 51
Grafinė vartotojo sąsaja
Vartotojo užklausos Užklausų rezultatai
Integravimo schema
Nutolusios schemos ir
apribojimai
Schemos kompiliatorius
Metaduomenys Komandų prastinimo, perrašymo ir optimizavimo modulis
Apribojimų kompiliatorius
Komandos
Užklausų skirstytuvas
Kodo generatorius I Kodo generatorius II
Užklausa 1 Užklausa 2 Užklausa 3
DB1 DB2 DB3
Užklausų transliatorius Ia Užklausų transliatorius IIa
Užklausų transliatorius Ib Užklausų transliatorius IIb
Rezultatai 1 Rezultatai 2 Rezultatai 3
Rezultatų suliejiklis
Analizatorius
Optimizuotos komandos
Komanda 1 Komanda 2
Tarpininko komponentaiParseris (sintaksės analizatorius) naudojamas
užklausų skaitymui ir interpretavimui.Komandų prastinimo, perrašymo ir optimizavimo
modulis atlieka užklausos optimizavimą.Užklausų skirstytuvas atlieka užklausų paskirstymą
nutolusioms duomenų bazėms.Kodo generatorius generuoja naujas užklausas.Transliatoriai realizuoja bendravimą su išoriniais
duomenų šaltiniais.Rezultatų suliejiklis apjungia ir sinchronizuoja iš
išorinių duomenų bazių gaunamus rezultatus.
Bioinformatika (B110M100) 52
Tarpininko architektūros įvertinimasTarpininko architektūros pranašumai:
Lankstumas, priderinamumas, moduliškumas. Heterogeniniai ir dažnai besikeičiantys
duomenų šaltiniai yra atskiriami nuo galutinio vartotojo.
Įvyniojimo komponentai leidžia lengvai priimti duomenų schemų pasikeitimus.
Lengva papildyti sistemą naujais duomenų šaltiniais.
Bioinformatika (B110M100) 53