32
Paskaita 2. Duomenys (Duomenų, objektų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės) Kęstutis Žilinskas Šiaulių universitetas, 2013 DUOMENŲ GAVYBA

Kęstutis Žilinskas Šiaulių universitetas, 2013

Embed Size (px)

DESCRIPTION

DUOMENŲ GAVYBA. Paskaita 2 . Duomenys ( Duomenų , objekt ų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės). Kęstutis Žilinskas Šiaulių universitetas, 2013. Duomen ų samprata. Plačiaja prasme duomenys tai: Faktai; Tekstas; Grafikai; - PowerPoint PPT Presentation

Citation preview

Paskaita 2. Duomenys(Duomenų, objektų ir atributų, imčių, duomenų priklausomumo sąvokos. Duomenų skalės, rinkinių tipai, duomenų bazės)

Kęstutis ŽilinskasŠiaulių universitetas, 2013

DUOMENŲ GAVYBA

Duomenų samprata

Plačiaja prasme duomenys tai: Faktai; Tekstas; Grafikai; Paveikslėliai; Garsai; Analoginiai ar skaitmeniniai video

segmentai.

Duomenys gali būti gaunami: Matuojant; Atliekant eksperimentus; Atliekant aritmetinius veiksmus; Atliekant loginius veiksmus.

Duomenys turi būti pateikti forma, tinkama saugoti, perduoti ir apdoroti (pertvarkyti).

Duomenys

Duomenys – būtina duomenų gavybos prielaida.

Duomenis pateikia užsakovas arba saugyklos administratorius.

Duomenis naudoja vartotojas. Duomenių pagalba gali būti formuojama nauja informacija.

Duomenų rinkiniai

Lentelė 1. Objektai - atributai

Atributai

Objektai

Kliento kodas Amžius Šeimyninė padėtis Pajamos Klasė

1 18 Single 125 1

2 22 Married 100 1

3 30 Single 70 1

4 32 Married 120 1

5 24 Divorced 95 2

6 25 Married 60 1

7 32 Divorced 220 1

8 19 Single 85 2

9 22 Married 75 1

10 40 Single 90 2

Objektai ir atributai

Objektas aprašomas atributų rinkiniu.

Objektas gali būti vadinamas: Užrašu; Įrašu, Atveju; Pavyzdžiu; Lentelės eilute ir pan.

Objektai ir atributai

Atributas – objektą apibūdinanti savybė (pavyzdžiui): Žmogaus akių spalva; Vandens temperatūra ir pan.

Atributas gali būti vadinamas: Kintamuoju; Lentelės lauku; Matmeniu (išmatavimu); Charakteristika; Požymiu.

Kintamasis

Kintamasis – bendra visiems nagrinėjamiems objektams savybė arba charakteristika, kuri reiškiasi skirtingai pereinant nuo vieno objekto prie kito.

Kintamojo reikšmė – požymio kokybinė arba kiekybinė išraiška.

Imtis

Analizuojant duomenis dažniausiai negalima nagrinėti visos objektų aibės (generalinės aibės).

Užtenka nagrinėti šios aibės dalį – imtį.

Imties dydis (ilgis, tūris) turi priklausyti nuo objektų įvairovės bei apimti skirtingus objektų aibės elementus ir jų kompinacijas.

Imtis

Generalinė aibė (population) – visa nagrinėjamų, tyrėją dominačių objektų aibė.

Imtis (sample) – specialiu būdu atrinkta generalinės aibės dalis, leidžianti daryti išvadas apie generalinės aibės savybes ir charakteristikas.

Imtis

Parametrai – skaitinės generalinės aibės charakteristikos.

Statistikos – skaitinės imties charakteristikos.

Hipotezės

Dažnai tyrimas remiasi hipotezėmis, kurios tikrinamos duomenų pagalba.

Hipotezė – prielaida apie objektų aibės parametrus, kuri gali būti patikrinta aibės daliai.

Hipotezė – dalinai pagrįstas žinių dėsningumas arba nurodantis ryšius tarp empirinių faktų, arba paaiškinantis faktus ar jų grupes.

Hipotezės pavyzdys:

yra ryšys tarp gyvenimo trukmės ir maitinimosi kokybės rodiklių.

Tyrimo tikslas: konkretaus kintamojo (gyvenimo trukmės) kitimo paaiškinimas.

Hipotezės patikslinimas:

Priklausomas kintamasis (gyvenimo trukmė) keičiasi priklausomai nuo keleto priežasčių (maitinimosi kokybės, gyvenimo būdo, gyvenamosios vietos ir pan.), t.y. nuo nepriklausomų kintamųjų.

Kintamasis iš pradžių nėra nei priklausomas, nei nepriklausomas.

Priklausomumą nusako tik hipotezė.

Matavimai

Matavimas – skaičių priskyrimas nagrinėjamo objekto charakteristikoms pagal tam tikrą taisyklę.

Duomenų paruošimo procese matuojamas ne pats objektas, bet jo charakteristikos.

Skalės

Skalė – taisyklė, pagal kurią objektų charakteristikoms priskiriami skaičiai.

Duomenų gavyboje svarbu kintamojo skalė arba kintamųjų duomenų tipas.

Kintamieji būna skaitiniai arba simboliniai.

Skaitiniai duomenys būna diskretieji arba tolydieji.

Skalės

Duomenų gavyboje nagrinėjamos penkios matavimų skalės: Nominalioji; Sutvarkyta; Intervalinė; Santykinė; Dichotominė.

Nominalinė skalė (nominal scale)

Skalę sudaro tik kategorijos. Duomenų negalima surikiuoti. Su duomenimis negalima atlikti

aritmetinių veiksmų. Nominalinė skalę nusako pavadinimai,

vardai, skirti klasifikavimui ir grupavimui. Pvz.: profesijos, miestai, šeimyninė padėtis.

Galimos operacijos: lygu(=), nelygu(≠).

Sutvarkyta skalė (ordinal scale)

Objektams priskiriami skaičiai, nurodantis objektų santykinę padėtį, bet ne jų skirtumus.

Leidžia sutvarkyti objektus, suteikti jiems rangus, bet neleidžia nustatyti, kiek vienas dydis didesnis už kitą.

Sutvarkyta skalė (ordinal scale

Pvz.: komandos vieta čempionate, mokinio vieta valstybinio egzamino reitinge (neaišku, kiek kiekvienas mokinys žino daugiau už kitą).

Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<).

Intervalinė skalė (interval scale)

Skalė, kurios reikšmių skirtumus galima apskaičiuoti, bet reikšmių santykiai neturi prasmės.

Intervalinė skalė leidžia rasti dydžių skirtumus, turi nominaliosios ir sutvarkytos skalės savybes.

Skalė leidžia nusakyti požymio kiekybinius pokyčius.

Intervalinė skalė (interval scale)

Pvz.: vandens temperatūra jūroje: 190C – ryte ir 240C – vakare, t.y. vakare

5 laipsniais šilčiau, bet 1,26 karto šilčiau.

Intervalinė skalė – tolydžioji. Galimos operacijos: lygu(=),

nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-).

Santykinė skalė

Skalė, kurioje nusakyta atskaitos pradžia ir galimi skalės reikšmių santykiai. Pvz.: bulvių kaina prekybos centre 1,2

karto didesnė nei turguje.

Galimos operacijos: lygu(=), nelygu(≠), daugiau(>), mažiau(<), sudėtis(+), atimtis(-), dalyba(/).

Dichotominė skalė (dichotomous)

Skalė, turinti tik dvi kategorijas. Pvz.: lytis (vyriška, moteriška).

Galimos operacijos: lygu(=), nelygu(≠).

Savybių lentelės

Lentelė 2. Skirtingų objektų savybėsObjekto numeris Profesija (? skalė) Vidutinis balas (? skalė) Išsilavinimas (? skalė)

1 tekintojas 22 среднее2 mokslininkas 55 высшее3 mokytojas 47 высшее

Lentelė 3. Vienos objektų sistemos savybėsMatavimo data Debesuotumas(? skalė) Temperatūra 8 val. ryto (?

skalė)Vėjo stiprumas(? skalė)

1 сентября didelis 220С silpnas2 сентября apsiniaukę 170С stiprus3 сентября giedra 230С Labai stiprus

Duomenų rinkinių tipai

Dažniausiai naudojami duomenys, pateikti įrašų forma.

Duomenų rinkinių pavyzdžiai: Lentelės; Matricos; Dokumentai; Transakcijų duomenys; Operacijų duomenys.

Transakcijų duomenys

Duomenų tipas, kurio kiekvienas įrašas yra transakcija – reikšmių rinkinys.

Grafiniai duomenys

WWW duomenys; Molekulinės struktūros; Grafai; Žemėlapiai.

Cheminiai duomenys

Analizuojamų duomenų tipai

Duomenų saugojimo formatai

Šiuolaikiniame pasaulyje duomenų labai daug.

Pagrindiniai veiksmai su jais: Duomenų pateikimas; Duomenų apskaičiavimas; Manipuliavimas duomenimis; duomenų

apdorojimas (surinkimas, perdavimas ir kt.).

Paprastai duomenys laikomi failuose ir duomenų bazėse.

Duomenų failų tipai