Upload
vankien
View
239
Download
4
Embed Size (px)
Citation preview
Bazat Teknike të Infromatikës - BTI
Ligjerues: Selman Haxhijaha
Kapitulli 2 – Formatet e të Dhënave në Kompjuter
Objektivat
• Definimi i Formateve për të dhënat• Të dhënat Alfanumerike• Të dhënat e Imazheve Audio dhe Video• BCD (Binary-Coded Decimal)• ASCII (American Standard Code for
Information Interchange)• EBCDIC (Extended Binary Coded Decimal
Interchange Code)• Unicode• Formatet e të dhënave të mbrendshme
kompjuterike
Ligjerues: Selman Haxhijaha 2
Format e të dhënave
• Komunikimi ndër njerëzor
– Përfshin gjuhët, imazhet dhe tinguj
• Kompjuterët
– I proceson dhe ruan të gjitha format e të dhënave në formatin Binar
• Konvertimet në të dhënat e kuptueshme për kompjuter duke përdorur formatet e caktuara
– Definon mënyrat e ndryshme se si mund të paraqiten, ruhen dhe procesohen të dhënat njerëzore
Ligjerues: Selman Haxhijaha 3
Shëndrimi dhe paraqitja e të dhënave
Ligjerues: Selman Haxhijaha 4
Formatet e të Dhënave
Ligjerues: Selman Haxhijaha
• Formatet Private (ang. Proprietary Format)– Janë unike për një produkt ose kompani
– P.sh Microsoft Word, Adobe PDF
• Standardet - kanë evoluar në dy drejtime– Formatet private janë shëndruar në de-fakto
standarde (p.sh Adobe PostScript, Adobe Quick Time)
– Të zbuluar nga organizatat ndërkombëtare standardizimi (p.sh Motion Picture Experts Group, MPEG)
5
Organizatat ndërkombëtare për Standarde
• International Standards Organization – ISO
• American National Standards Institute – ANSI
• Institute for Electrical and Electronics Engineers – IEEE
• Telecommunications Industry Association and Electronic Industries Aliance – TIA/EIA
Ligjerues: Selman Haxhijaha 6
Përfaqësimet e zakonshme të të Dhënave
Ligjerues: Selman Haxhijaha
Llojet e të Dhënave Standardet
Alfanumerike Unicode, ASCII, EBCDIC
Imazhet (bitmap) GIF (graphical image format)
TIF (tagged image file format)
PNG (portable network graphics)
Imazhe (objekte) PostScript, JPEG, SWF (Macromedia Flash), SVG
Skicat grafike dhefontet
PostScript, TrueType
Tinguj / Zëri WAV, AVI, MP3, MIDI, WMA
Përshkrimi i faqeve PDF (Adobe Portable Document Format), HTML, XML
Video Quicktime, MPEG-2, RealVideo, WMV
7
Të Dhënat Alfanumerike
• Karakteret (a, b, C), shifrat e numrave (0...9), shenjat e pikësimit ( !, ?, ;), karaketeret me qëllime të posaqme ($, %, &)
• Katër kode/standarde për të paraqitur shkronjat dhe numrat:– BCD (Binary-Coded Decimal)– ASCII (American Standard Code for Information
Interchange)– EBCDIC (Extended Binary Coded Decimal Interchange
Code)– Unicode
Ligjerues: Selman Haxhijaha 8
9
Tre sllajdet në vazhdim
Formatet Standarde Alfanumerike
• BCD
• ASCII
• EBCDIC
• Unicode
Ligjerues: Selman Haxhijaha
• Binary-Coded Decimal BCD është enkodimi për numrat decimal në të cilën çdo shifër numerike paraqitet me sekuencën e vetë binare.
• Në BCD shifra zakonisht paraqitet me katër bit që paraqesin vlerat/shifrat/karakteret 0-9.
Binary-Coded Decimal (BCD)
Ligjerues: Selman Haxhijaha 10
11
Binary-Coded Decimal (BCD) vazhdim
Katër bit për shifër Shifrat Kombinimet e bitëve
0 0000
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
Shënim: Gjashtë kombinime në
vazhdim nuk përdoren:
1010
1011
1100
1101
1110
1111
Ligjerues: Selman Haxhijaha
Shembulli BCD
• Të shëndrohet numri decimal në kodin BCD
• 698210 = ? (in BCD)
Ligjerues: Selman Haxhijaha
6 9 8 2
0110 1001 1000 0010
12
13
Formatet Standarde Alfanumerike
13 sllajdet në vazhdim
• BCD
• ASCII
• EBCDIC
• Unicode
Ligjerues: Selman Haxhijaha
Veçoritë e kodit ASCII
• Është zhvilluar nga ANSI (American National Standards Institute)
• Është definuar në ANSI dokumentin X3.4-1977
• Kodi me 7 bit
• Bit i 8 nuk përdoret (ose përdoret si bit paritetit)
• 27 = 128 kode të ndryshme
• Dy lloje të përgjithshme të kodeve:– 95 janë kode për “ Shtypje ” ( që shfaqen në konzolë)
– 33 janë kode ” Kontrolli ” (kontrollojnë veçorit e konzolës ose të kanaleve komunikuese)
• Përfaqëson– Alfabetin Latin, numrat Arab, karakteret standarde të pikësimit
– Përfshin edhe një grup të vogël të thekseve dhe karaketereve tjera speciale Evropiane (latin-I ASCII)
Ligjerues: Selman Haxhijaha 14
Tabela ASCII
Ligjerues: Selman Haxhijaha
15
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p
0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r
0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t
0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v
0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x
1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z
1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |
1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~
1111 SI US / ? O _ o DEL
Tabela ASCII vazhdim
Ligjerues: Selman Haxhijaha
16
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p
0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r
0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t
0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v
0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x
1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z
1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |
1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~
1111 SI US / ? O _ o DEL
Most significant bit
Least significant bit
Tabela ASCII vazhdim
Ligjerues: Selman Haxhijaha
17
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p
0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r
0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t
0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v
0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x
1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z
1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |
1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~
1111 SI US / ? O _ o DEL
p.sh., ‘a’ = 1100001
18
Tabela ASCII vazhdim
95 kode për shtypje
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p
0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r
0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t
0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v
0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x
1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z
1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |
1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~
1111 SI US / ? O _ o DEL
Ligjerues: Selman Haxhijaha
19
Tabela ASCII vazhdim
33 kode kontrolli
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL
Ligjerues: Selman Haxhijaha
20
Tabela ASCII vazhdim
Kodet Alfabetike
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL
Ligjerues: Selman Haxhijaha
21
Tabela ASCII vazhdim
Kodet Numerike
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL
Ligjerues: Selman Haxhijaha
22
Tabela ASCII vazhdim
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL
Shenjat e pikësimit, etj.
Ligjerues: Selman Haxhijaha
23
Tabela ASCII
MSD
LSD 0 1 2 3 4 5 6 7
0 NUL DLE SP 0 @ P p
1 SOH DC1 ! 1 A Q a W
2 STX DC2 “ 2 B R b r
3 ETX DC3 # 3 C S c s
4 EOT DC4 $ 4 D T d t
5 ENQ NAK % 5 E U e u
6 ACJ SYN & 6 F V f v
7 BEL ETB ‘ 7 G W g w
8 BS CAN ( 8 H X h x
9 HT EM ) 9 I Y i y
A LF SUB * : J Z j z
B VT ESC + ; K [ k {
C FF FS , < L \ l |
D CR GS - = M ] m }
E SO RS . > N ^ n ~
F SI US / ? O _ o DEL
7416
111 0100
Ligjerues: Selman Haxhijaha
Shembull «Hello, world»
Ligjerues: Selman Haxhijaha
• Të paraqitet «Hello, world» duke përdorur kodet ASCII
24
25
Kodet e zakonshme kontrolli
CR 0D carriage return
LF 0A line feed
HT 09 horizontal tab
DEL 7F delete
NULL 00 null
Kodi Hexadecimal
Ligjerues: Selman Haxhijaha
26
Tabla ASCII : Kodet e zakonshme kontrolli
000 001 010 011 100 101 110 111
0000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s
0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w
1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL
Ligjerues: Selman Haxhijaha
27
Formatet Standarde Alfanumerike
3 sllajde në vazhdim
• BCD
• ASCII
• EBCDIC
• Unicode
Ligjerues: Selman Haxhijaha
28
Kodi EBCDIC
• Kodi 8-bit• Zhvilluar nga IBM• IBM dhe vetëm në mainframe
kompatibil• Shumë rall përdoret sot (i
zakonishëm në të dhënat arkivimi) – Kodet e karaktereve dallojnë nga
ASCII
• Softuer për kalim nga dhe në ASCII ekziston
ASCII EBCDIC
hapësirë 2016 4016
A 4116 C116
b 6216 8216
Ligjerues: Selman Haxhijaha
29
Tabela EBCDIC (1 nga 2)
Ligjerues: Selman Haxhijaha
30
Tabela EBCDIC (2 nga 2)
Ligjerues: Selman Haxhijaha
31
Formatet Standarde Alfanumerike
2 sllajde në vazhdim
• BCD
• ASCII
• EBCDIC
• Unicode
Ligjerues: Selman Haxhijaha
Unicode
• Formati 16 bit më i zakonshëm që përfshin 65536 karaktere
• ASCII Latin-I është nëngrupi i Unicode
– Vlerat nga 0 derri në 255 në tabelën Unicode
• Multigjuhësor pasi definon kode për:
– Gati të gjithë karakteret alfabetike
– Përfshin edhe karakteret për gjuhët Kineze, Japoneze dhe Koreane
• Mundëson modifikimet softuerike për gjuhë lokale
Ligjerues: Selman Haxhijaha 32
33
Tabela Dy-byte Unicode
Ligjerues: Selman Haxhijaha
Vedosja e të dhënave Alfanumerike - Tastiera
• Kodi i skanimit
– Gjenerohen dy kode të ndryshme binare
• Kur shtypet butoni dhe kur lirohet butoni
– Konvertohen në Unicode, ASCII apo EBCDIC nga softueri në terminal apo kompjuter
– Pranohet nga hosti si një «varg» teksti dhe karakterëve të tjerë p.sh sipas sekuencës së shtypur
• Përparësitë
– Kodi i skanimit, i posaçëm për butonët e shtypur/liruar gjatë kombinimeve të shumëfishta• Shembull: Butoni «Shift» me buton kontrolli
Ligjerues: Selman Haxhijaha 34
35
Butoni Shift
E ndalon bitin e 5 në kodin ASCII
Butoni
Kodi ASCII
6 5 4 3 2 1 0 Karakteret
1 1 0 0 0 0 1
1 0 0 0 0 0 1
a
A
a
aShift
Ligjerues: Selman Haxhijaha
36
Butoni Control
E ndalon bitin e 5 & 6 në kodinASCII
Butoni
Kodi ASCII
6 5 4 3 2 1 0 Karakteret
1 1 0 0 0 1 1
0 0 0 0 0 1 1
c
ETX
c
cCtrl
Kodi
ControlLigjerues: Selman Haxhijaha
Shtypja e tekstit në tastierë
• Tre shkronja janë shtypur “D”, “I”, “R”, të përcjellur nga kodi “carriage return”
• Katër kode skanimi janë përkthyer në kodet binare ASCII: – 1000100, 1001001, 1010010, 0001101
Ligjerues: Selman Haxhijaha 37
Metodat e Leximit të Tekstit - OCR
• Bënë skanimin e tekstit dhe e vendos si të dhënat në formë karakteresh
• Softuer i posaçëm OCR (ang. Optical Character Recognition)
• Tenton të lexoj tekstet të shkruara me dorë (formë e kufizuar, vetëm ata që janë shkruar me shkronja të shtypit)
Ligjerues: Selman Haxhijaha 38
39
Lexuesit Bar Code
– Përdoret nga alikacionet për futjen e shpejt, të sakt me angazhim minimal
– Shembull: Supermarkete, kontrolle të inventarit
– Të dhënat Alfanumerike në bar code (i.e., 780471 108801 90000) lexohen në mënyrë optike dhe i konverton në sinjale elektrike binare
– Kodet binare përkthehen një kod për shifër, përkthehet në kodin Unicode ose ASCII
Ligjerues: Selman Haxhijaha
40
Futja e të dhënave Alfanumerike shtesë
• Lexuesit Shiritëve Magnetik
– Të dhënat alfanumerike nga kredit kartela
• Zëri
– Audio inçizimet digjitale të zakonshme, por konvertimet në të dhënat alfanumerike e vështirë
• Kërkon njohuri të paternave të tingujve në gjuhë (fonemat) dhe rregullat e shqiptimit
Ligjerues: Selman Haxhijaha
41
Të dhënat e Imazheve
• Fotografi, figura, ikona, vizatimet, grafikonet
• Dy mënyra: – Bitmap të fotografive dhe vizatimeve me variacione vazhduese (e.g.,
GIF, JPEG)
– Imazhe vektor që përbëhen nga format grafike sikurse që janë objektet gjeometrike, vijat dhe lakoret
• Dallimet përfshijnë:– Kualitetin e imazhit
– Hapësira e nevojshme për ruajtjen e tyre
– Koha Transmetuese
– Lehtësi në modifikimin e tyre
Ligjerues: Selman Haxhijaha
42
Futja e Imazheve
• Skanimi i imazheve (kalimi mbi imazh duke shëndruar pikë për pikë në vargje të numrave binar, piksel) –imazhet bitmap
• Video/Digjital kamerat – imazhet bitmap
• Pajisjet treguese/drejtuese (miu, lapsi)- imazhet e objekteve
Ligjerues: Selman Haxhijaha
43
Imazhet Bitmap
• Çdo pixel (pi(x)cture element) individual i fotografisë ruhet si numër binar
• Pixel: është hapsirë e vogël e asocuar me kordinatat e pozitës
• Shembull: çdo pikë në fotografi, mëposhtë paraqitet nga kodi 4 bitësh që korespondojnë me 1 nga 16 nuanca të ngjyrës gri (hirtë)
Ligjerues: Selman Haxhijaha
44
Paraqitja e bitmapës në ekran
• Monochrome: e bardh ose e zezë
– 1 bit për pixel
• Shkalla Gri: e zezë, e bardhë ose 254 nuanca gri
– 1 bajt për pixel
• Ngjyrat grafike: 16 ngjyra, 256 ngjyra, ose 24-bit «true color» (16.7 milion ngjyra)
– 4, 8, dhe 24 bits secila
Ligjerues: Selman Haxhijaha
45
Ruajtja e imazheve Bitmap
• Kemi të bëjmë shpesh me fajllat e mëdha– Shembull: 600 rreshta me nga 800 pixel dhe 1 byte për 3
ngjyra ~1.5MB për fajll
• Madhësia e fajllit ndikohet nga – Rezolucioni (numri i pixelëve per centimetër)
• Sasia e detajeve ndikonë në kjartësin dhe mprehtësinë e fotografisë
– Nivelet: numri i bitëve për paraqitjen e nuancave gri ose ngjyrave të shumfishta• Paleta e ngjyrave përdorë tabelën me kode për çdo pixel
Ligjerues: Selman Haxhijaha
46
Imazhet Video
• Krijojnë sasi masive të të dhënave – Video kamera inçizon me rezolucion 640 x 480 pixel 24-bit me
30 korniza/sec 27.65 MB e të dhënave/sec
– 1-minute klip i filmit 1.6 GB
• Opsionet për zvogëlimin e madhësisë së fajllit: zvogëlo madhësin e fotografisë, kufizo numrin e ngjyrave, zvoglo frekuencën e kuadrit
• Metodat varen nga ajo se si e marrim videon– Streaming video: video paraqitet direkt me shkarkim nga Ueb
serveri• Shembull: video konferenca
• Të dhënat lokale (fajlat në DVD ose të shkarkuar lokalisht) për kualitet më të lart
Ligjerues: Selman Haxhijaha
47
Të dhënat Audio
• Kërkesat për procesim dhe transmetim janë më të vogla në krahasim me ato videoWaveform audio: përfaqësimi digjital i tingujve
• MIDI (Musical Instrument Digital Interface): instruksionet për të ri-krijuar ose sintetizuar zërin
Ligjerues: Selman Haxhijaha
48
Formatet Audio
• MP3– Derivat i MPEG-2 (ISO Moving Picture Experts Group)– Përdor kompresionin «psychoacoustic» për të zvogluar
kërkesat për hapsirë ruajtje
• WAV– Zhvilluar nga Microsoft si pjesë e specifikacionit të tyre
multimedia– Formati për përdorim të përgjithëshëm për ruajtjen dhe
reprodukimin e copëzave të vogla të zërit
Ligjerues: Selman Haxhijaha
49
Formatet e të dhënave të brendshme kompjuterike
• Kemi thënë se të gjitha të dhënat ruhen në kompjuter në formë të bitave
• Interpretohen duke u bazuar në
– Operacionet që mund të ekzekutohen nga kompjuteri
– Llojet e të dhënave që përkrahen nga gjuhët programuese që përdoren për programimin e aplikacioneve
Ligjerues: Selman Haxhijaha
50
Pesë llojet e të dhnave
• Boolean: variablat me 2-vlera ose konstantat me vlerat e sakt pasakt
• Char: Variabla ose konstanta që mban karakteret alfanumerike
• Enumerated: llojet e të dhënave të definuara nga përdoruesit– Type DayOfWeek = Mon, Tues, Wed, Thurs, Fri, Sat, Sun
• Integer: numrat e plotë pozitiv apo negativ
• Real: Numrat me presjet dhjetore
Ligjerues: Selman Haxhijaha
Bazat Teknike te Infromatikes - BTI
Faleminderit
Pyetje?
Ligjerues: Selman Haxhijaha 51