US - Osnove Teorije Informacija i Kodovanje

  • Upload
    tesla

  • View
    110

  • Download
    2

Embed Size (px)

DESCRIPTION

US - Osnove Teorije Informacija i Kodovanje

Citation preview

  • UNIVERZITET SINGIDUNUM

    OSNOVI TEORIJE INFORMACIJA I

    KODOVANJA

    Beograd, 2015.

  • OSNOVI TEORIJE INFORMACIJA I KODOVANJA

    Autori:

    !"#

    UNIVERZITET SINGIDUNUM!$%&'''(()(

    *

    Godina izdanja:2015.

    +--

    /34$6)

    7!839:;

  • Dobar naunik je onaj ko misli kao i svi

    drugi, a vidi neto to niko drugi nije

    video. Genije je onaj ko vidi isto to i svi

    drugi, a misli neto to niko drugi nije

    pomislio"

    Albert Sent-Djerdji

  • SADRAJ

    1. UVOD.......................................................................................................................... 10

    1.1. Pojam informacije ................................................................................................. 11

    1.2. Informacijska hijerarhija ................................................................................... 12

    1.3. Informaciono drutvo .......................................................................................... 14

    1.4. Teorija informacija kao akademska disciplina .......................................... 16

    2. ENTROPIJA I INFORMACIJA .............................................................................. 19

    2.1. Entropija izbori mogunosti sa poznatim verovatnoama ................. 27 2.1.1. Svojstva entropije ...................................................................................................... 29 2.1.2. Vana svojstva entropije ......................................................................................... 32 2.1.3. Karakterizacija entropije ........................................................................................ 33 2.1.4. Sluajne veliine - podsetnik ................................................................................ 33 2.1.5. Uslovne entropije ...................................................................................................... 35 2.1.6. Uzajamna entropija ................................................................................................... 36

    2.2. Informacija i njena mera .................................................................................... 44 2.2.1. Opservacije i dogaaji .............................................................................................. 44 2.2.2. Uzajamna informacija .............................................................................................. 46 2.2.3. Grafika prezentacija informaciono-teorijskih veliina ............................ 48 2.2.4. Relativna entropija.................................................................................................... 51

    2.3. enonova matematika teorija informacije ................................................ 53 2.3.1. Modelovanje izvora .................................................................................................. 54 2.3.2. enonovi modeli aproksimacije........................................................................... 54 2.3.3. Entropija izvora u odnosu na aproksimaciju modela ................................. 56 2.3.4. enonova teorema za kodovanje bez gubitaka ............................................. 57

    2.4. Laboratorijski rad ................................................................................................. 60

    III

  • 3. EFIKASNO KODOVANJE INFORMACIJA ........................................................ 72

    3.1. Kodovanje jedne sluajne veliine .................................................................. 73 3.1.1. N-arna stabla kodova ............................................................................................... 77 3.1.2. Kraftova nejednakost ............................................................................................... 80

    3.2. Efikasno Kodovanje .............................................................................................. 83 3.2.1. Verovatnosno N-arnao stablo ............................................................................... 83 3.2.2. enonova teorema o kodovanju bez prisustva uma ................................. 87 3.2.3. Hafmanov kod ............................................................................................................. 91 3.2.4. Optimalnost Hafmanovog koda ........................................................................... 94

    3.3. Laboratorijski rad ................................................................................................. 96

    4. KANALI ZA PRENOS INFORMACIJA ............................................................... 99

    4.1. Komunikacioni kanali ...................................................................................... 100 4.1.1. Kapacitet kanala ....................................................................................................... 104 4.1.2. Kanali sa simetrinim ulazom ............................................................................ 105 4.1.3. Kanali sa simetrinim izlazom ........................................................................... 106 4.1.4. Brzina prenosa .......................................................................................................... 107

    4.2. Kodovanje u prisustvu uma .......................................................................... 109 4.2.1. Kod ponavljanja ........................................................................................................ 109 4.2.2. Teorema o kodovanju u prisustvu uma ....................................................... 110

    5. ZATITNI KODOVI KODOVI ZA ISPRAVLJANJE GREAKA ............. 114

    5.1. Osnove kodova za ispravljanje greaka ..................................................... 115 5.1.1. Hemingovo rastojanje i teine kodnih rei ................................................... 116 5.1.2. Dekodovanje minimalnog rastojanja i maksimalne verodostojnosti. 118 5.1.3. Detekcija i ispravljanje greaka ......................................................................... 119

    5.2. Linearni kodovi ................................................................................................... 122 5.2.1. Kodovanje linearnim kodom .............................................................................. 124

    IV

  • 5.2.2. Sistemska forma linearnih kodova ................................................................... 126 5.2.3. Dekodovanje: verifikaciona matrica ................................................................ 127 5.2.4. Dualni kodovi ............................................................................................................ 130 5.2.5. Sindromi ...................................................................................................................... 131 5.2.6. Minimalno rastojanje i verifikaciona matrica .............................................. 134 5.2.7. Binarni Hemingovi kodovi ................................................................................... 135

    5.3. Ciklini kodovi ..................................................................................................... 139 5.3.1. Ciklini kodovi i polinomi .................................................................................... 140 5.3.2. Dekodovanje ciklinih kodova ........................................................................... 144

    5.4. Konvolucioni kodovi ......................................................................................... 148 5.4.1. Kodovanje konvolucionim kodovima .............................................................. 149 5.4.2. Opte definicije konvolucionih kodova .......................................................... 151 5.4.3. Predstava preko reetki ........................................................................................ 153 5.4.4. Dekodovanje .............................................................................................................. 156

    5.5. Kodovi niske gustine LDPC .......................................................................... 162 5.5.1. Reprezentacija LDPC kodova .............................................................................. 163 5.5.2. Regularni i iregularni LDPC kodovi ................................................................. 164 5.5.3. Performanse i kompleksnost LDPC kodova ................................................. 165 5.5.4. LDPC algoritmi dekodovanja .............................................................................. 166 5.5.5. LDPC algoritam kodovanja .................................................................................. 170

    5.6. Praktina primena zatitnih kodova ........................................................... 171 5.6.1. ARQ ................................................................................................................................ 171 5.6.2. FEC ................................................................................................................................. 173 5.6.3. Hibridni ARQ ............................................................................................................. 174 5.6.4. Interliveri .................................................................................................................... 175 5.6.5. Dekodovanje sa brisanjem ................................................................................... 177 5.6.6. Konkatenacija ............................................................................................................ 178 5.6.7. Jedan primer kodovanja u CD ............................................................................. 179

    5.7. Laboratorijski rad .............................................................................................. 182

    V

  • 6. KRIPTOGRAFIJA INFORMACIONO TEORIJSKI UVOD ....................... 198

    6.1. Perfektna tajnost ................................................................................................ 200 6.1.1. Perfektne ifre: definicija ..................................................................................... 201 6.1.2. Grafika prezentacija perfektne ifre .............................................................. 203 6.1.3. Dokaz enonove teoreme o perfektnoj tajnosti - OTP ............................. 204

    6.2. Neperfektna tajnost i taka jedinstvenosti ............................................... 205 6.2.1. Ekvivokacija kljua i taka jedinstvenosti ..................................................... 205 6.2.2. Poveanje take jedinstvenosti .......................................................................... 208

    6.3. Autentifikacija ..................................................................................................... 209

    BIBLIOGRAFIJA ............................................................................................................... 211

    DODATAK A UVOD U EKSPERIMENTALNO OKRUENJE ........................... 212

    DODATAK B JEDNA PRIMENA KODOVA ZA ISPRAVLJANJE GREAKA U KRIPTOGRAFIJI ............................................................................................................... 224

    RENIK POJMOVA ......................................................................................................... 233

    VI

  • Predgovor

    snove teorije informacija i kodovanja je udbenik koji je namenjen studentima Fakulteta za informatiku i raunarstvo Univerziteta Singidunum za pripremu ispita iz predmeta Osnovi teorije informacija i

    kodovanja, a moe se koristiti i za savladavanje gradiva iz predmeta u kojima informacija igra kljunu ulogu, kao to su Kriptologija 1, Kriptologija2, Vetaka inteligencija, i uopte u svim onim strunim predmetima u kojima memorisanje, prenos i obrada podataka zahteva kvantitativno modelovanje i analizu informacionih tokova.

    U samom nazivu oblasti pojavljuje se termin Informatiar, dakle neko ko se slui informatikim tehnologijama u cilju obrade, memorisanja i prenosa svih vidova informacionih sadraja u okviru savremenih raunarsko komunikacionih sistema. Ve u samoj definiciji informatiara susreemo tri pojma obrada, memorisanje i prenos informacija (informacionih sadraja).

    Zamislimo da ste prvi dan na poslu u filijali jedne velike kompanije. Posao ste dobili nakon mnogo napora i reeni ste da date sve od sebe. ef vam zadaje sledei zadatak: Napiite program za saldiranje dnevnih rezultata poslovanja filijale, i dostavite izvetaj centrali kompanije u to kraem roku.

    Zadatak br. 1: Pisanje programa.

    Ako elim da ostavim snaan utisak moj program mora biti najbolji, a to znai da korektno radi i da je pri tome najkrai mogui (najefikasniji).

    Zadatak br. 2: Obrada podataka.

    Ako elim da ostavim snaan utisak morao bih da znam koji podaci su bitni ili bitniji za moj raun, a koji moda uopte nisu bitni. Time bih ukazao kompaniji na nepotrebno prikupljanje nekih podataka.

    Zadatak br. 3: Slanje podataka u centralu kompanije.

    O

    VII

  • Ako elim da ostavim snaan utisak morao bih da znam koji je najefikasniji nain dostave, odnosno kako da u to kraem roku poaljem podatke koji e biti primljeni bez greke. Moja bi se pozicija jo vie uvrstila ako bih znao da kaem da li podatke treba zatiti i ako treba, kojim metodama iz skupa bezbednosnih servisa. Zasigurno bih postao zvezda kompanije ako bih na zahtev efa umeo da podatke poaljem apsolutno tajno (dakle da primenjenu ifru niko ne moe ni sa kakvim raunarskim resursima nikada razbiti) i da pri tome garantujem apsolutnu tajnost.

    Promocija bi mi bila osigurana ako bih znao da generiem veliku koliinu ifarskih kljueva i da pri tome poznajem metode za njihovu sigurnu distribuciju. Navedimo ta je neophodno da znam da bih sve ove zadatke uspeno obavio:

    ta je informacija, kako se meri? ta je algoritamska sloenost i kako se meri? ta su granice kompresije jednog skupa podataka ispod koje se ne moe ii

    bez gubitka dela informacije? ta je uzajamna informacija izmeu dva skupa podataka, odnosno koliko

    jedan skup podataka sadri u sebi informacije o onom drugom? ta je redundansa (suvinost) jednog izvora informacija i kako se ona moe

    iskoristiti? Kako mogu da konstruiem transformaciju podataka koje aljem ili

    memoriem, tako da na prijemu ili prilikom iitavanja mogu da ispravljam greke u prenosu ili prilikom memorisanja?

    Nakon izuavanja ovog udbenika, italac e dobiti osnovna znanja, koja mu omoguavaju da sa razumevanjem rei ove zadatke. Stoga materijal izloen u okviru Osnova teorije informacija i kodovanja, ne obuhvata samo teorijsko razumevanje informacionih procesa koje susreemo u svakom raunarsko komunikacionom sistemu, ve predstavlja i snaan praktini aparat koji savremenom informatiaru olakava reavanje problema koje mu namee sve sloenija i zahtevnija praksa.

    VIII

  • Udbenik se sastoji od 7 poglavlja ukljuujui uvod i bibliografiju koriene literature. Osim toga radi kompletnosti, na kraju su i dva dodatka sa renikom osnovnih pojmova. Prvi dodatak se odnosi na kratak uvod u GNU Octave programsko okruenje, kao programsko okruenje u okviru koga se rade vebe iz svake od izuavanih tematskih celina. Drugi dodatak se odnosi na primenu teorije informacija u modelovanju i analizi ifarskih sistema. italac e kroz ovaj dodatak stei utisak o moi i adekvatnosti teorije informacija u opisivanju i analizi svih kljunih fenomena bitnih za razumevanje bezbednosnih servisa jednog ifarskog sistema. Od posebne vanosti je demonstracija efikasnosti ove teorije u formulisaju kriterijuma apsolutne tajnosti ifarskog sistema, to je od kljune vanosti kako za razumevanje mehanizama zatite uopte, tako i za dobijanje jasnih uputstava prilikom sinteze ovih sistema optimalnih performansi.

    Savremeni razvoj bezbednosnih servisa na Internetu, pokazuje da je informaciono teorijski pristup, izloen u ovom udbeniku, upravo na frontu najnovijih pravaca razvoja, koji ve danas mogu obezbediti sisteme zatite, kontrolisane i izmerljive snage. Time je potpuno osiguran bezbedan sadanji i svaki budui razvoj Interenta, kao opte raunarsko komunikacione infrastrukture, kljune za razvoj digitalne ekonomije i nove globalne digitalne civilizacije.

    Na kraju, zahvaljujemo se recenzentima na korisnim sugestijama i primedbama koje smo uvaili i inkorporirali u udbenik.

    Beograd, 2013. godine Autori

    IX

  • 1. UVOD

    U teoriji informacija centralni pojam zauzima pojam informacije kao fenomen i komunikacija kao proces. Intuitivn predstv pojm informacije je gotovo svima nama bliska, li nun zsnovnost i interpretcij informacije utemeljena je tek polovinom prolog veka raanjem nove naune discipline Teorije informacija.

    Informcij je postl relevntn pojm z sve nuke koje se bve simbolikom komunikcijom u rsponu od mtemtike do runrske nuke, ili od logike do lingvistike, odnosno od elektronike do bibliotekrstv, ko i od humnistikih nuk i umetnosti do dokumentlistike, li i od drutvenih nuk do medicine i dr.

    To je informciji dlo interdisciplinrnu dimenziju, jer je svk nuk pokul i jo pokuv d protumi tj kompleksn pojm. Sve ovo ukzuje d pojm informcij nije lko shvtiti niti jednostvno protumiti. Informcij je re ltinskog porekl in formare i izvorno je znil stvljnje u odreenu formu, odnosno, dvnje oblik neemu, li je tokom vremen izgubil prvobitno znenje.

    10

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • 1.1. POJAM INFORMACIJE

    Dns nem jedinstvenog pristup fenomenu informcije, jo mnje jednoznne i opte prihvene definicije informcije. Naveemo nekoliko definicija informacije:

    Ljudi su tvorci i nosioci informcij", Informcij mor, pre sveg, d im odreeni smiso, on mor biti

    nosilc znenj", Informcij je sve ono to dje nove podtke, ili nov obvetenj o nekoj

    injenici ili nekom dogju, koji nisu bili rnije poznti", Informcije su oni delovi vesti koji z primoc imju vrednost novosti i

    koji mu omoguvju d bolje izvri svoje zdtke", Informcije su sznnj koj postju dostupn pomou sredstv

    komunikcij, poseduju obvetjnu vrednosti", ... sdrj onog to rzmenjujemo s spoljnim svetom dok mu se

    prilgovmo i dok utiemo n njeg", ... svesn ili ciljn orgnizovnost podtk"...

    U univerzitetskoj literturi njee definicije pojm informcij su :

    Informcij je inkrement znnj", njenim postojnjem je ne znnje o neemu uveno

    Informcij je znenje koje dodeljujemo podtku" Informcij je skup podtk u nekom kontekstu Informacija je primljena i shvaena poruka

    Vno je nprviti rzliku izmeu podtk i informcije, pojmov koji se esto poistoveuju. N primer broj 17 je podtk i on ko tkv nem posebno znenje. sd je 17 sov" je informcij jer je podtku dodeljeno neko znenje. Tko moemo uvideti d se informcij sstoji od podtk i znenj koje mu je dodeljeno.

    11

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 1.2. INFORMACIJSKA HIJERARHIJA

    PIZM Podaci, Informacija, Znanje, Mudrost (engl. Data, Information, Knowledge, Wisdom) je predlog strukturiranja podataka, informacija, znanja i mudrosti u jednu informacijsku hijerarhiju gde svaki nivo dodaje odreena svojstva iznad i ispod onog prethodnog.

    Podatak je najosnovniji nivo,

    Informacija dodaje kontekst,

    Znanje dodaje kako ga upotrebiti,

    Mudrost dodaje kada i zato ga upotrebiti.

    Na slici (Slika 1.1) prikazana je hijerarhijska piramida.

    Slika 1.1 Hijerarhijski model PIZM

    PIZM model se temelji na nizu postupaka:

    podatak dolazi u obliku neobraenih zapaanja i dimenzija, informacija se oblikuje analiziranjem veza i odnosa izmeu podataka, znanje se oblikuje koristei informaciju za delovanje,

    12

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • mudrost se oblikuje kroz upotrebu znanja, kroz komunikaciju korisnika znanja i kroz razmiljanja. Opteprihvaeno je miljenje da je podatak manji od informacije, a informacija je manja od znanja, odnosno, da bi se kreirala informacija potreban je podatak i samo kada postoji informacija znanje moe izai na videlo.

    Sadraj ljudskog uma prema Raselu Akofu (Russellu Ackoffu) ine: podatak, informacija, znanje, razumevanje (saznajni i analitiki proces koji odgovara na pitanje zato) i mudrost. Prve etiri kategorije odnose na prolost i bave se onim to je bilo ili onim to je poznato. Samo se peta kategorija, mudrost, bavi buduim vremenom jer sadri matovitost, pronicljivost i kreativnost.

    Do mudrosti se ne dolazi brzo i jednostavno. Prvo se mora uspeno proi kroz sve prethodne kategorije. Pomou razumevanja se na osnovu postojeih znanja moe stvarati novo, odnosno, ljudi koji razumeju mogu preduzimati korisne aktivnosti zato to mogu sastaviti novo znanje ili barem nove informacije na osnovu ve postojeeg znanja. Razlika izmeu znanja i razumevanja je kao i izmeu uenja i memorisanja.

    13

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 1.3. INFORMACIONO DRUTVO

    Znanje je rezultat uenja. Poveanje nivoa znanja dovodi do boljeg odluivanja. Nove informacione tehnologije dovode do ubrzanja i sve veih koliina podataka i informacija.

    Sveprisutnost informacija dovela je do toga da savremeno drutvo ve oznaavamo kao informaciono drutvo. Razlog za to ne lei samo u sveprisutnosti, ve i kljunom znaaju informacija u funkcionisanju gotovo svih ljudskih delatnosti.

    Danas ve imamo informacionu teoriju sistema, informacionu teoriju odluivanja, informacionu ekonomiju, informacionu filozofiju, informacionu teoriju svega u okviru teorijske fizike, informacionu medicinu i tako redom.

    Eksperimentalno je potvren revolucionarni novi pristup leenju, po kome se uzronicima bolesti, npr. virusima alje informacija da izvre sopstveno samounitenje.

    Razvoj tehnikih sistema za prenos i memorisanje informacionih sadraja, kao to su raunari, internet i savremeni digitalni telekomunikacioni sistemi, nisu na adekvatan nain praeni teorijskim rezultatima i relevantnim studijama fenomena informacija, kao i sistema za njeno efikasno kodovanje, prenos, memorisanje i zatitu.

    Savremena ekonomija pomera svoje teite ka informacionoj ekonomiji. ta to zapravo znai? U klasinoj ekonomiji cenu robe ine komponente kao to su utroene sirovine i energija, ljudski rad, amortizacija sredstava za proizvodnju i profit.

    Razvoj sredstava za proizvodnju ide ka tome da e osnovnu komponentu u ovoj ceni sve vie da preuzima informacija kako neto napraviti, a ne neposredna materijalna osnova proizvoda (rad, sirovine, energija).

    Pojavom fuzionih reaktora u kojima se moe sintetizovati bilo koja sirovina uz utroak energije i sirovina zanemarljive cene, dovodi nas u do sada nezamislivi

    14

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • scenario po kome e cena jednog proizvoda biti jednaka ceni informacije potrebne za pravljenje programa koji upravlja sintezom u fuzionom reaktoru.

    Ovo je samo jedan primer koji potvruje ve postojee stanje stvari po kome je informacija izborila status resursa, istog kao to je u klasinoj privrednoj delatnosti to sirovina, energija ili ljudski rad.

    Ako informacija postaje dominantni resurs privredne delatnosti, onda se tim resursom mora paljivo rukovati.

    Stoga prenos, memorisanje i zatita informacija dolaze na prvo mesto, kao kritine tehnologije kojima se obezbeuje stabilan razvoj i u krajnjoj liniji opstanak jedne drutvene zajednice.

    Upravo teorija informacija daje teorijske i praktine okvire za sintezu sistema koji obezbeuju efikasnost i raspoloivost informacionih resursa, shvaenih na gore pomenuti nain.

    Teorija informacija u tehnikom smislu, kako se danas razume i tumai, vodi poreklo od radova Kloda enona objavljenih neposredno nakon drugog svetskog rata.

    enon je definisao ovu disciplinu kao teoriju za reavanje problema prenosa signala preko komunikacionih kanala.

    Iako je ovakav pristup danas suvie uzak, pogotovu ako se ima u vidu merenje informacionog (semantikog) sadraja poruka koje se memoriu ili prenose, enonov pristup predstavlja i dalje centralno jezgro ove teorije.

    15

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 1.4. TEORIJA INFORMACIJA KAO AKADEMSKA DISCIPLINA

    Teoriju informacija je zasnovao Klod enon (Claude Shannon) (1916-2001). enon je radio u istraivakom centru Bell Laboratories (1941-1956), a kasnije u Massachusetts Institute of Technology (1956-1978).

    Slika 1.2 Klod enon (1916-2001)

    enon je traio odgovor na dva fundamentalna pitanja teorije komunikacija:

    1. Do koje mere se neki skup podataka moe komprimovati (odgovor: entropija izvora H)?

    2. ta je krajnja brzina komuniciranja za zadati komunikacioni kanal (odgovor: kapacitet kanala C)?

    Odnos teorije informacija i telekomunikacija - Elektrotehnika (Telekomunikacije). Do enonovih radova smatralo se da je nemogue slati informacije pozitivnom brzinom sa zanemarljivom verovatnoom greke. enon je u svom fundamentalnom radu iz 1948. godine iznenadio celokupnu naunu zajednicu iz domena telekomunikacija pokazavi da je greku prenosa mogue smanjiti proizvoljno za sve brzine prenosa ispod kapaciteta kanala.

    16

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • enonova dva fundamentalna rada su:

    Klod enon (C. E. Shannon), A mathematical theory of communication, Bell System Technical Journal, vol. 27, pp. 379423 and 623656, July and October, 1948.

    Klod enon (1949). Communication Theory of Secrecy Systems". Bell System Technical Journal, 28 (4): 656715.

    enon je dalje pokazao da informacioni izvori kao to su muzika ili govor poseduju kompleksnost ispod koje se signali ovih izvora ne mogu dalje komprimovati bez gubitaka. Ovu kompleksnost je nazvao entropija i razlikovao je od pojma entropije uvedenog mnogo ranije u oblasti termodinamike. Dakle, ako je entropija izvora manja od kapaciteta kanala, mogue je dizajnirati komunikacionu emu koja je asimptotski bez greke prenosa.

    Pojava turbo kodova pribliava nas enonovoj granici (dakle komunikaciji sa maksimalno moguom brzinom-u blizini kapaciteta kanala, sa nultom grekom prenosa). Front oblasti je danas dominantno tzv. (engl. Network coding) mreno kodovanje, odnosno teorija simultanog komuniciranja vie vorova u jednoj mrei razliitim brzinama u prisustvu umova i interferencija.

    Odnos teorije informacija i raunarske nauke - Kolmogorov, aitin i Solomonov su razvili ideju da je kompleksnost jednog niza jednaka duini najkraeg raunarskog programa koji generie date podatke. Kompleksnost je dakle jednaka duini minimalnog opisa (deskriptivna kompleksnost). Pokazalo se da je ideja Kolmogorovljeve kompleksnosti univerzalna i nezavisna od konkretnog raunara.

    Kolmogorovljeva kompleksnost K je priblino jednaka enonovoj entropiji H, ukoliko je posmatrana sekvenca za koju se ona rauna izvuena sluajno u skladu sa nekom raspodelom verovatnoa koja ima entropiju H. Stoga je veza izmeu enonove teorije informacija i Kolmogorovljeve kompleksnosti gotovo perfektna.

    Odnos teorije informacija i fizike - Statistika mehanika je mesto roenja entropije i drugog zakona termodinamike. Entropija uvek raste. Drugi zakon termodinamike daje teorijsku osnovu za odbacivanje svake tvrdnje o egzistenciji perpetumobila.

    17

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Odnos teorije informacija i matematike - Fundamentalne veliine teorije informacija: entropija, relativna entropija, uzajamna informacija su definisane kao funkcionali raspodela verovatnoa. Sa svoje strane ove veliine dobro opisuju ponaanje dugakih sekvenci sluajnih veliina i omoguavaju nam procenu verovatnoa retkih dogaaja (teorija velikih devijacija), kao i ocene eksponenta greke (engl. error exponent) pri statistikom testiranju hipoteza.

    Odnos teorije informacija i filozofskih nauka - Okamov seka: Najjednostavnije objanjenje je najbolje. Solomon i aitin su ubedljivi u dokazu da je univerzalno najbolja procedura predikcije ona koja uzima teinsku sumu predikcija svih programa koji dobro objanjavaju podatke. Naravno da je ova univerzalna procedura nepraktina, budui da je pronalaenje svih programa koji mogu da objasne date podatke vremenski zahtevan postupak.

    Odnos teorije informacija i ekonomije - Repetitivne investicije u stacionarno berzansko trite rezultuje u eksponencijalnom rastu dobitka. Rast dobitka je dualan entropiji berzanskog trita. Postoji jednoznana veza izmeu teorije optimalnog investiranja u berzansko trite i teorije informacija.

    Odnos teorije informacija, raunarstva i komunikacija - Pravljenjem velikih raunara na osnovu malih komponenti dovodi nas i do raunarskih i do komunikacionih limita. Raunarstvo je limitirano komunikacijom, dok su komunikacije raunarski limitirane. Stoga su svi rezultati teorije informacija u domenu komunikacija od direktnog uticaja i na raunarstvo.

    18

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • 2. ENTROPIJA I INFORMACIJA

    Neku situaciju emo oznaiti kao neodreenost ukoliko postoji vie mogunosti, pri emu nije poznato koja e od njih biti realizovana ili izabrana. Zapravo realne situacije potpune odreenosti u kojima se ishodi mogu predviati sa sigurnou su vie izuzetak nego pravilo.

    Uvedimo na formalniji nain pojam neodreenih situacija, koji je poetni gradivni blok savremene teorije informacija. Pretpostavimo neku situaciju u kojoj je mogue razliitih ishoda. Oznaimo ove mogunosti sa . Ovaj skup mogunosti emo oznaiti sa , i nazvati konanom emom izbora. Po nekom mehanizmu ili na osnovu nekog procesa ili na osnovu neije volje vri se izbor jedne od ovih mogunosti. Neodreenost asocirana zadatoj emi izbora , nastaje usled naeg neznanja ili nemogunosti da znamo koja e od alternativa biti izabrana.

    Na koji nain moemo izmeriti koliinu neodreenosti u datoj emi izbora ?

    Intuitivno predoseamo da to je vea kardinalnost skupa , odnosno broj elementa ovog skupa, vea je i neodreenost. Zato onda ne bi smo jednostavno uzeli kao meru neodreenosti? Iako je to u principu mogue, jedan drugi pristup e se pokazati delotvornijim.

    Predstavimo sebi sledeu igru: zamisli se jedna od mogunosti iz skupa , a zatim se na osnovu pitanja koja su tako formulisana da se na njih odgovara samo sa da/ne, pokuava pogoditi zamiljena vrednost.

    Mogunosti uvek moemo oznaiti redom brojevima , tako da pitanja mogu biti tipino sledeeg oblika:

    Da li je zamiljeni broj paran?

    Da li je zamiljeni broj manji od 20?

    Da li je zamiljeni broj vei od 12?

    i td.

    19

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Odmah zapaamo da ukoliko nam je potrebno vie pitanja, neodreenost eme izbora je vea. Stoga je osnovano smatrati da je broj pitanja tipa da/ne neophodnih za odreivanje nepoznate zamiljene mogunosti iz skupa , dobra mera neodreenosti eme izbora .

    Od vanosti je i kakva pitanja postavljamo. Ako su pitanja tipa da li je zamiljeni broj jednak 1, pa ako nije da li je jednak 2, pa ako nije da li je jednak 3, jasno je da nas to vodi ka postavljanju svih moguih pitanja. Ovo sigurno nije optimalan nain dobijanja tanog odgovora u najmanjem broju koraka. Meutim, ako je prvo pitanje da li je zamiljeni broj manji od , u narednom pitanju suavamo pretragu na polovinu poetnih mogunosti. Ako i u narednim koracima nastavimo da postavljamo pitanja na ovaj nain, pokazae se da je izabrana strategija vrlo efikasna.

    U cilju detaljnijeg upoznavanja sa ovim postupkom, pretpostavimo prvo da je ukupan broj poetnih mogunosti stepen broja 2, odnosno da vai . Tada moemo podeliti postavljanjem prvog pitanja (da li je zamiljeni broj vei od ) na dva skupa iste veliine: i . Svaka od ovih polovina e bit podeljena na dve polovine narednim pitanjem.

    Ako je odgovor na prvo pitanje ne, tada sledee pitanje generie skupove i . Ako je odgovor na prvo pitanje da, tada naredno pitanje pravi razliku izmeu skupova i . Prikazani proces postavljanja pitanja i dobijanja odgovora prikazan je odgovarajuom grafskom strukturom na Slika 2.1.

    Slika 2.1 Stablo pitanje odgovor nastalo tokom binarne pretrage za nepoznatom mogunou od ukupno mogunosti.

    20

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Svakom pitanju odgovara jedan vor, oznaen skupom mogunosti identifikovanih do tog momenta. Prvi vor je stoga oznaen skupom svih mogunosti . vorovi u prvom sloju su oznaeni sa dva skupa upola manje dimenzije, drugi sloj vorova je oznaen sa etiri skupa dimenzija etiri puta manjih od poetnog skupa i td. Odgovori se oznaavaju granama. Odgovor ne oznaavamo sa 0, dok odgovor da oznaavamo sa 1.

    Proces sukcesivnog deljenja poetnog skupa mogunosti na polovine, zavrava se nakon koraka sa ukazivanjem na taan odgovor. Broj nije nita drugo do logaritam od za osnovu 2, odnosno . Ovaj broj je znaajno manji od . Stoga izgleda razumno predstaviti koliinu neodreenosti u emi izbora pomou logaritma za osnovu dva broja svih mogunosti tog sistema.

    Ako meru neodreenosti eme izbora oznaimo sa , tada je izbor , dobar izbor barem kada je stepena 2.

    ta e se desiti u optem sluaju kada je kardinalnost skupa proizvoljan prirodan broj?

    Moemo primeniti istu emu postavljanja pitanja, s tom razlikom to e neki generisani skupovi imati neparan broj elemenata oblika , pa e njihova podela na dva dela davati podskupove neto razliite kardinalnosti i .

    Prikazana je ova situacija na Slika 2.2.

    Slika 2.2 Stablo pitanje-odgovor nastalo tokom binarne pretrage za nepoznatom mogunou u optem sluaju

    21

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Ukoliko je broj mogunosti u emi izbora , izmeu dva stepena broja 2, tj. , tada moemo ili izbaciti neke mogunosti i redukovati njihov broj na ili dodati neke mogunosti u cilju dobijanja mogunosti.

    U prvom sluaju nam je potrebno pitanja, a u drugom da bi smo pronali taan odgovor. Prema tome koliina neodreenosti u je negde izmeu ovih vrednosti, tj. . Stoga mi opet moemo uzeti kao meru neodreenosti u optem sluaju, pri emu ova vrednost nije neophodno ceo broj i konano usvajamo sledeu definiciju:

    DEFINICIJA 2.1 Koliina neodreenosti eme izbora. Za emu izbora sa mogunosti, koliina neodreenosti je definisana sa .

    PRIMER 2.1 (ahovska tabla) Neka je data prazna ahovska tabla. Postoji ukupno mogunosti za postavljanje prve figure. Stoga se odgovarajua ema izbora moe prikazati sa , gde je znaenje svakog broja jedno polje na ahovskoj tabli. Koliina neodreenosti u postavljanju jedne figure na praznu ahovsku tablu je .

    Kao i svaka druga definicija, i naa definicija mere neodreenosti je donekle proizvoljna. Opravdanja dobrih definicija se stiu njihovim svojstvima korisnosti i elegancije u praktinim primenama i olakavanju teorijskih izvoenja. Budui da je ova definicija mere neodreenosti preivela prvo stolee teorije informacija, oigledno da je zadovoljila oba ova kriterijuma.

    Napomenimo da pitanja moemo postavljati i tako da postoji vie od dva mogua odgovora. Pretpostavimo da pitanja imaju moguih odgovora. U tom sluaju svako pitanje vri podelu skupa od mogunosti u disjunktnih podskupova sa priblino

    elemenata. Ako je , tada nam je potrebno

    tano pitanja. Ako ovog puta usvojimo logaritam za osnovu k, tada je .

    Imajui u vidu da je , Vidimo da je promena osnove logaritma po efektima ekvivalentna promeni jedinice merenja i stoga nije od sutinskog znaaja.

    22

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Definicijom sistema izbora i odgovarajueg stabla pitanja, kao to je ono na (Slika 2.1), istovremeno je odreen i sistem kodovanja svih mogunosti sistema izbora. Kod jedne mogunosti dobijamo spajanjem simbola 0 i 1 na putu od korena stabla do date mogunosti. Ako su upuena binarna pitanja, tada dobijamo binarni kod za dati sistem mogunosti. Primetimo da je duina koda svake mogunosti jednaka ili sledeem najmanjem ili sledeem najveem celom broju od . Ovim se prvi put susreemo sa bliskom vezom izmeu mere neodreenosti i kodovanja.

    PRIMER 2.2 Binarno stablo pitanja. Neka je sistem mogunosti dat sa . Njegova koliina neodreenosti je

    Jedno mogue stablo pitanja je dato na (Slika 2.3). Vidimo da kod 001 reprezentuje mogunost , pri emu je njegova duina 3 jednaka narednom najveem celom broju od . Mogunost ima kod duine 2, ima kod duine 2 i td.

    Slika 2.3 Stablo pitanje-odgovor nastalo na osnovu binarnih pitanja u sistemu sa 5 mogunosti.

    Nabrojaemo sada neke najjednostavnije osobine mere neodreenosti:

    1. Ako su i dva sistema mogunosti i , tada je i . Prema tome uticaja na neodreenost ima samo broj mogunosti a ne i njihova priroda.

    23

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 2. Ako su i dva sistema mogunosti i , tada je i , budui da je logaritam neopadajua funkcija. Ova osobina je u skladu sa naim intuitivnim oekivanjima: neodreenost raste sa porastom broja mogunosti izbora.

    3. Ako su i dva sistema mogunostii ima dva puta vie mogunosti od tada uzimajui logaritam za osnovu 2, dobijamo Ovo sledi iz svojstva aditivnosti funkcije logaritma i injenice da je .

    4. Ako je sistem samo sa dve mogunosti, tada ako za osnovu logaritma uzmemo osnovu 2, tada je . Ova jedinica mere se naziva bit (jedinica binarne informacije). Vidimo da je neodreenost tesno povezana sa informacijom i da se mogu izraziti u istim mernim jedinicama. Budui da je u raunarima informacija prirodno zapisana pomou dva stanja, najpopularniji tip pitanja je binarni.

    5. Ako su nam zadata dva sistema mogunosti , , tada se ovi sistemi mogu iskombinovati u jedinstveni sistem mogunosti, ije su mogunosti svih parova . Ovakav skup svih parova se naziva dekartov proizvod dva skupa i zapisuje se u formi: .

    Nazvaemo ovaj novi sistem izbora, sistemom nezavisnih izbora. Ovim se izraava ideja da se izbor mogunosti u svakom od sistema vri nezavisno od drugog sistema. Ovakvim nezavisnim izborima se dobijaju kombinovane mogunosti. Kako se koliina neodreenosti kombinovanog sistema odnosi prema koliinama neodreenosti pojedinanih sistema mogunosti? Odgovor je formulisan u sledeem stavu.

    TEOREMA 2.1 Aditivnost neodreenosti. Neodreenost sistema nezavisnih izbora jednaka je sumi neodreenosti sistema konstituenata, tj. .

    Dokaz: Dokaz se svodi na korienje svojstva aditivnosti funkcije logaritma, naime .

    24

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Svojstvo neodreenosti izraeno Teoremom 2.1 u potpunosti podrava intuiciju da se neodreenosti u dve nezavisne situacije sabiraju, ukoliko su te situacije meusobno nezavisne, kada se razmatraju zajedno

    Vratimo se Primeru 2.1 sa ahovskom tablom, u kome smo videli da je neodreenost jedne figure na celokupnoj ahovskoj tabli .

    Na isti nain, moemo videti da je neodreenost pozicije jedne figure u jednom redu ili jednoj koloni jednaka . Iz ove injenice moemo izvesti neodreenost pozicije na celokupnoj tabli, udruivanjem u nezavisan sistem izbora sisteme izbora po kolonama i redovima, tj. .

    Uoptenje se moe direktno izvriti na sluaj nezavisnih sistema izbora. Tada je dekartov proizvod duine

    odgovarajui sistem nezavisnih izbora. Teorema 2.1 se direktno proiruje na ovaj opti sluaj i u vanosti je izraz za neodreenost zdruenog sistema mogunosti . (2.1)

    Neka se kocka baca puta i neka se podrazumeva da su bacanja nezavisna. Ovaj proces se moe modelovati pomou nezavisnih sistema izbora , pri emu svaki sistem ima 6 mogunosti. Prema (2.1), ukupna neodreenost ishoda prilikom bacanja kocke uzastopnih puta je: .

    Formalizovali smo situacije neodreenosti uvoenjem sistema , u kome se bira jedna od mogunosti, ali se ne zna koja.

    Neodreenost pridruena sistemu mogunosti se meri najmanjim brojem pitanja koja treba postaviti u cilju nalaenja stvarnog izbora. Na ovaj nain smo doli do mere neodreenosti izraene sa . Ako su upotrebljena binarna pitanja, jedinica mere neodreenosti je bit.

    Sistemom postavljanja pitanja u vezi odreivanja date nepoznate mogunosti, indukuje se stablo na osnovu koga se moe jednoznano odrediti kod svake od mogunosti sistema . Duine kodova su priblino jednake meri neodreenosti

    25

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • . Ako su koriena binarna pitanja, dobija se binarni kod. Neodredjenosti sistema nezavisnih mogunosti se meusobno sabiraju.

    26

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • 2.1. ENTROPIJA IZBORI MOGUNOSTI SA POZNATIM VEROVATNOAMA

    Postoje situacije u kojima su nam poznate verovatnoe sa kojima se pojedine mogunosti pojavljuju u nekom posmatranom sistemu mogunosti . Npr. ako neko kuca tekst na srpskom jeziku, pojedini znaci se pojavljuju ee od nekih

    drugih. Uvedimo formalno verovatnoe u sistem mogunosti dodelom verovatnoa mogunostima za Ove verovatnoe moraju da zadovolje sledee uslove:

    . (1.2)

    Sistem izbora zajedno sa skupom verovatnoa obrazuje verovatnosni sistem izbora. Formalno, definiemo ga na sledei nain.

    DEFINICIJA 2.2 Ako je sistem izbora a skup verovatnoa nad , koji zadovoljava uslov (1.2), tada se par naziva verovatnosni sistem izbora. Ukoliko je , tada se u terminima teorije verovatnoe on naziva dogaaj, a njegova verovatnoa je data sa .

    Kolika je koliina neodreenosti u verovatnosnom sistemu izbora?

    Moemo pristupiti na isti nain postavljanjem niza odgovarajuih pitanja. Meutim, sada bi podela na skupove jednakih veliina bila neoptimalna strategija, jer njome ne bi bile obuhvaene verovatnoe kojima raspolaemo.

    Pretpostavimo npr. da je jedna mogunost, recimo mnogo verovatnija od svih drugih. Razumno je odmah prvo pitati da li se mogunost realizovala, jer sa velikom verovatnoom postoji ansa da smo pogodili samo na osnovu jednog pitanja. Samo ako je odgovor ne nastavlja se sa pitanjima.

    PRIMER 2.3 Neka je dat verovatnosni sistem izbora sa i . Odgovarajue binarno stablo prikazano je na (Slika 2.4), dok je alternativno stablo koje uzima u obzir verovatnoe, prikazano je na (Slika 2.5). Jednostavnim raunom dolazimo do

    27

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • podatka da je oekivani broj pitanja u sluaju binarnog stabla 3, a u sluaju stabla koje uzima u obzir verovatnoe 2.75.

    Slika 2.4 Binarno stablo iz primera 2.3 sa oekivanim brojem pitanja 3.

    Slika 2.5 Alternativno stablo iz primera 2.3 kada su u obzir uzete verovatnoe pojavljivanja svih mogunosti. Oekivani broj pitanja je 2.75.

    Minimizacija oekivane vrednosti broja postavljenih pitanja nije trivijalan zadatak. Reenje ovog problema je poznato i veoma se koristi u teoriji kodovanja. Kljuna ideja ovog postupka je da se skup svih mogunosti ne deli na podskupove

    28

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • jednake kardinalnosti, ve jednakih verovatnoa. Iz teorije kodovanja je poznato da je oekivani broj pitanja aproksimativno iznosi

    Ova veliina se naziva entropija, i predstavlja meru neodreenosti koliine neodreenosti verovatnosnih sistema mogunosti. Ukoliko je neka od verovatnoa , usvaja se konvencija da je , to sledi iz injenice da je

    .

    DEFINICIJA 2.3 Neka je verovatnosni sistem mogunosti. Tada je koliina neodreenosti u njemu definisana entropijom

    U definiciji (2.3) postoji odreeni stepen proizvoljnosti, budui da nije definisana osnova logaritma. Baza logaritma odgovara broju moguih odgovora u eksperimentu postavljanja pitanja i dobijanja odgovora. Promena baze menja samo jedinicu mere. Binarni sluaj je najpopularniji i njemu odgovara jedinica bit.

    PRIMER 2.4 Izraunajmo koliinu neodreenosti za verovatnosni sistem neodreenosti iz primera 2.3.

    bita.

    je manje od oekivane vrednosti duine koda u boljem stablu pitanja na (Slika 2.5).

    2.1.1. SVOJSTVA ENTROPIJE

    Budui da je entropija fundamentalan pojam teorije informacija, naveemo njene osnovne karakteristike. U budue emo za sistem mogunosti nad

    29

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • verovatnoama oznaavati entropiju tog sistema sa

    Prvo emo povezati opti pojam entropije sa pojmom mere neodreenosti za sisteme mogunosti u kojima nisu definisane verovatnoe pojedinih izbora. Ako je uniformno raspodeljeno po svih mogunosti, tada je

    .

    OSOBINA 2.1 Entropija uniformne raspodele verovatnoa mogunosti jednaka je meri neodreenosti odgovarajueg sistema mogunosti bez definisanih verovatnoa moguih ishoda. Ovaj rezultat je u tesnoj vezi sa poznatim Laplasovim principom nedovoljnog razloga, koji tvrdi da ukoliko ne znamo nita odreeno o nekoj pojavi, razumno je pretpostaviti jednake verovatnoe moguih ishoda. U tom pogledu entropija je primenljiva kao mera neodreenosti i na one sisteme mogunosti u kojima nam nisu poznate verovatnoe pojedinih ishoda.

    Za zadati sistem mogunosti u kome je , imamo maksimalnu neodreenost ukoliko ne poznajemo verovatnoe ishoda ili ako su one meusobno jednake, odnosno vai . Ovaj stav moemo i formalno dokazati. U tu svrhu potrebna nam je sledea lema.

    LEMA 2.1 Neka su i dve raspodele verovatnoa nad istim brojem mogunosti . Tada vai:

    pri emu jednakost vai ako i samo ako je .

    Dokaz. Budui da je , gde oznaava prirodni logaritam za osnovu , i budui da je konveksna funkcija, vai da je . Ovu nejednainu dobijamo iz injenice da uslov konveksnosti znai da se data funkcija uvek nalazi ispod njene tangente u bilo kojoj taki, i ako za tu taku izaberemo , upravo emo dobiti gornju nejednakost, videti na (Slika 2.6).

    30

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Slika 2.6 Konveksnost funkcije ln i tangenta u taki =1.

    Stoga je:

    pa je:

    Na osnovu gornjeg zakljuujemo da je:

    Gornja nejednakost vai sa znakom jednakosti ako i samo ako je za svako i, odnosno ako je .

    Ako primenimo lemu 2.1 dobijamo:

    31

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • gde znak jednakosti vai ako i samo ako je . Ovim smo ujedno dokazali sledeu teoremu.

    TEOREMA 2.2

    gde je maksimumu traen po svim raspodelama verovatnoa sistema sa mogunosti. Maksimum se dostie samo na raspodeli koja odgovara jednakim verovatnoama svih mogunosti.

    2.1.2. VANA SVOJSTVA ENTROPIJE

    1. Ako su i dva verovatnosna sistema mogunosti za koje vai i , tada je i . Ovim se potvrdjuje intuitivan stav da entropija zavisi samo od raspodele verovatnoe, a ne i od prirode mogunosti u nekom sistemu mogunosti.

    2. U vanosti je relacija , to potie od konvencije da je . Mogunosti ija je verovatnoa nula ne utiu na ukupnu koliinu neodreenosti. To je sasvim u skladu sa naom intuicijom, poto smo sigurni da se takve mogunosti nee nikada realizovati.

    3. Posmatrajmo dvonivovsku emu sa (Slika 2.7). Na prvom nivou, biraju se dve mogunosti sa verovatnoama p i q=1-p. Ako se izabere prva mogunost, na drugom nivou se bira n mogunosti sa verovatnoama

    . Ako se izabere druga mogunost, tada se na drugom nivou bira m

    mogunosti sa verovatnoama . Podrazumeva se da vai

    Primetimo da to implicira odnosno, je raspodela verovatnoa elemenata. Tada vai sledea relacija izmeu entropija na ova dva nivoa izbora

    32

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Slika 2.7 Dvonovovski verovatnosni sistem mogunosti u kome se na prvom nivou biraju dve mogunosti sa verovatnoama p i q=1-p, a na drugom nivou ili n mogunosti sa

    verovatnoama ili m mogunosti sa verovatnoama .

    2.1.3. KARAKTERIZACIJA ENTROPIJE

    1. , za svaku permutaciju . 2. je kontinualna funkcija po svim varijablama. 3. U vanosti je jednakost

    ,

    za svaku raspodelu verovatnoa , za .

    4.

    je monotono rastua funkcija od n.

    2.1.4. SLUAJNE VELIINE - PODSETNIK

    esto se javlja situacija u kojoj se svakom elementarnom ishodu jednog eksperimenta pridruuje neki realan broj. Na takvo pridruivanje se nailazi, na primer, u igrama na sreu, gde se svakom ishodu pripisuje odreeni dobitak ili gubitak za igraa. Kao to se verovatnoe mogu raunati samo za dogaaje iz polja dogaaja, tako se i preslikavanja koja svakom ishodu dodeljuju neki realan

    33

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • broj mogu prouavati pod uslovom da zadovoljavaju odreene uslove. U tom smislu navodi se sledea definicija.

    DEFINICIJA Sluajna veliina.

    Neka je dat prostor verovatnoa (,F,P) i neka je funkcija koja preslikava prostor elementarnih ishoda u skup realnih brojeva tako da vai:

    1. Skup je dogaaj koji pripada za svako iz .

    2. .

    Tada je sluajna veliina.

    Osobina (1) se naziva merljivost i omoguava raunanje verovatnoa dogaaja vezanih za sluajnu veliinu. Osobina (2) je finitnost (konanost) sluajne veliine .

    Osobine navedene karakteriu entropiju. To znai da ako bi nametnuli vaenje ova 4 uslova na neku meru neodreenosti , oni bi implicirali kao reenje entropijsku meru neodreenosti.

    U cilju daljih izlaganja uveemo sledeu notaciju. Verovatnosnom sistemu mogunosti moemo pridruiti konanu sluajnu varijablu , koja uzima vrednosti iz . Verovatnoa da je je data sa , a se naziva gustina verovatnoe sluajne varijable . I obrnuto svaka konana sluajna varijabla inducira jedan verovatnosni sistem mogunosti. Stoga umesto verovatnosnog sistema mogunosti moemo govoriti o sluajnoj veliini, a shodno tome i o entropiji sluajne veliine sa vrednostima iz , datoj izrazom

    Sada entropiju moemo interpretirati kao meru neodreenosti asociranu sa datom sluajnom veliinom .

    Entropija sluajne varijable sa dva ishoda prikazana je na (Slika 2.8).

    34

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Slika 2.8 Entropija sluajne varijable sa dva ishoda

    Na (Slika 2.9), prikazane su entropije razliito rasporeenih sluajnih veliina.

    Slika 2.9 Entropije razliito rasporeenih sluajnih veliina

    2.1.5. USLOVNE ENTROPIJE

    Neka je zadat verovatnosni sistem mogunosti i neka je ovom sistemu asocirana sluajna veliina . Neka je observirano da se desio dogadjaj

    Kako poznavanje ove injenice utie na neodreenost sistema?

    35

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Ovaj dogaaj indukuje novi verovatnosni sistem mogunosti . Ovde je

    uslovna verovatnoa

    Neodreenost vezana za ovaj novi sistem je data sa uslovnom entropijom sluajne veliine kada je poznato

    Neka je sluajna veliina vezana za verovatnosni sistem mogunosti , gde je je jedan dogaaj. Tada je bezuslovna entropija data sa:

    bit.

    Kako je:

    dobijamo:

    2.1.6. UZAJAMNA ENTROPIJA

    U ovom poglavlju nauiemo kako se entropija zdruenog sistema mogunosti ili viedimenzionih promenljivih odnosi prema entropiji komponenata sistema mogunosti ili pojedinanih promenljivih. Takoe, kako poznavanje izbora u jednoj komponenti sistema mogunosti ili vrednosti jedne promenljive utiu na neodreenost preostalih komponenti sistema mogunosti ili promenljivih.

    Neka su zadati sistemi mogunosti uz koji je vezana sluajna varijabla i sistem uz koji je vezana sluajna varijabla . Tada moemo definisati zdrueni sistem , gde je opisano zdruenom raspodelom

    36

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • verovatnoe , definisanom nad parovima . Tada moemo definisati tri entropije nad ova tri sistema:

    U kakvom su odnosu ove tri entropije?

    TEOREMA 2.3

    Za bilo koji par sluajnih veliina i vai:

    Znak jednakosti vai ako i samo ako su X i Y nezavisne sluajne veliine, tj.

    Odavde vidimo da je neodreenost zdruenog sistema uvek manja od sume neodreenosti pojedinanih sistema. Razlog potie od meusobne zavisnosti (korelisanosti) i , koja kao da rezultuje u zajednikom udelu neodreenosti u obe varijable. U sluaju nezavisnih i , ove zajednike neodreenosti nema, i u vanosti je znak jednakosti.

    Teorema 2.3 se moe generalisati na vie od dve varijable. U optem sluaju, ako imamo sluajni vektor , ija je raspodela verovatnoa data sa, zdruena entropija entropija je data sa:

    Sve marginalne raspodele pojedinih komponenti vektora su date sa:

    37

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Sluajne veliine su uzajamno nezavisne , ako i samo ako vai:

    LEMA 2.2 Za bilo koji sluajnu viedimenzionu varijablu (sluajni vektor) vai:

    Jednakost vai samo u sluaju uzajamne nezavisnosti sluajnih varijabli

    PRIMER 2.5 Neka su nezavisne sluajne veliine koje dobijaju vrednost 0 i 1 sa verovatnoama 0.5, odnosno:

    za

    Tada je:

    Posmatrajmo sluajne veliine i . Neka je opservirana realizacija .

    Kako ovaj dogaaj utie na neodreenost veliine ?

    Opserviranjem menja se raspodela u uslovnu raspodelu:

    pa je uslovna entropija za kada je data sa:

    Uveemo skraeno zapisivanje :

    38

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Ako su dve sluajne varijable nezavisne, tada je:

    Odnosno, kada su i nezavisne, opservacija promenljive ne menja neodreenost promenljive . Pored ove uslovne entropije moemo definisati oekivanu uslovnu entropiju:

    to je u stvari oekivana vrednost u odnosu na y.

    Do sada smo se susreli sa tri tipa uslovnih entropija:

    Uslovna entropija varijable u odnosu na dogaaj ili observaciju .

    Uslovna entropija varijable u odnosu na dogaaj

    Oekivana vrednost uslovne entropije

    TEOREMA 2.4 Za par sluajnih promenljivih i uvek vai:

    ili

    DOKAZ TEOREME 2.4 Vai , pa je stoga:

    39

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • KAROLARIJ 2.1 Za svaki par sluajnih veliina i vai:

    Jednakost vai ako i samo ako su i nezavisne.

    DOKAZ KAROLARIJA 2.1 Primenom pravila lananja, datog Teoremom 2.3 dobijamo:

    pri emu jednakost vai ako i samo ako su i nezavisne.

    KAROLARIJ 2.2 (Generalizovano pravilo lananja) Neka su sluajne veliine. Tada vai:

    DOKAZ KAROLARIJA 2.2 Dokazaemo ga indukcijom. Za m=2, stav vai i dat je teoremom 2.4. Pretpostavimo da vai za neko m. Neka je Na osnovu teoreme 2.4 i pretpostavki indukcije, dobijamo:

    Kako vai za , vai i za svako .

    40

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • PRIMER 2.6

    Sledi:

    Odakle moemo da vidimo da vai Teorema 2.4

    Odnosno:

    Slika 2.10 Model komunikacionog kanala

    41

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Kanal se opisuje uslovnim raspodelama:

    koja se esto naziva i transmisiona matrica. Jednakost oznaava da se celokupna neodreenost sistema sastoji od neodreenosti ulaza i neodreenosti prenosa preko kanala .

    PRIMER 2.7 (Binarni simetrini kanal) Transmisiona matrica je data sa:

    Odakle se vidi da je greka prenosa. Neka je Tada je:

    to nije iznenaenje jer je kanal simetrian. Uz odreeni napor na osnovu gornjih izraza moemo proveriti da vai:

    Neka je:

    42

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Tada je:

    43

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 2.2. INFORMACIJA I NJENA MERA

    ta je informacija i kako se ona meri?

    Osnovna ideja je da je ona vezana za promenu neodreenosti. Mera informacije, stoga mora biti srazmerna koliini promene neodreenosti.

    Opservacija sluajne veliine ili dogaaji vezani za jednu sluajnu veliinu predstavljaju informaciju. Koliina informacije dobijena na osnovu opservacija sluajne veliine ili dogaaja se meri na osnovu rezultujue promene neodreenosti. Entropija i mera informacije su tesno povezani.

    2.2.1. OPSERVACIJE I DOGAAJI

    Ponimo naa razmatranja od sistema mogunosti , reprezentovanog sluajnom promenljivom , koja uzima vrednosti , sa verovatnoom Ova sluajna promenljiva opisuje jedan eksperiment u kome su ishodi neodreeni. Mera neodreenosti u vezi sa ovim eksperimentom je data entropijom:

    Kada se izvri eksperiment, mi opserviramo odreenu vrednost . Nakon toga vie nema neodreenosti. Prethodna neodreenost redukovana na aposteriornu neodreenost 0. Razlika jednaka je koliini informacije dobijene izvoenjem ovog eksperimenta. Stoga je entropija jedne sluajne veliine jednaka koliini informacije dobijene opserviranjem jedne konkretne njene realizacije.

    Ova ideja nam namee dva vana zapaanja:

    1. Budui da je informacija jednaka promeni entropije, ona se meri u istim jedinicama kao i entropija, dakle ako je u 2 osnova logaritma, jedinica je jedan bit.

    44

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • 2. Dobijena koliina informacije je ista za sve mogue realizacije sluajne veliine , bez obzira da li je verovatnoa neke realizacije velika ili mala.

    PRIMER 2.8 Binarna sluajna promenljiva

    Neka je zadata binarna sluajna veliina , koja prima vrednosti 0 i 1 sa verovatnoama i , respektivno. Opserviranjem jednog ishoda binarnog eksperimenta rezultuje u dobijanju koliine informacije jednake:

    .

    Na primer, u fer bacanju novia, opserviranjem ishoda bacanja se dobija koliina informacije od 1 bita.

    Generaliimo sada ovo razmatranje. I dalje emo posmatrati sluajnu promenljivu vezanu za sistem mogunosti . Koliina neodreenosti je i dalje . Sada emo obaviti eksperiment samo parcijalno. Neemo opservirati direktno sluajnu veliinu , ve samo neki dogaaj Ovo sada predstavlja neku informaciju.

    ta je sada njena mera?

    Opservacija dogaaja menja sluajnu veliinu u uslovnu promenljivu , koja se odnosi na novi verovatnosni sistem mogunosti Ovde oznaava uslovne verovatnoe:

    za svako

    Ova nova situacija, nastala opservacijom dogaaja E, ima neodreenost jednaku uslovnoj entropiji:

    Prema tome opserviranje dogaaja , menja neodreenost sa poetne u . Koliina informacije dobijena tom prilikom je jednaka .

    45

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Videemo da ovo ne mora biti u optem sluaju dobitak, budui da moe biti i vea od , tako da opserviranje dogaaja moe da povea neodreenost, to vodi definiciji negativne informacije.

    Kada se svodi na opservaciju tane vrednosti jedne od mogunosti , tada je , pa je koliina informacije dobijena tom prilikom jednaka entropiji.

    Zato se esto entropija neke sluajne veliine naziva i informacija o samoj sebi (engl. Self-information). Odnosno entropija jedne sluajne veliine je u srednjem jednaka koliini informacije potrebne za opis te sluajne veliine.

    Da bi smo nastavili sa razvojem koncepta informacije nuno je da uvedemo dva nova pojma:

    1. relativnu entropiju i, 2. uzajamnu informaciju.

    2.2.2. UZAJAMNA INFORMACIJA

    Posmatrajmo zdrueni verovatnosni sistem mogunosti i pridruene sluajne veliine i . Pretpstavimo da smo opservirali jednu vrednost . Kao to smo videli ova situacija menja neodreenost u pogledu promenljive na nulu, odakle sledi da ova opservacija sadri bita informacije, relativno u odnosu na prethodna znanja o . Ovu veliinu emo zvati lokalna uzajamna informacija, odnosno koliko jedna realizacija sluajne veliine govori o sluajnoj veliini u celini.

    Meutim opservacija , menja i raspodelu verovatnoe sluajne veliine ,

    tako to ona sada postaje uslovna raspodela

    za svako

    Ovo znai da se takoe menja i neodreenost u pogledu sluajne promenljive . Stoga opservacija , sadri informaciju u odnosu na . Koliina ove informacije iznosi .

    46

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Ovu veliinu emo zvati lokalna uzajamna informacija sluajne veliine i , a govori o tome koliko jedna opservacija daje informacije o drugoj sluajnoj veliini .

    Preimo sada sa pojedinanih opservacija na oekivane vrednosti lokalnih uzajamnih informacija.

    Veliina se naziva uzajamna informacija izmeu sluajnih veliina i . Ona predstavlja jedan od centralnih pojmova teorije informacija. Striktno govorei ona nije informacija ve oekivana vrednost koliine informacije koju dobijamo o kada opserviramo vrednosti .

    Na osnovu Karolarija 2.3 koji tvrdi da je uvek .

    TEOREMA 2.5 dok je ako i samo ako us i meusobno nezavisne sluajne veliine.

    Podsetimo se da lokalna uzajamna informacija moe biti i negativna, dok je uzajamna informa kao njeno matematiko oekivanje uvek pozitivna. Na osnovu svojstva , dobijamo da vai Iz ove dobijene simetrije sledi sledea Teorema.

    TEOREMA 2.6 . Sumirajmo sada najznaajnija svojstva uzajamne informacije i njen odnos prema entropiji.

    TEOREMA 2.6a

    47

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 2.2.3. GRAFIKA PREZENTACIJA INFORMACIONO-TEORIJSKIH VELIINA

    Sluajne promenljive o kojim govorimo su diskretne. Za dve sluajne promenljive i , enonove informacione mere su: i . Napravljena je nova prezentacija informaciono-teorijskih mera. Pogledajmo i promenljive, koje odgovaraju promenljivoj i , respektivno. bie univerzalni set , autor je u radu definisao stvarnu meru nad - poljem:

    ~ ~~ ~ ~ ~ ~ ~ ~ ~ ~ ~{( ), , , ( ), ( ), ( ), ( ) , }c c cF X Y X Y X Y X Y X Y X Y

    za:

    ~ ~

    ~

    ~

    ~ ~

    ~ ~

    ~ ~

    ~ ~

    *( ) ( , )

    *( ) ( )

    *( ) ( )

    *( ) ( ; )

    *( ) ( | )

    *( ) ( | )

    *(( ) ) ( | ) ( | )c

    X Y H X Y

    X H X

    Y H Y

    X Y I X Y

    X Y H X Y

    Y X H Y X

    Y X H X Y H Y X

    i:

    *( ) 0

    Primeujemo da prvih est jednakosti sa leve strane u izrazu moemo dobiti sa izrazima sa desne strane sa kojima su predstavljene enonove informacione mere za X i Y , uradivi zamenu simbola:

    48

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • /,;| .

    H I

    Ovo je formalna zamena simbola. Ne postoji znaajna razlika izmeu entropije i zajednike informacije. Entropija se nekad odnosi na samu informaciju. Tako da za dve sluajne promenljive X i Y moemo koristiti enonove informacione mere na polju F . Mera * je isto kao I - mera za dve sluajne promenljive X i Y . Lako je uvideti da za bilo koji teorijski identitet informacije X i Y , moemo dobiti odgovarajui teorijski identitet formalnom zamenom simbola.

    Na primer, za informaciono teorijski identitet:

    ( , ) ( ) ( ) ( ; ),H X Y H X H Y I X Y

    Sledi set teorijskog identiteta:

    ~ ~ ~ ~ ~ ~( ) ( ) ( ) ( ).X Y X Y X Y

    U nastavku sledi grafika prezentacija enonovih mera, preuzeta iz rada (1991).

    Zajednika entropija dve diskretne sluajne promenljive X i Y , ili njihova entropija nakon udruivanja definisana je sa ( , )H X Y . Ovo znai da ako su promenljive nezavisne, njihova entropija bie zbir njihovih pojedinanih entropija ( ) ( ) ( , )H X H Y H X Y , prikazano na, (Slika 2.11).

    Slika 2.11 Dve sluajne promenljive

    49

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Pod uslovom da je:

    ( , ) ( ) ( )H X Y H X H Y

    i:

    0 ( ) log2H X n

    Gde n predstavlja broj moguih vrednosti X .

    2. Uslovna entropija ili uslovna nezavisnost promenljive X kada poznajemo promenljivu Y (esto se naziva ekvivokacija) je prosena uslovna entropija nad Y . Osnovna osobina ovog oblika entropije je:

    ( | ) ( , ) ( ).H X Y H X Y H Y

    Sledi grafika prezentacija ove veliine, (Slika 2.12).

    Slika 2.12 Uslovna entropija

    Pod uslovom da je:

    ( | ) ( ),( | ) ( ).

    H X Y H XH Y X H Y

    3. Uzajamna informacija meri koliinu informacije koju je mogue dobiti o jednoj promenljivoj, kada je opservirala ili kada je poznata druga. Ova veliina je vana u komunikacijama, gde se moe koristiti u cilju poveavanja razmenjene koliine informacije izmeu poslatih i primljenih signala. Sledi grafika prezentacija ove veliine, (Slika 2.13).

    50

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Slika 2.13 Uzajamna informacija

    Pod uslovom da je:

    2.2.4. RELATIVNA ENTROPIJA

    Posmatrajmo dva verovatnosna sistema mogunosti nad istim skupom mogunosti S. Ako su X i Y korespondentne sluajne promenljive, tada se veliina:

    Naziva relativna entropija ili Kulbak Lejblerova divergencija (Kulbak-Lejblerovo rastojanje) izmeu raspodele dve sluajne veliine X i Y. Iako se u jednom od naziva koristi rastojanje, primetimo da ne vai uslov simetrinosti, naime:

    Divergencija je jednaka nuli:

    Ako i samo ako su:

    51

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Poto se usvaja konvencija da je:

    ukoliko postoji za koje je , a =0.

    Posmatrajmo zdrueni verovatnosni sistem mogunosti kome je asociran par sluajnih veliina Marginalni sistemi i su indukovani marginalnim raspodelama verovatnoa:

    Oznaimo sa raspodelu verovatnoa Tada vai:

    Ako u gornji izraz zamenimo vrednosti i dobijamo:

    Na osnovu ovih uvida nam je jasno da uzajamna informacija meri stepen divergencije zdruene raspodele verovatnoe para od raspodele verovatnoe ovog para u sluaju njihove nezavisnosti.

    Stoga se esto sa opravdanjem uzajamna informacija uzima kao mera meuzavisnosti dve sluajne veliine koje uzimaju vrednosti nad istim skupom.

    52

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • 2.3. ENONOVA MATEMATIKA TEORIJA INFORMACIJE

    Klod enon (Claude E. Shannon) je u radu (1948) formulisao teoriju za kompresiju podataka. enon je utvrdio da postoji fundamentalni limit za kompresiju podataka bez gubitaka. Ovo ogranienje se naziva stopa entropije i oznaava sa . Tana vrednost entropije zavisi od izvora informacija, tanije, od statistike prirode izvora. enon tvrdi da je mogue kompresovati poruke na izvoru bez gubitaka, uz stepen kompresije blizu i da je matematiki nemogue uraditi bolje od .

    Koncept ima mnogo primena u teoriji informacija i komunikacija, a enon ga je primenio i da bi izrazio koliinu aktuelnih informacija u engleskom tekstu, reima: Entropija je statistiki parametar koji meri u odreenom smislu, koliko se mnogo informacija proizvodi u proseku za svako slovo teksta u jeziku. Ako se jezik prevede u binarne digitalne znakove-bitove (0 ili 1) u najefikasnijem sluaju, entropija je srednji broj bita koji se zahteva po slovu originalnog jezika.

    Takoe, enon je razvio teoriju o gubicima prilikom kompresije podataka. Ovo je vie poznato kao stopa distorzije u teoriji. U kompresiji sa gubicima, dekompresovani podaci ne moraju biti isti kao originalni podaci. Umesto toga, neka vrednost distorzije , moe da se tolerie. enon je pokazao da za odreeni izvor sa poznatim statistikim osobinama i datom merom distorzije, postoji funkcija koja se naziva funkcija za stopu distorzije. Teorija kae da ako je tolerantna koliina distorzije, onda je ajbolji stepen kompresije.

    Kada se radi o kompresiji bez gubitaka (tj. bez distorzije ili ), najbolji mogui stepen kompresije je (odnosi se na alfabet, kao konani izvor poruka). Drugim reima, najbolja mogua stopa kompresije bez gubitaka je stopa entropije .

    Teorija o kompresiji podataka bez gubitaka i stopa distorzije zajedno ine teoriju o kodovanju informacionog izvora. Teorija o kodovanju izvora postavlja fundamentalna ogranienja na performanse svih algoritama za kompresiju podataka. Teorija, sama po sebi ne definie kako de se dizajniraju i sprovedu u delo ovi algoritmi. On meutim, daje neke savete i smernice za postizanje

    53

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • optimalnih performansi. U nastavku poglavlja analiziraemo kako je enon modelovao izvor informacija u pogledu sluajnog procesa i njegovu teoremu za kodovanje izvora bez gubitaka.

    2.3.1. MODELOVANJE IZVORA

    Zamislimo da odemo u biblioteku "Amazon". Ta biblioteka ima veliki izbor knjiga, negde oko 50 miliona knjiga. Svaka knjiga ima u proseku 50 miliona znakova (slova). Izabraemo jednu knjigu na sluajan nain. U tom momentu ta knjiga je kompresovan informacioni izvor u nekom ZIP formatu, da bismo knjigu preneli do kue na disku ili preko Interneta. Matematiki, knjigu koju izaberemo oznaavano na sledei nain:

    1 2 3{ , , ,...}.X X X X

    gde X predstavlja celu knjigu, prvi znak u knjizi je 1X , drugi znak u knjizi je 2X i tako redom. Sada emo da definiemo konaan skup simbola ili poruka A (alfabet) koje generie knjiga kao informacioni izvor.

    Staviemo sada nas u ulogu nekog inenjera koji treba da dizajnira algoritam za kompresiju izabrane knjige. Iz nae perspektive, karakteri u knjizi su sluajne promenljive koje uzimaju vrednosti iz alfabeta A . Cela knjiga je beskonaan niz sluajnih promenljivih (sluajan proces). Postoji nekoliko naina kako moemo modelovati statistike osobine knjige.

    2.3.2. ENONOVI MODELI APROKSIMACIJE

    Model aproksimacije nultog reda - Svaki karakter je statistiki nezavistan od svih drugih karaktera i verovatnoe svih 27 karaktera su jednake. Ako je ovaj model taan, onda bi niz karaktera iz ove knjige izgledao ovako (svi primeri su preuzeti iz rada (Shannon, 1948)) :

    xfoml rxkhrjffjuj zlpwcfwkcyj ffjeyvkcqsghyd qpaamkbzaacibzlhjqd

    54

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Dobijeni tekst nije proizvod jednog inteligentnog bia. Rezultat vie deluje kao posledica nasuminog udaranja po tastaturi.

    Model aproksimacije prvog reda - poznato je da se u prirodnim jezicima neka slova javljaju ee od drugih. Na primer, u engleskom jeziku slova a i e su ei nego k i z. Dakle, u ovom modelu, karakteri su i dalje nezavisni jedan od drugog, ali postoji verovatnoa distribucije karaktera koja odgovara jednom jeziku. Tipian tekst za ovaj model izgleda ovako:

    ocroh hli rgwr nmielwis eu ll nbnesebya th eei alhenhttpa oobttva nah brl

    Model aproksimacije drugog reda - kod prethodna dva modela pretpostavlja se statistika nezavisnost od jednog do sledeeg karaktera. Distribucija karaktera ne odraava u potpunosti strukturu jezika. Sa druge strane, postoje karakteri koji se ee nalaze uz neke karaktere. Ovo znai da postoji zavisnost izmeu karaktera. U ovom modelu, sadanji karakter zavisi od prethodnog karaktera, ali je uslovno nezavisan od svih prethodnih karaktera. Na primer, slovo u" se retko javlja (verovatnoa = 0.022). Meutim, obzirom da je prethodni karakter q", verovatnoa karaktera a" je sada mnogo vea (verovatnoa = 0.995). Tipian primer za ovaj model e izgledati ovako:

    on ie antsoutinys are t inctore st be s deamy achin d ilonasive tucoowe at teasonare fuso tizin andy tobe seace ctisbe

    Model aproksimacije treeg reda - trei model je nastavak drugog modela aproksimacije. Ovde karakter zavisi od prethodna dva karaktera, ali je uslovno nezavisan od svih prethodnih karaktera. U ovom modelu, distribucija varira od toga ta predstavljaju. Tipian tekst za ovaj model e izgledati ovako:

    in no ist lat whey cratict froure birs grocid pondenome of demonstures of the reptagin is regoactiona of cre

    Sada je slinost sa obini engleskim tekstom poprilino uoljiva na svakom od navedenih koraka.

    Opti model aproksimacije - U ovom modelu, knjiga je proizvoljni stacionarni sluajni proces. Statistike osobine ovog modela su previe kompleksne da bi se razmatralo praktino. Ovaj model je interesantan samo sa teorijskog stanovita.

    55

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 2.3.3. ENTROPIJA IZVORA U ODNOSU NA APROKSIMACIJU MODELA

    Entropija izvora je broj koji zavisi samo od statistike prirode izvora. Ako izvor ima jednostavan model, onda se ovaj broj moe lako izraunati. Sledi jedan proizvoljan izvor:

    ije e se vrednosti odnositi na engleski jezik.

    Model aproksimacije nultog reda - karakteri su statistiki nezavisni, svako slovo alfabeta podjednako verovatno moe doi u obzir. Neka m bude veliina alfabeta. U ovom sluaju, entropija izvor je odreena sa izrazom:

    bitova po karakteru. Za engleski tekst, veliina alfabeta . Dakle, ako je ovo bio precizan model za engleski jezik, onda entropija izvora je bitova po karakteru.

    Model aproksimacije prvog reda - karakteri su statistiki nezavisni, ukupan broj karaktera odgovara veliini alfabeta i verovatnoa svakog i-tog karaktera je poznata. Entropija izvora u tom sluaju je:

    Koristei aproksimaciju prvog reda, entropija engleskog teksta je 4.07 bitova po karakteru, ako bi ovo bio odgovarajui model izvora.

    Model aproksimacije drugog reda - neka bude uslovna verovatnoa sadanjeg

    karaktera , budui da je poznat prethodni karakter . Entropija je:

    Koristei aproksimaciju modela drugog reda, entropija engleskog teksta e biti 3.36 bita po karakteru, pod uslovom da je model ispravan.

    56

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Model aproksimacije treeg reda - neka bude uslovna verovatnoa sadanjeg karaktera , budui da su poznata prethodna dva karaktera . Entropija je:

    Opti model aproksimacije - predstavlja prvi karakter. Entropija u optem sluaju data:

    gde je suma vea od moguih vrednosti . Praktino je nemogue izraunati entropiju sa gore navedenom funkcijom. Koristei metod intuitivnog, enon je bio u stanju da proceni entropiju za 27 karaktera engleskog alfabeta, gde je entropija po jednom karakteru 2.3 bita. Vie detalja o ovome, mogue je pronai u enonovom zborniku.

    2.3.4. ENONOVA TEOREMA ZA KODOVANJE BEZ GUBITAKA

    enonova teorema za kodovanje izvora zasniva se na konceptu blokovskog kodovanja. Da bi ilustrovali ovaj koncept, uvodimo poseban izvor informacija u kojem se alfabet sastoji samo od dva slova:

    Blok kod za aproksimaciju nultog reda u ovom modelu svaki karakter je mapiran u jedan bit.

    Kodna re

    a 0.5 0

    b 0.5 1

    R=1 bit

    57

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • PRIMER

    Originalni

    podaci

    a a a a a a a a a a b b b b b a a a a a

    Kompresovani

    podaci

    0 0 0 1 1 0 1 0 0 0 1 1 1 1 1 1 0 0 0 0

    U ovom sluaju koristili smo 20 bitova za predstavljanje 20 karaktera. Proseni broj bitova po jednom karakteru je 1 bit.

    Blok kod aproksimacija drugog reda u ovom modelu svaki karakter moe da bude predstavljen sa jednim, dva ili tri bita.

    Kodna re

    aa 0.45 0

    bb 0.45 10

    ab 0.05 110

    ba 0.05 111

    R=0.71 bitova

    PRIMER

    Originalni podaci aa aa aa aa aa bb bb ba aa aa

    Kompresovani podaci 0 0 0 0 0 10 10 111 0 0

    58

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • U ovom sluaju koristili smo 14 bitova za predstavljanje 20 karaktera. Proseni broj bitova po jednom karakteru je 0.7 bita.

    Blok kod aproksimacija treeg reda po tri karaktera su predstavljena binarnom sekvencom duine od jednog do est bitova.

    Kodna re

    aaa 0.405 0

    bbb 0.405 10

    aab 0.045 1100

    abb 0.045 1101

    bba 0.045 1110

    baa 0.045 11110

    aba 0.005 111110

    bab 0.005 111111

    R= 0.55 bitova

    PRIMER

    Originalni podaci aaa aaa aaa abb bbb aaa

    Kompresovani podaci 0 0 0 1101 10 0

    U ovom sluaju koristili smo 10 bitova za predstavljanje 18 karaktera. Proseni broj bitova po jednom karakteru je 0.55 bitova.

    59

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • 2.4. LABORATORIJSKI RAD

    VEBA 1.

    Merenje koliine informacije, uvodna napomena:

    Ako je verovatnoa poruke vea, poruka sadri manju koliinu informacije i obrnuto. Koliina informacije ili informacioni sadraj poruke definisan je logaritamskom funkcijom:

    gde je verovatnoa poruke .

    Obzirom da koristimo logaritam sa osnovom dva, tada se koliina informacija meri u bitovima.

    Neki informacioni izvor generie 4 poruke jednake verovatnoe . Odrediti koliinu informacije sadrane u svakoj poruci i ukupnu koliinu informacije u ove etiri poruke.

    =

    + +

    +

    =

    = +

    +

    +

    =

    Sada, ako elimo da kodujemo binarno ove 4 poruke, koristi se sledei binarni kod (svaka poruka je kodovana sa po 2 bita):

    Poruke Kodovi

    M1 00

    60

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • M2 01

    M3 10

    M4 11

    Reenje zadatka.

    Niz sa verovatnoama:

    >> p = [0.25, 0.25, 0.25, 0.25];

    Koliina informacije u jednoj poruci:

    >> -log2(p(1))

    ans = 2

    Ukupna koliina informacije:

    >> -log2(p(1))-log2(p(2))-log2(p(3))-log2(p(4))

    ans = 8

    VEBA 2

    Entropija, uvodna napomena:

    Entropija nam daje prosenu koliinu informacije za jedan informacioni izvor i definisana je izrazom,

    bitova po jednoj poruci.

    61

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Neki izvor informacije generie 6 poruka sa sledeim verovatnoa: . Odrediti pojedinane koliine informacije u svakoj poruci, ukupnu koliinu infromacije i entropiju izvora.

    Pojedinane koliine informacije sadrane u porukama i ukupna koliina informacije:

    = +

    +

    +

    +

    +

    =

    Entropija izvora:

    =

    =

    = -0.250.25 - 0.250.25 - 0.1250.125 - 0.1250.125 - 0.1250.125 - 0.1250.125- =

    = 0.5 + 0.5 + 0.375 + 0.375 + 0.375 + 0.375 = 2.5 bita

    Sada, ako elimo da kodujemo binarno ovih 6 poruka, koristi se sledei binarni kod (svaka poruka je kodovana sa po 3 bita. Maksimalan broj poruka koji moemo da kodujemo sa 3 bita je 8.

    Poruke Kodovi

    M1 000

    M2 001

    M3 010

    M4 011

    M5 100

    62

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • M6 101

    Jednostavan primer kodovanja:

    Poruka = ;

    Kodovana poruka = ;

    Dekodovana poruka = ;

    Reenje zadatka.

    Niz sa verovatnoama:

    >> p = [0.25, 0.25, 0.125, 0.125, 0.125, 0.125];

    Koliina informacije u svakoj poruci:

    >> -log2(p)

    ans = 2 2 3 3 3 3

    Ukupna koliina informacije:

    >> sum(ans)

    ans = 16

    Entropija izvora:

    >> -sum(p.*log2(p + (p == 0)))

    ans = 2.5000

    63

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • VEBA 3.

    Entropija binarnog izvora, uvodna napomena:

    Kod binarnog informacionog izvora, izvor generie samo dve poruke, tada entropija izvora zavisi od verovatnoe poruka. Entropija binarnog izvora definisana je izrazom:

    Slika 2.14 Entropija binarnog inf. izvora sa porukama jednakih verovatnoa

    Binarni informacioni izvor generie poruke sa verovatnoama: . U tom sluaju entropija izvora je:

    bitova inf./bit

    Ukoliko binarni informacioni izvor generie poruke sa jednakim verovatnoama: tada je entropija izvora maksimalna i reenje je predstavljeno na (Slika 2.14). Uvrstimo verovatnoe u sledei izraz:

    =

    =

    64

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Iz reenja vidimo da je entropija maksimalna (1 bit).

    Reenje zadatka.

    Nizovi sa verovatnoama oba izvora:

    >> p1 = [0.75, 0.25];

    >> p2 = [0.5, 0.5];

    Entropija prvog izvora:

    >> H1 = -(p1(1))*log2(p1(1))-(1-(p1(1)))*log2(1-p1(1))

    H1 = 0.8113

    Entropija drugog izvora:

    >> H1 = -(p2(1))*log2(p2(1))-(1-(p2(1)))*log2(1-p2(1))

    H1 = 1

    VEBA 4.

    Odrediti entropiju binarnog niza duine 50 bitova u odnosu na njegovu uniformnu distribuciju. Niz je generisan na sluajan nain, a kao izvor korien je atmosferski um.

    U prvom koraku, prebrojaemo sve parove sainjene od nula i jedinica (00, 01, 10, 11). Ukupan broj moguih parova je 4. Parove emo tretirati kao poruke ovog verovatnosnog skupa .

    Vrednosti koje smo predstavili sa su verovatnoe poruka u binarnom nizu.

    00 01 10 110.24, 0.12, 0.48, 0.16;S S S Sp p p p

    65

    _________________________________________________________________________________________________Osnovi teorije informacija i kodovanja

  • Entropiju sada odreujemo na nain kao u primeru 2, zatim dobijenu vrednost delimo sa brojem 2 da bismo dobili prosenu vrednost entropije po jednom bitu.

    00 00 01 01 10 10 11 11log 2( ) log 2( ) log 2( ) log 2( )

    0.24log 2(0.24) 0.12log 2(0.12) 0.48log 2(0.48) 0.16log 2(0.16)1.7925 / 2 0.8962

    s s s s s s s sH p p p p p p p p

    bit

    Rezultat od 0,8962 bita predstavlja prosenu koliinu informacije koja je sadrana po jednom bit-u za dati binarni niz. Ako pomnoimo ukupan broj bita iz niza sa dobijenom vrednosti entropije , dobiemo ukupno 44.81 bita informacije. Moemo da zakljuimo da ovaj niz nije apsolutno sluajan, obzirom da je jedinica mere za koliinu informacije 1 bit.

    Sada nam je moda malo jasnije zato je toliko teko pronai informacioni izvor koji e generisati isto sluajne binarne nizove. U praksi je to uglavnom sluaj da se koriste pseudo sluajni generatori. Pseudo generatori otklanjaju sva prirodna nesavrenstva pravih sluajnih nizova. U tom sluaju dobijamo i pseudo sigurnost. Za potvrdu ispravnosti pseudo generatora, neophodno je sprovesti niz testova koje je predloio NIST, za proveru postojanja osobina sluajnih nizova.

    VEBA 5:

    Lokalna entropija i entropija slike, uvodna napomena:

    enonova entropija je prvi put uvedena od strane enona 1948. Entropija u toj upotrebi termina se definie kao oekivani informacioni sadraj nekog dogaaja. Ako je poznata verovatnoa za neki dogaaj, onda se entropija moe izraunati kao:

    gde se odnosi na verovatnoe simbola histograma slike. U aplikacijama, koristi se logaritam osnove 2 zbog lakeg rukovanja sa binarnim informacionim sadrajem. Za posmatrane podatke dobijeni rezultat se moe tumaiti kao relativna frekvencija dogaaja.

    66

    Osnovi teorije informacija i kodovanja ________________________________________________________________________________________________

  • Lokalna entropija zavisi od izbora veliine prozora preko koga se odreuje entropija svakog piksela. Broj prozora jednak je ukupnom broju piksela na slici.

    Metod vraa niz entropijskih vrednosti iH gde je za 2D sliku.

    Svaki piksel je centar jednog prozora kome se posebno odreuje vrednost entropije. Dobijene vrednosti izraene su preko logaritma sa osnovom 2, ime je odreena jedinica mere za informaciju 1 bit. Izabrani metod nam dozvoljava da menjamo veliinu prozora koji je kvadratne dimenzije.

    Menjanje veliine prozora dosta podsea na enonove modele aproksimacije koji se primenjuju za modelovanje informacionih izvora prirodnog jezika. Vrednost lokalne entropije se poveava poveanjem veliine prozora.

    U ovom primeru pokazaemo kako moemo lokalno da izraunamo informacionu vrednost 2D slike. Metod koji emo da koristimo je metod za raunanje lokalne entropije. Metod je dobro poznat u oblasti za obradu slika (engl. Image processing).

    Izabrana slika:

    Slika 2.15 Originalna slika (rgb 24)

    Uitavanje i prikaz slike:

    >> slika = imread('singidunum.JPG');

    >> imshow(slika)

    67

    ______________________________________________________________________________________