60
Univerzitet u Ni ˇ su Prirodno matemati ˇ cki Fakultet Departman za informatiku Spektralna particija grafova metodom super-ˇ cvora Master rad Mentor: Prof. dr Dragan Stevanovi´ c Student: Nikola Milosavljevi´ c Niˇ s, Oktobar 2013.

Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Embed Size (px)

Citation preview

Page 1: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Univerzitet u Nisu

Prirodno matematicki Fakultet

Departman za informatiku

Spektralna particija grafova metodomsuper-cvora

Master rad

Mentor:

Prof. dr Dragan Stevanovic

Student:

Nikola Milosavljevic

Nis, Oktobar 2013.

Page 2: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Sadrzaj

1 Uvod 2

2 Osnovni pojmovi spektralne teorije grafova 42.1 Formalne definicije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Courant-Fisher teorema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Spektar grafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Particija grafova 113.1 MAX–CUT i MIN–CUT problemi . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Spektralni pristup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.3 SDP i Goemans–Williamson algoritam . . . . . . . . . . . . . . . . . . . . . 153.4 VNS heuristike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 Metod super-cvora 224.1 Ideja algoritma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Analiza slozenosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.3 Rezultati za MAX–CUT problem . . . . . . . . . . . . . . . . . . . . . . . . 30

5 Detekcija klastera 365.1 Matrica modularnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Kernighan-Lin heuristika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.3 Rezultati na realnim mrezama . . . . . . . . . . . . . . . . . . . . . . . . . . 415.4 Novi algoritmi koriscenjem dendrograma . . . . . . . . . . . . . . . . . . . . 45

6 Zakljucak 53

Literatura 54

Biografija 57

1

Page 3: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 1

Uvod

Jednu od najpoznatijih i najtezih klasa problema u teoriji grafova predstavljaju problemiparticije. Neformalno, u ovim problemima se zahteva da se graf podeli na manje kompo-nente sa zadatim osobinama uz zadata ogranicenja. Osim teorijske, resavanje ovih problemaima i siroku prakticnu primenu koja ukljucuje analizu socijalnih mreza, dizajn VLSI kola,balansiranje opterecenja u multiprocesorskim sistemima itd.

Nazalost, vecna problema particije grafa pripada klasi NP-complete pa se za njihovoresavanje primenjuju razni heuristicki pristupi. Jedan od najpopularnijih i najisplatljivijihje spektralni pristup. Pod spektralnim pristupom podrazumeva se podela grafa analizomsopstvenih vrednosti/vektora neke od njegovih karakteristicnih matrica. Ove tehnike suu sirokoj upotrebi: drustvene mreze poput Facebook -a koriste varijante ovih tehnika zagrupisanje prijatelja dok najpoznatiji internet pretrazivac Google koristi Page Rank algori-tam koji je baziran na odredivanju dominantnog sopstvenog vektora web-grafa uz pomocjednostavnog metoda iteracije (power method).

Cilj ovog rada je implementacija, analiza i usavrsavanje nove spektralne tehnike za par-ticiju grafova koja je nazvana metod super-cvora (eng. supervertex ). Ovaj metod je zapravoiterativni algoritam za maksimizaciju (minimizaciju) kvadratne forme simetricne realne ma-trice na osnovu analize komponenti njenih ekstremalnih sopstvenih vektora. Kako se vecinaproblema biparticije grafa moze upravo svesti na optimizaciju kvadratne forme, metodasuper-cvora se moze (uspesno) koristiti za njihovo resavanje.

Rad je nastao kao posledica saradnje sa prof. dr Draganom Stevanovicem, idejnimtvorcem ovog metoda [1]. Osim analize samog metoda, u radu su prezentovani i analiziranioriginalni algoritmi za spektralnu klasterizaciju realnih mreza u kojima je ovaj metod nasaoprimenu.

Rad se sastoji od uvoda, cetiri poglavlja i zakljucka.

U drugom poglavlju date su osnove definicije iz teorije grafova i linearne algebre sa akcen-tom na Courant-Fisher teoremu koja predstavlja polaznu tacku mnogih tehnika spektralnihparticija. Takode su prikazane najvaznije osobine karakteristicnih matrica grafa.

U trecem poglavlju je dat pregled klasicnih problema particije grafa, ukljucujuci MIN-CUT i MAX-CUT problem i najpoznatijih (najuspesnijih) tehnika za njihovo resavanje.Ove tehnike ukljucuju kombinatorni pristup, lokalne pretrage i pretrage promenljive okoline,semidefinitno programiranje i spektralni pristup. Dat je i detaljni prikaz cuvenog Goemans-Williamsonovog randomizovanog 0.87856-aproksimacionog algoritma za MAX-CUT problemna grafovima sa nenegativnim granama [26].

2

Page 4: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Uvod 3

Cetvrto poglavlje je centralno poglavlje rada i u njemu je prezentovan metod super-cvora.Prezentovane su razlicite varijante ovog metoda, dat je pseudo-kod algoritma i analizirana jenjegova slozenost. Takode je data i motivacija za uvodenje odlucenih/neodlucenih cvorovai redukovane matrice. Metod super cvora je testiran na nekim od standardnih instanciMAX-CUT problema i dat je pregled dobijenih rezultata. Analizirane su i kombinacije ovogmetoda sa novijim heuristikama iz [29]

Peto poglavlje predstavlja primenu metoda super-cvora u klasterizaciji realnih mreza.Klasteri su dobijeni uzastopnom biparticijom grafa na osnovu Newmanovog algoritma [36] ukome je metod super-cvora koriscen za maksimizaciju kvadratne forme matrice modularnosti.Najbitniji rezultat ovog poglavlja je dizajn novih algoritama za klasterizaciju baziranih nadinamickom programiranju nad stablom particije (dendrogramu). Kao funkcije cilja uzetesu kvadratne forme nad normalizovanom Laplasovom i matricom susedstva komplementadatog grafa; za njihovu optimizaciju je takode koriscen metod super-cvora.

U zakljucku sumiramo rezultate rada i predlazemo moguce pravce za dalje istrazivanje irazvoj metoda super-cvora.

Zahvaljujem se svom mentoru, prof. dr Draganu Stevanovicu, na upoznavanju sa novimmetodama spektralne particije, konstruktivnim diskusijama i pruzenoj pomoci pri izradiovog rada.

Takode se zahvaljujem profesorima Milosu Milosavljevicu i dr Marku Milosevicu na mo-tivaciji i pripremama za takmicenja iz matematike i informatike tokom srednje skole kao iza saradnju na mnogim vannastavnim projektima tokom studija.

Posebno se zahvaljujem profesoru, koautoru i prijatelju dr Aleksandru Ilicu, koji me jenaucio mnogim stvarima od kojih je teorija grafova samo jedan mali deo.

Nijedan rad nije bez gresaka pa tako sigurno nije ni ovaj. Sve greske u ovom radu suiskljucivo zasluga autora.

Page 5: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 2

Osnovni pojmovi spektralne teorijegrafova

2.1 Formalne definicije

Za pocetak, dajemo osnovne definicije iz teorije grafova (videti [2, 3, 4, 5]). Podsetimo se daza skup X i prirodan broj k,

(Xk

)oznacava skup svih k-elementnih podskupova skupa X.

Definicija 2.1 Graf G (eng. graph) je uredeni par (V,E), gde je E ⊆(V2

). Elementi skupa

V se zovu cvorovi (eng. vertex), a elementi skupa E grane (eng. edge) grafa G.

Za graf G = (V,E), skupove V i E cemo cesto oznacavati V (G) i E(G), redom.

Definicija 2.2 Dva cvora u i v grafa G = (V,E) su susedna ako je u, v ∈ E; za njihkazemo da su spojena granom e = uv. Pod okolinom cvora v ∈ V grafa G = (V,E) (eng.neighborhood) podrazumeva se skup N(v) = u ∈ V : vu ∈ E suseda cvora v. Stepen cvorav (eng. degree), u oznaci deg(v) ili dv, je broj suseda cvora v, dv = |N(v)|.

Prethodne definicije se odnose na proste grafove - neorjentisane grafove bez petlji ivisestrukih grana. U ovom radu cemo se baviti iskljucivo takvim grafovima.

Definicija 2.3 Tezinski graf (eng. weighted graph) je uredena trojka (V,E,w), gde su V iE, redom, skup cvorova i skup grana dok je w : E → R funkcija tezine.

Tezinu grane e = uv oznacavacemo sa w(u, v) ili wu,v, tj. smatracemo da je domenfunkcije w zapravo V × V , pri cemu definisemo w(u, v) = 0 za svako uv ∈ E. Kako sekoncentrisemo na neorjentisane grafove bez petlji, uvek ce vaziti w(u, v) = w(v, u) i w(u, u) =0, za svako u, v ∈ V . Specijalno, mozemo posmatrati dodatnu funkciju c : V → R, tj.dodeljivati tezine i cvorovima.

Definicija 2.4 Graf G′ = (V ′, E ′) je podgraf grafa G = (V,E), ako vazi V ′ ⊆ V i E ′ ⊆E ∩

(V ′

2

). Graf G′ = (V ′, E ′) je indukovani podgraf grafa G = (V,E), ako vazi V ′ ⊆ V i

E ′ = E ∩(V ′

2

).

Definicija 2.5 Setnja W duzine k u grafu G je niz v0, e1, v1, e2, v2, . . . , ek, vk cvorova i granatako da je ei = vi−1vi za i = 1, 2, . . . , k. Cvorovi v0 i vk su krajnji cvorovi setnje W . Setnjaje zatvorena ukoliko je v0 = vk. Staza je setnja u kojoj se nijedna grana ne ponavlja. Put jesetnja u kojoj se nijedan cvor ne ponavlja. Ciklus je zatvorena staza u kojoj se nijedan cvorne ponavlja, izuzev prvog i poslednjeg.

4

Page 6: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 5

Cvorovi u i v grafa G su povezani ako u G postoji put ciji su krajnji cvorovi upravo u i v.Graf G je povezan ukoliko su svaka dva njegova cvora povezana - u suprotnom je nepovezan.Moze se pokazati da je relacija povezanosti cvorova u grafu - relacija ekvivalencije; klaseekvivalencije ove relacije u grafu G se nazivaju komponente povezanosti.

Definicija 2.6 Komplement grafa G = (V,E) je graf G = (V,(V2

)\ E).

Graf G je regularan, ako svi njegovi cvorovi imaju isti stepen. Ukoliko je taj stepenjedank r ∈ N za graf kazemo da je r-regularan. Graf sa n cvorova u kome postoji granaizmedu svaka dva njegova cvora naziva se kompletan i oznacava sa Kn.

Definicija 2.7 Graf G = (V,E) je k-partitan ukoliko postoji prirodan broj k i particijaA1, A2, . . . , Ak skupa cvorova V tako da za svako uv ∈ E, cvorovi u i v pripadaju razlicitmklasama particije. 2-partitan graf nazivamo i bipartitnim.

Ukoliko u prethodnoj definiciji izmedu svaka dva cvora koja pripadaju razlicitim klasamapostoji grana, radi se o kompletnom multipartitnom grafu Km1,m2,...,mk

, gde je mi = |Ai|, zai = 1, 2, . . . , k.

Definicija 2.8 Povezan graf bez ciklusa naziva se stablo. Graf koji ne sadrzi cikluse, tj.graf cija je svaka komponenta povezanosti stablo, naziva se suma. Cvor stepena 1 u grafunaziva se list.

Stablo u kojem je jedan cvor posebno izdvojen naziva se korensko stablo a taj cvor senaziva koren stabla.

Definicija 2.9 Neka je G = (V,E,w) tezinski graf i neka je (A,B) proizvoljna particijaskupa V . Tada je rez (eng. cut) particije (A,B), u oznaci cut(A,B), vrednost

cut(A,B) =∑u∈A

∑v∈B

w(u, v).

U slucaju netezinskog grafa, cut(A,B) je broj grana izmedu skupova A i B.

2.2 Courant-Fisher teorema

Centralni deo rada se zasniva na optimizaciji izraza oblika xTAx gde je A realna matricaa x realni vektor. Ovde dajemo neophodan aparat iz linearne algebre, kao i teoremu kojaogranicava prethodni izraz u funkciji od sopstvenih vrednosti matrice A (videti i [6, 7, 8]).

Vecina pojmova, definicija i teorema u ovom poglavlju se odnosi na linearne operatorenad proizvoljnim poljem ali cemo se koncentrisati iskljucivo na realne i kompleksne ma-trice. Skup realnih (kompleksnih) matrica dimenzija n×m oznacavacemo sa Rn×m (Cn×m).Na nivou celog rada sa 0 cemo oznacavati nula-vektor, sa 1 vektor sastavljen samo od je-dinica, sa I jedinicnu matricu a sa J matricu sastavljenu samo od jedinica (dimenzije ovihvektora/matrica ce se podrazumevati na osnovu konteksta).

Definicija 2.10 Kompleksan broj λ je sopstvena vrednost (eng. eigenvalue) kvadratnematrice A ∈ Cn×n ako postoji vektor x ∈ Cn \ 0 za koji vazi

A · x = λ · x. (2.1)

U tom slucaju se x naziva sopstveni vektor (eng. eigenvector) matrice A koji odgovarasopstvenoj vrednosti λ.

Page 7: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 6

Moze se pokazati da datom sopstvenom vektoru x odgovara jedinstvena sopstvena vred-nost dok, sa druge strane, datoj sopstvenoj vrednosti λ mogu odgovarati vise sopstvenihvektora. Skup svih sopstvenih vektora koji odgovaraju datoj sopstvenoj vrednosti λ za-jedno sa nula-vektorom cine vektorski prostor; njegovu dimenziju nazivamo geometrijskavisestrukost (red) sopstvene vrednosti λ.

Jednacinu (2.1) mozemo zapisati u obliku A(I − λ)x = 0 odakle mozemo zakljuciti dasu sopstvene vrednosti nule karakteristicnog polinoma

PA(x) = det(xI − A)

(kompleksne) matrice A.1 Red korena λ polinoma PA(x) naziva se algebarska visestrukost(red) sopstvene vrednosti λ.

Definicija 2.11 Spektar matrice A je skup njenih sopstvenih vrednosti, zajedno sa njihovimalgebarskim visestrukostima. Ako su λ1 > λ2 > . . . > λk razlicite sopstvene vrednosti ma-trice A a m(λ1),m(λ2), . . .m(λk), redom, njihove algebarske visestrukosti, spektar matrice Aoznacavamo sa

S(A) =

(λ1 λ2 . . . λk

m(λ1) m(λ2) . . . m(λk)

).

Neka su x,y ∈ Rn vektori. U ovom radu pod skalarnim proizvodom vektora x i y, uoznaci x · y, podrazumevamo standardni skalarni proizvod na Rn, x · y =

∑ni=1 xiyi. Skup

vektora V je ortonormiran ukoliko za ∀x,y ∈ V vazi x · y = 0 ako je x = y, a x · y = 1inace.

Matrica A je simetricna ako je A = AT . Kako se u radu bavimo neusmerenim grafovima,matrice koje cemo im pridruzivati ce biti simetricne i sledeca teorema nam je od velikogznacaja.

Teorema 2.12 (Spektralna teorema za simetricne matrice) Simetricna matrica A ∈Rn×n ima samo realne sopstvene vrednosti, njihove odgovarajuce algebarske i geometrijskevisestrukosti su jednake i postoji skup njihovih realnih sopstvenih vektora (velicine n) kojicini ortonormiranu bazu.

Za n ∈ N, A ∈ Rn×n i x ∈ Rn, izraz oblika

xTAx =n∑

i=1

n∑j=1

Ai,jxixj (2.2)

naziva se kvadratna forma matrice A.

Definicija 2.13 Realna simetricna matrica A ∈ Rn×n je pozitivno-semidefinitna (negativno-semidefinitna) ako je xTAx ≥ 0 (xTAx ≤ 0) za svako x ∈ Rn. Realna simetricna matricaA ∈ Rn×n je pozitivno-definitna (negativno-definitna) ako je xTAx > 0 (xTAx < 0) za svakox ∈ Rn \ 0.

Sledeca teorema daje karakterizaciju sopstvenih vrednosti Ermitskih operatora na Hilber-tovim prostorima (cije su specijalne podklase upravo realne simetricne matrice) u funkciji odekstremalnih vrednosti kvadratnih formi. Rezultati ove teoreme se cesto koriste kao polaznetacke u mnogim teoremama koje se ticu spektra matrica.

1U opstem slucaju, samo one nule koje pripadaju polju operatora A su njegove sopstvene vrednosti.

Page 8: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 7

Teorema 2.14 (Courant-Fischer) Neka je A ∈ Rn×n realna simetricna matrica sa sop-stvenim vrednostima λ1 ≥ λ2 ≥ . . . ≥ λn. Tada za svako k ∈ 1, 2, . . . , n vazi

λk = maxU≤Rn

dim(U)=k

minu∈U\0

uTAu

uTu= min

U≤Rn

dim(U)=n−k+1

maxu∈U\0

uTAu

uTu.

Dokaz. Dokazacemo samo prvu jednakost; druga se dokazuje analogno. Neka je x1, . . . ,xn

ortonormiran skup sopstvenih vektora matrice A koji odgovaraju sopstvenim vrednostimaλ1 ≥ λ2 ≥ . . . ≥ λn. Kako oni obrazuju bazu, za svaki vektor y ∈ Rn postoje realnikoeficijenti a1, a2, . . . , an tako da je y =

∑ni=1 aixi. U tom slucaju vazi

yTy =

(n∑

i=1

aixi

)(n∑

i=1

aixi

)=

n∑i=1

ai2;

yTAy =

(n∑

i=1

aixi

)(n∑

i=1

Aaixi

)=

(n∑

i=1

aixi

)(n∑

i=1

aiλixi

)=

n∑i=1

λiai2. (2.3)

Neka je U proizvoljan podprostor od Rn dimenzije k. Tada je njegov presek sa pod-prostorom indukovanim vektorima xk,xk+1, . . . ,xn neprazan (imaju bar jednu zajednickukoordinatu) i postoji ne-nula vektor u =

∑ni=k aixi koji mu pripada. Na osnovu prethodnih

jednacina, za njega vazi

uTAu

uTu=

∑ni=k λiai

2∑ni=k ai

2≤∑n

i=k λkai2∑n

i=k ai2

= λk.

Prema tome, minu∈UuTAuuTu

≤ λk. Sa druge strane, analognim rezonovanjem, ova vrednost sedostize ako je U podprostor razapnut nad prvih k sopstvenih vektora i to akko je u sopstvenivektor koji odgovara λk. Sledi da je maksimum (po k-dimenzionalim podprostorima U)

vrednosti minu∈UuTAuuTu

upravo λk sto je i trebalo dokazati.

Zbog izraza za λk, Teorema 2.14 je poznata pod nazivom Min-Max Teorema. U raducemo najcesce koristiti sledecu njenu direktnu posledicu:

Posledica 2.15 (Rayleigh quotient) Neka je A ∈ Rn×n realna simetricna matrica sasopstvenim vrednostima λ1 ≥ λ2 ≥ . . . ≥ λn. Tada za svaki vektor x ∈ Rn \ 0 vazi Rejlijevodnos:

λ1 ≥xTAx

xTx≥ λn,

pri cemu se leva (desna) jednakost dostize ako i samo ako je x sopstveni vektor koji odgovaraλ1 (λn).

Koristeci jednacinu (2.3) iz dokaza Teoreme 2.14 i uz pomoc konstrukcije na osnovuortonormirane baze, moze se pokazati sledeca

Teorema 2.16 Neka je A ∈ Rn×n. Tada su sledeca tvrdenja ekvivalentna:

(i) A je pozitivno semidefinitna.

(ii) Sve sopstvene vrednosti matrice A su nenegativne.

Page 9: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 8

(iii) Postoji m ∈ N i matrica B ∈ Rm×n tako da je A = BTB.

Sledeca poznata teorema daje informacije o poretku sopstvenih vrednosti matrice i njenepodmatrice.

Teorema 2.17 (Teorema o preplitanju) Neka je A ∈ Rn×n realna simetricna matrica.Neka je A′ ∈ Rn−1×n−1 matrica koja se sastoji od prvih n−1 kolona i prvih n−1 vrsta matriceA. Ako su sopstvene vrednosti za A i A′ redom λ1 ≥ λ2 ≥ · · · ≥ λn i µ1 ≥ µ2 ≥ · · · ≥ µn−1,tada vazi nejednakost:

λ1 ≥ µ1 ≥ λ2 ≥ µ2 ≥ · · · ≥ λn−1 ≥ µn−1 ≥ λn. (2.4)

Realna matrica A ∈ Rn×n sa nenegativnim elementima se naziva ireducibilna ako za svakoi, j ∈ 1, 2, . . . , n postoji prirodan broj k tako da je (Ak)i,j > 0. Ispostavlja se da najveca(po modulu) sopstvena vrednost i njoj odgovarajuci sopstveni vektor svake ireducibilne ma-trice imaju vrlo interesantne osobine. Iako naredna teorema u originalu daje vise informacijao najvecoj sopstvnenoj vrednosti, nama je od interesa njena varijanta za simetricne matrice:

Teorema 2.18 (Perron-Frobenius) Neka je A ∈ Rn×n ireducibilna simetricna matrica sasopstvenim vrednostima λ1 ≥ λ2 ≥ . . . ≥ λn. Tada vazi:

(i) λ1 > 0,

(ii) Odgovarajuci sopstveni vektor za λ1 ima sve strogo pozitivne komponente,

(iii) λ1 ≥ |λi| za i = 2, n,

(iv) λ1 je sopstvena vrednost algebarske i geometrijske visestrukosti 1,

(v) λn = −λ1 ako i samo ako se A svodi na formu (B je kvadratna matrica)[0 BBT 0

].

2.3 Spektar grafa

Sada predstavljamo vezu izmedu teorije grafova i linearne algebre. U ovom poglavlju (a i ucelom radu), podrazumevamo da je skup cvorova grafa G = (V,E) jednak 1, 2, . . . , |V |.

Definicija 2.19 Matrica susedstva (netezinskog) grafa G = (V,E), je matrica A dimenzija|V | × |V | za koju vazi

Ai,j =

1, ako je ij ∈ E,0, inace.

U slucaju teinskog grafa,

Ai,j =

w(i, j), ako je ij ∈ E,

0, inace.

Matrica susedstva predstavlja prirodnu i cesto koriscenu reprezentaciju grafa u racunaru.Sledeca teorema govori o tome kako se matrica susedstva moze iskoristiti za analizu povezanosticvorova u grafu.

Page 10: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 9

Teorema 2.20 Neka je A matrica susedstva grafa G. Tada je broj setnji duzine k izmeducvorova u i v grafa G jednak (Ak)u,v.

Osim matrice susedstva od interesa su nam i sledece dve matrice.

Definicija 2.21 Laplasova matrica (netezniskog) grafa G = (V,E) je matrica L dimenzija|V | × |V | za koju vazi

Li,j =

di, ako je i = j,−1, ako je i = j i ij ∈ E,0, inace.

Definicija 2.22 Normalizovana Laplasova matrica (netezniskog) grafa G = (V,E) je ma-trica NL dimenzija |V | × |V | za koju vazi

NLi,j =

1, ako je i = j i di = 0,

− 1√didj

, ako je i = j i ij ∈ E,

0, inace.

Laplasova i normalizovana Laplasova matrica se analogno definisu i za tezinske grafove,s tim sto se u tom slucaju umesto du uzima

∑v∈N(u) w(u, v). Matricu susedstva, Laplasovu

i normalizovanu Laplasovu matricu grafa G oznacavacemo, redom, sa A(G), L(G) i NL(G)ili jednostavno sa A, L i NL ako je jasno o kom grafu se radi.

Definicija 2.23 Spektar grafa G je spektar njegove matrice susedstva A(G).

Grafovi sa istim spektrom nazivaju se kospektralni. Izomorfni grafovi imaju isti spektraali obrat u opstem slucaju ne vazi.

Osim klasicnog spektra grafa G, cesto se posmatra i njegov Laplasov spektar tj. spektarmatrice L(G). Kako su matrice A, L i NL simetricne (posmatramo samo proste grafove),na osnovu Teoreme 2.12 sledi da su njihovi spektri realni. Specijalno, spektar prostog grafaje realan.

Iz definicije matrice L(G) imamo da je suma svake vrste jednaka 0. Prema tome L(G)1 =0 = 0 · 1 pa Laplasov spektar grafa sadrzi nulu kao sopstvenu vrednost kojoj odgovarasopstveni vektor 1.

Lema 2.24 Neka je G = (V,E,w) tezinski graf. Za svaki vektor x ∈ Rn vazi

xTL(G)x =∑uv∈E

w(u, v)(xu − xv)2. (2.5)

Specijalno, ukoliko je G netezinski, tada je

xTL(G)x =∑uv∈E

(xu − xv)2. (2.6)

Dokaz. Laplasovu matricu mozemo zapisati kao L(G) = D(G) − A(G) gde je D(G)matrica dimenzije |V | × |V | koja ima dijagonalne elemente Du,u =

∑v∈N(u)w(u, v) dok su

ostali elementi nule (matrica stepena grafa G). Sledi xTL(G)x = xTD(G)x−xTA(G)x. Naosnovu strukture matrica D(G) i A(G) dobijamo

xTD(G)x =∑u∈V

Du,ux2u,u =

∑u∈V

x2u

∑v∈N(u)

w(u, v) =∑uv∈E

w(u, v)(x2u + x2

v), (2.7)

Page 11: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Osnovni pojmovi spektralne teorije grafova 10

xTA(G)x =∑u∈V

∑v∈V

Du,vxuxv = 2∑uv∈E

w(u, v)xuxv. (2.8)

Oduzimanjem (2.8) od (2.7) dobijamo trazeni rezultat.

Na osnovu jednacine (2.6), zakljucujemo da je Laplasova matrica netezinskog grafa poz-itivno semidefinitna. Na osnovu Teoreme 2.16 i prethodne diskusije sledi da je Laplasovspektar nenegativan: µ1 ≥ µ2 ≥ . . . ≥ µn = 0. Laplasov spektar moze biti od pomociprilikom odredivanja povezanosti grafa.

Teorema 2.25 Visestrukost sopstvene vrednosti 0 u Laplasovom spektru grafa G jednaka jebroju povezanih komponenti grafa G.

Spektar nepovezanog grafa se lako odreduje na osnovu spektara njegovih povezanih kom-ponenti o cemu svedoci sledeca

Teorema 2.26 Spektar (Laplasov spektar) grafa G jednak je uniji spektara (Laplasovih spek-tara) njegovih povezanih kompoenenti, pri cemu se visestrukosti sabiraju.

Na osnovu prethodne teoreme, prilikom odredivanja i analize spektra dovoljno je kon-centrisati se na povezane grafove. Spektre ”najpovezanijih” je lako odrediti; nije teskopokazati da je spektar (Laplasov spektar) kompletnog grafa Kn jednak n − 1, (−1)n−1(0, nn−1) dok je spektar (Laplasov spektar) kompletnog bipartitnog grafa Km,n jednak±√mn, 0m+n−2 (0,mn−1, nm−1,m+ n).

U ovom radu ce nam od interesa biti i provera bipartitnosti grafa na osnovu njegovog

spektra. Ako je G bipartitan graf tada za njegovu matricu susedstva vazi A =

[0 BBT 0

]gde je B kvadratna matrica. U tom slucaju, ukoliko je λ njegova sopstvena vrednost kojoj

odgovara sopstveni vektor

[uv

]tada je i −λ sopstvena vrednost sa vektorom

[u−v

].

Prema tome spektar bipartitnog grafa je simetrican; da vazi i obrat svedoci sledeca

Teorema 2.27 Povezan graf G je bipartitan ako i samo ako su apsolutne vrednosti njegovenajvece i najmanje sopstvene vrednosti jednake. U tom slucaju, cvorovi se mogu podeliti uklase prema znaku odgovarajucih komponenti najmanjeg sopstvenog vektora matrice A(G).

Zaista, prvi deo prethodne teoreme sledi na osnovu Teoreme 2.18(iv),(v) i cinjenice da jeA(G) ireducibilna akko je G povezan. Drugi deo sledi na osnovu dela (ii) iste teoreme iprethodnog zapazanja o strukturi sopstvenog vektora za λ i −λ.

Bipartitnost se moze detektovati i na osnovu normalizovane Laplasove matrice.

Teorema 2.28 Povezani graf G je bipartitan ako i samo ako je najveca sopstvena vrednostmatrice NL(G) jednaka 2. U tom slucaju, cvorovi se mogu podeliti u klase prema znakuodgovarajucih komponenti najveceg sopstvenog vektora matrice NL(G).

Dokazi prethodnih teorema i vise detalja o spektralnoj teoriji grafova se mogu naci u[9, 10].

Page 12: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 3

Particija grafova

3.1 MAX–CUT i MIN–CUT problemi

Problem particije grafa se, u najsirem smislu, odnosi na podelu datog grafa G na manjekomponente sa zadatim osobinama. Formalno, pod pojmom particije grafa misli se naparticiju skupa njegovih cvorova.

Definicija 3.1 Nega je G = (V,E) graf i neka je P = V1, V2, . . . , Vk, k ∈ N, familijapodskupova skupa V . P je particija (preciznije, k-particija) grafa G ako vazi:

• Vi = ∅ za svako i ∈ 1, 2, . . . , k;

• Za svako i, j ∈ 1, 2, . . . , k, ako je i = j tada je Vi ∩ Vj = ∅;

•∪k

i=1 Vi = V .

Skupove Vi nazivamo klase ili komponente particije. 2-particiju grafa nazivamo i biparticija.

Nadalje cemo podrazumevati da je graf G tezinski; tezinu grana cemo oznacavati saw(u, v) a tezinu cvorova sa c(u). Ukoliko graf nije tezinski, smatracemo da je tezina svakegrane jednaka 1. Konkretan problem particije grafa (tj. osobine koje najbolja particija trebada zadovoljava) se uglavnom definise na osnovu funkcije cilja F koja kao argumente prihvatadve komponente particije. Cilj ove funkcije je da ”penalizuje” razlike izmedu komponentii/ili ”nagradi” slicnosti unutar iste komponente. U tom smislu je najbolja particija P onaza koju se dostize minimum (maksimum) izraza

V AL(P ) =∑i<j

F (Vi, Vj).

Funkcija F se obicno definise tako da vazi∑

i<j F (Vi, Vj) = 12

∑ki=1 F (Vi, V \ Vi). Osim

funkcije cilja, cesto su dati i dodatni uslovi koje trazena particija mora da zadovolji. Npr.moguce je zahtevati da particija ima unapred zadati broj podskupova ili da podskupoviimaju priblizno isti broj cvorova. Ovde navodimo neke od poznatijih varijanti problemaparticije grafa.

• Funkcija cilja je suma tezina grana izmedu data dva skupa cvorova, F (Vi, Vj) =cut(Vi, Vj) =

∑u∈Vi, v∈Vj

w(u, v). Ovde je potrebno minimizovati ili maksimizovatisumu tezina grana izmedu razlicitih komponenti bez ikakvih dodatnih uslova.

11

Page 13: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 12

• (k, v)-problem balansiranih particija: potrebno je podeliti graf G na tacno k kompo-

nenti, svaka velicine najvise v V (G)k

, tako da se minimizuje ukupna tezina grana izmedurazlicitih komponenti. O ovom problemu moze se vise naci u [15].

• Sparsest cut problem: Podeliti graf na dve komponente S i V \S tako da se minimizujecut(S,V \S)|S||V \S| . Ovde funkcija cilja favorizuje resenja gde je broj grana izmedu komponenti

mali (sparse) dok su komponente priblizno iste velicine1. Cesto se za definiciju ovog

problema uzima i minimizacija izraca cut(S,V \S)min(|S|,|V \S|) jer se moze smatrati da su ove vred-

nosti proporcionalne do na konstantu koja zavisi od |V |. Za neke novije rezultate,videti [16].

• Vertex separator problem: Skup S ⊂ V se naziva separator skupova A i B (A,B ⊂ V ,A ∩ B = ∅), ukoliko uklanjanjem skupa S, u grafu G ne postoji put od nekog cvoraskupa A do nekog cvora skupa B. Cilj je odrediti particiju (A,B, S) grafa G tako da jeS separator skupova A i B, A i B su priblizno iste velicine i c(S) je minimalno ([14]).

Najpoznatiji problemi particije grafa su MIN–CUT i MAX–CUT – problemi biparticijegrafa koji koriste cut kao funkciju cilja.

Problem 3.2 (MIN–CUT) Odrediti particiju (S, V \S) tezinskog grafa G koja minimizujecut(S, V \ S).

Problem 3.3 (MAX–CUT) Odrediti particiju (S, V \ S) tezinskog grafa G koja mak-simizuje cut(S, V \ S).

Minimalne (maksimalne) vrednosti cut-a grafa G oznacavacemo sa mincut(G) (maxcut(G)).

Kako se mnogi problemi iz realnog zivota mogu svesti na grupisanje cvorova u grafu,problemi particije grafa imaju siroku primenu: pri analizi socijalnih mreza, prirodni nacinpodele korisnika u grupe je smanjivanje broja veza izmedu razlicitih grupa. Prilikom dizajnaVLSI kola, potrebno je smestiti logicke jedinice tako da je suma veza izmedu njih minimalna;posto ih ima previse, cesto je dovoljno grupisati ih u grupe (unutar kojih ce jedinice biti jakoblizu) sa ciljem minimizacije sume veza izmedu grupa. Kod grupisanja geografskih mestana osnovu udaljenosti, kriterijum je maksimizacija rastojanja izmedu mesta u razlicitimgrupama, odnosno uzastopna primena MAX–CUTa u tezinskom grafu itd.

Nazalost, za veliku klasu problema particije grafa, ukljucujuci i prethodno nabrojane,nisu poznati algoritmi koji ih resavaju u polinomijalnom vremenu. Zapravo, vecina problemaovog tipa pripada klasi NP–hard, odnosno klasi NP–complete [11] kada se prevedu u problemeodluke (”da li postoji particija za koju je funkcija cilja veca (manja) od date vrednosti”). Zanjihovo resavanje koristimo razne heuristicke pristupe za koje se ponekad moze pokazati dace dobijeno resenje, iako ne optimalno, biti ”dovoljno dobro”. Takve heuristike se nazivajuaproksimacioni algoritmi.

Definicija 3.4 Neka je p > 0 realan broj. p-aproksimacioni algoritam za dati optimizacioniproblem P je algoritam koji za svaki ulaz problema P daje resenje S koje koje je unutarfaktora p optimalnog resenja S∗ za taj ulaz tj. za koje vazi S ≥ p · S∗ ukoliko se radi oproblemu maksimizacije, odnosno S ≤ p · S∗ ukoliko se radi o problemu minimizacije.2

1Maksimalni proizvod dva pozitivna realna broja cija je suma fiksirana se dostize ukoliko su oni jednaki.2Npr. 0.3-aproksimacioni algoritam za neki maksimizacioni problem garantuje resenje koje je bar 30%

od optimalnog.

Page 14: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 13

Randomizovani p-aproksimacioni algoritami se definisu slicno uz bitnu razliku da se radi oprobabilistickim algoritmima koji biraju resenje na osnovu neke dobijene raspodele; umestoresenja S koristi ocekivna vrednost resenja tj. za njih vazi E[S] ≥ p · S∗ (E[S] ≤ p · S∗).

MAX–CUT je jedan od originalnih Karpovih 21 NP–omplete problema [12]. Iako nijepoznat algoritam za njegovo optimalno resavanje, postoje vrlo jednostavni 1

2-aproksimacioni

algoritmi.

Teorema 3.5 Svaki graf G = (V,E) sadrzi bipartitan podgraf koji ima bar |E|2

grana.

Dokaz. Neka je (A,B) proizvoljna particija cvorova grafa G (npr. A = V , B = ∅). Cvorv ∈ V smatracemo losim ukoliko on ima vise suseda u svojoj particiji nego u suprotnoj.Posmatrajmo sledeci postupak: u svakom koraku proveravamo da li graf G sadrzi los cvor iukoliko je to slucaj, prebacimo taj cvor u suprotnu particiju (ukoliko ima vise losih cvorova,prebacujemo proizvoljni). Ovaj postupak je konacan. Zaista, neka je trenutni los cvor v ∈ A.U sledecem koraku particija ce izgledati (A \ v, B ∪ v). Medutim, na osnovu definicijeloseg cvora vazi

cut(A,B) < cut(A \ v, B ∪ v)

tj. vrednost broja grana izmedu particija strogo raste. Kako je cut ogranicen odozgo sa |E|,posle konacno mnogo koraka graf G nece sadrzati lose cvorove. Medutim, to znaci da svakicvor ima ne manje suseda u suprotnoj particiji nego u svojoj pa uklanjajuci grane izmeducvorova iste particije dobijamo bipartitan graf sa bar |E|

2grana.

Prethodna teoreme se moze prirodno prosiriti i na tezinske grafove3. Na osnovu njenogdokaza nije tesko konstruisati algoritam slozenosti O(|E||V |) koji pronalazi trazeni bipartitnipodgraf. Medutim taj algoritam ujedno pronalazi i cut velicine bar |E|

2≥ 1

2maxcut(G) sto

ga cini 12-aproksimacijom za MAX–CUT problem.

Ukoliko graf G ne sadrzi grane negativne tezine tada je problem MIN–CUT, za razlikuod ostalih, resiv u polinomijalnom vremenu. Zaista, na osnovu poznate mincut-maxflowteoreme, koristeci neki od algoritama protoka (eng. flow), dovoljno je ispitati O(|V |) source-sink parova. Postoje razne varijante flow algoritama sa slozenostima O(maxflow · |E|),O(|V ||E|2), O(|V |3) (videti [11]). Medutim, za velike grafove ove je previse sporo pa se i zaovaj problem uglavnom koriste heuristike.

U narednih nekoliko poglavlja predstavljamo neke od najboljih i najpopularnijih heuris-tika za resavanje MAX–CUT i MIN–CUT problema.

3.2 Spektralni pristup

Spektralni pristup u resavanju problema particije grafa (spektralna particija grafa) po-drazumeva odredivanje particije koristeci informacije o sopstvenim vektorima i sopstvenimvrednostima matrice pridruene grafu (matrica susedstva, Laplasova matrica). Ispostavljase da spektra grafa pruza sasvim dovoljno informacija o njegovoj strukturi i da se mozeiskoristiti za siroku klasu optimizacionih problema nad grafovima. Osim u problemima par-ticije, spektralni pristup se cesto koristi kao alat prlikom klasterizacije, analize hromatskogbroja grafa, nalazenja klika i nezavisnih skupova, enumeraciju cvorova itd. (videti preglede[18, 19]).

3U slucaju negativnih tezina algoritam moze dati i podelu (V, ∅).

Page 15: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 14

Spektralna particija se (implicitno) prvi put javlja u radovima Miroslava Fiedlera [20, 21]gde se, na neki nacin, analizira MIN–CUT problem. Ipak, pravu popularnost ova tehnikaje stekla nakon rada [22] u kome je dat jedan od prvih algoritama tog tipa. U radu [20] seprvi put pominje naziv algebarska povezanost grafa za drugu najmanju sopstvenu vrednostnjegove Laplasove matrice. U [21] je dokazana sledeca teorema

Teorema 3.6 Neka je G povezan graf i x sopstveni vektor koji odgovara drugoj najmanjojsopstvenoj vrednosti Laplasove matrice grafa G. Za proizvoljan realan broj r ≥ 0, definisimo

M(r) = v ∈ V (G) | xv + r ≥ 0.

Tada je podgraf G(r) grafa G, indukovan skupom cvorova M(r), povezan.

Ukoliko je, uz oznake prethodne teoreme, xv = 0 za svaki cvor v ∈ G, tada je i pod-graf G′(r), indukovan skupom cvorova V (G) \M(r), takode povezan. Prema tome, parti-cija (M(r), V (G) \M(r)), dobijena sortiranjem komponenti Fiedlerovog vektora i deljenjemnovodobijenog niza na dva dela (na osnovu parametra r), ima osobinu da su obe njene kom-ponente povezane (pod uslovom da Fiedlerov vektor nema nula-koorinata). Ovo je potrebanuslov da bi cut povezanog grafa bio minimalan (zasto?) i daje osnova za pretpostavku da sugrane koncentrisanije unutar komponenti nego izmedu njih. Sledeca jednostavna MIN–CUTheuristika ilustruje opisani metod za (najjednostavniji) slucaj r = 0.

Algoritam 1: Biparticija grafa na osnovu Fiedlerovog vektora.

Ulaz: Graf G.Izlaz: Particija (A,B).

1 A← ∅; B ← ∅;2 x← Fiedlerov vektor grafa G;

3 foreach v ∈ V (G) do4 if x[v] < 0 then5 A← A ∪ v;6 end7 else8 B ← B ∪ v;9 end

10 end11 return (A,B);

Ovaj algoritam daje jako dobro rezultate i u sirokoj je upotrebi - npr. Facebook koristimodifikaciju ovog algoritma za potrebe klasterizacije.

Naravno, glavni razlog dobrih rezultata ove heuristike nije zakljucak o povezanosti kom-ponenti. Neka netezinski graf G sadrzi n cvorova i posmatrajmo neku njegovu particiju(A,B). Definisimo karakteristicni vektor particije (A,B) kao vektor x ∈ −1, 1n za koji jexv = 1 ukoliko v ∈ A, a inace xv = −1 (primetimo da je ∥x∥ =

√n). Tada, na osnovu Leme

2.24 vazi

cutG(A,B) =1

4xTL(G)x. (3.1)

Na osnovu jednacine (3.1), maksimizacija (minimizacija) cut-a u grafu G ekvivalentna jemaksimizaciji (minimizaciji) kvadratne forme xTL(G)x na skupu 1,−1n. Teorema 2.14 i

Page 16: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 15

Posledica 2.15 tvrde da se ove ekstremalne vrednosti dostizu, redom, za sopstvene vektore(skalirane tako da im norma bude

√n) koji odgovaraju najvecoj i najmanjoj sopstvenoj

vrednosti. Prema tome, vazi

n

4λmin(L(G)) ≤ cutG(A,B) ≤ n

4λmax(L(G)). (3.2)

Kako je najmanja sopstvena vrednost Laplasove matrice uvek nula (sto bi dalo nedozvoljenuparticiju (V (G), ∅)), uzimamo sledecu mogucnost - drugu najmanju sopstvenu vrednost.Tada je resenje Fiedlerov vektor i prethodna heuristika jednostavno definise vektor particijex kao aproksimaciju Fiedlerovog vektora - negativne komponente prelaze u −1 a pozitivneu 1.

Potpuno analogni princip se moze primeniti i za MAX–CUT problem - u tom slucaju jepotrebno posmatrati sopstveni vektor koji odgovara najvecoj sopstvenoj vrednosti.

Jednacina (3.1) i nejednakost (3.2) predstavljaju generalni pristup u resavanju bipar-ticionih problema spektralnom metodom: ograniciti trazene vrednosti (koje se ne moguizracunati u polinomijalnom vremenu) u funkciji od sopstvenih vrednosti matrice grafa (kojane mora nuzno biti Laplasova) a zatim uzeti aproksimaciju odgovarajuce sopstvenog vektora.Naravno, ovaj pristup je moguce prosiriti u cilju bolje pretrage prostora resenja. Jedna odvarijanti, koriscena za resavanje MAX–CUT problema, data je u radu [23]. Autori definisufunkciju

f(x) =n

4λmax(L(G) + diag(x))

za x ∈ Rn i funkcijuϕ(G) = min∑

xi=0f(x)

gde se minimum uzima po svim vektorima cija je suma komponenti jednaka 0; jedan odglavnih rezultata je maxcut(G) ≤ ϕ(G), sto omogucava (ograniceno) ”setanje” vektora xsa ciljem da aproksimacija najveceg sopstvenog vektora matrice L(G) + diag(x) daje manjugresku nego u slucaju matrice L(G).

Slicne varijante spektralnih pristupa za resavanje MAX–CUT problema mogu se naci u[24, 25].

3.3 SDP i Goemans–Williamson algoritam

Iako Teorema 3.5 daje vrlo jednostavan 12-aproksimacioni algoritam za MAX–CUT prob-

lem, jos uvek ne postoji p-aproksimacioni MAX–CUT algoritam za p > 12. Cak se i za

randomizovane algoritme cekalo sve do 1995. godine kada su Goemans i Williamson [26]otkrili cuveni randomizovani 0.87856-aproksimacioni algoritam za MAX–CUT sa nenega-tivnim granama koristeci semidefinitno programiranje (SDP). Ovde dajemo opis algoritma,kako zbog njegovog znacaja tako i zbog prezenatcije jos jedne tehnike (SDP) u resavanjuproblema particije grafa.

Linearno programiranje (LP) predstavlja minimizaciju (maksimizaciju) linearne ciljnefunkcije realnih promenljivih, uz linearna ogranicenja nad njima. Klasican primer LP-a je

Minimizirati a · x (3.3)

uz ogranicenja bk · x ≤ ck, k = 1, 2, . . . ,m i xk ≥ 0, k = 1, 2, . . . , n (3.4)

Page 17: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 16

gde imamo vektor x od n realnih promenljivih (za koje se zahteva da su nenegativne) i mlinearnih ogranicenja (a, b1, b2, . . . , bm ∈ Rn). Prostor resenje LP-a je konveksni poliedarodreden presekom konacno mnogo polu-prostora od kojih je svaki odreden nekim od uslova(3.4).

SDP predstavlja prosirenje koncepta LP gde umesto realnih promenljivih i standardnogmnozenja koristimo realne vektore kao promenljive i skalarni proizvod. Ukoliko imamo nvektorskih promenljivih iz Rn, mozemo ih posmatrati kao kolone matrice X ∈ Rn×n. ZaA,B ∈ Rn×n oznacimo sa A•B = tr(ATB) =

∑ni=1

∑nj=1 AijBij standardni skalarni proizvod

nad Rn×n. Tada SDP predstavlja sledeci problem:

Minimizirati A •X (3.5)

uz ogranicenja Bk •X ≤ ck, k = 1, 2, . . . ,m i X ≥ 0, (3.6)

gde imamo nepoznatu matricu X ∈ Rn×n i m linearnih ogranicenja4 (A,B1, B2, . . . , Bm ∈Rn×n, c1, c2, . . . , cm ∈ Rn) i ogranicenje ”X ≥ 0” koje znaci da je X pozitivno semidefinitna.Poslednje ogranicenje je kljucno i ono zapravo pravi razliku izmedu LP i SDP. Prostorresenja SDP-a je presek skupa pozitivnih semidefinitnih Rn×n matrica (konveksni konus) iafinog podprostora odredenog uslovima (3.4); ovaj skup se naziva spektraedar.

Neka je SOL resenje izraza (3.5). Kako SOL moze biti iracionalan broj, ne mozemo gakompletno odrediti i u tom smislu ne postoji polinomijalni algoritam koji resava SDP.5 Ipak,za svako ϵ > 0, moguce je odrediti resenje vece od SOL − ϵ u slozenosti polinomijalnoj povelicini ulaza i log 1

ϵ. Jedan od primera su takozvani ”algoritmi unutrasnje tacke” - postoji

varijanta cija je slozenost O(n3.5(logAtot+log 1ϵ)) [27, 28], gde je Atot suma elemenata matrice

A iz (3.5) i vazi m = n.

Vratimo se na MAX–CUT problem. Neka je G = (V,E,w) tezinski graf sa nenegativnimtezinama grana i neka je V = 1, 2, . . . , n, za neko n ∈ N. Neka je x ∈ ±1n karakteristicnivektor particije (S, V \ S). Tada je

cut(S, V \ S) = 1

4

∑uv∈E

wu,v(xu − xv)2 =

1

2

∑1≤i<j≤n

wi,j(1− xixj) (3.7)

pa MAX–CUT mozemo posmatrati kao sledece celobrojno kvadratno programiranje:

Problem 3.7 Za date koeficijente wi,j,

Maksimizirati1

2

∑1≤i<j≤n

wi,j(1− xixj) (3.8)

uz ogranicenja xi ∈ −1, 1, ∀i ∈ V. (3.9)

Celobrojno programiranje je NP–complete problem i zato se pri resavanju koriste raznerelaksacije problema, tj. oslabljivanje uslova (3.9) i prosirivanje prostora resenja ciljnefunkcije (3.8). Genijalnost GW algoritma je upravo relaksacija koja (naizgled) pravi prob-lem komplikovanijim. Skalar xi mozemo posmatrati kao 1-dimenzionalni vektor norme 1.Jedno od prirodnih ”prosirenja” je povecanje dimenzije - umesto skalara xi posmatracemon-dimenzionalne vektore vi koji imaju jedinicnu normu, tj. pripadaju hipersferi Sn. Ukoliko

4Napomenimo da u opsem slucaju u ogranicenjima (3.6) i (3.4) moze stajati i znak jednakosti.5Ovo vazi za sve probleme sa mogucim iracionalnim resenjima.

Page 18: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 17

mnozenje u (3.8) zamenimo skalarnim proizvodom vektora, novi problem ce se, u slucaju1-dimenzionalnih vektora, zaista svesti na pocetni pa je ovo zaista relaksacija. Novi problemglasi

Problem 3.8 Za date koeficijente wi,j

Maksimizirati1

2

∑1≤i<j≤n

wi,j(1− vi · vj) (3.10)

uz ogranicenja vi ∈ Sn, ∀i ∈ V. (3.11)

Neka jeW ∗ resenje Problema 3.8, tj. maksimalna vrednost izraza (3.10). Kako je Problem3.8 relaksacija problema 3.7, vazi maxcut(G) ≤ W ∗. Goemans-Williamsonov algoritammozemo opisati kao

(1) Resiti Problem 3.8 i odrediti optimalan skup vektora v1,v2, . . . ,vn.

(2) Generisati vektor r uniformnom raspodelom nad sferom Sn.

(3) Definisati S = i | vi · r ≥ 0 i vratiti particiju (S, V \ S) kao rezultat algoritma.

Pokazacemo kao deo (1) svesti na resavanje SDP -a i zasto je ocekivana vrednost cut(S, V \S)ovako definisane particije (S, V \ S) zaista bar 0.87856 ·maxcut(G).

Neka jeAmatrica susedstva grafaG, V ∈ Rn×n matrica cije su kolone vektori v1, . . . ,vn ∈Sn i X = V TV . Tada je Xi,j = vi · vj i specijalno Xi,i = 1 za i = 1, n. Neka je za i = 1, nBi ∈ Rn×n matrica koja na preseku i-te vrste i i-te kolone sadrzi 1 dok su svi ostali elementi0. Tada, skup v1,v2, . . . ,vn pripada prostoru resenja Problema 3.8 ako i samo ako Xpripada prostoru resenja sledeceg SDP problema:

Problem 3.9Minimizirati A •X (3.12)

uz ogranicenja Bk •X = 1, k = 1, 2, . . . ,m i X ≥ 0. (3.13)

Zaista, ovo sledi na osnovu Teoreme 2.16 i cinjenice da je Bk • X = 1 ⇔ Xk,k = 1 stoobezbeduje da kolona-vektori matrice V , za koju jeX = V TV pripadaju Sn. Napomenimo daje za datu semidefinitnu matricu X = V TV ∈ Rn×n moguce odrediti matricu V u slozenostiO(n3) koristeci Cholesky dekompoziciju. Kako vazi i

1

2

∑1≤i<j≤n

wi,j(1− vi · vj) =1

4(1TA1− A •X) (3.14)

sledi da je za resavanje Problema 3.8 dovoljno resiti Problem 3.9. Prema tome, koristecineki od SDP algoritama, za svako ϵ > 0 u polinomijalnom vremenu mozemo odrediti skupv1,v2, . . . ,vn za koji je

1

2

∑1≤i<j≤n

wi,j(1− vi · vj) > W ∗ − ϵ. (3.15)

Vratimo se sada koracima (2) i (3) Goemans-Williamsonovog algoritma. Sledecih nekolikolema ce nam biti od koristi.

Page 19: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 18

Lema 3.10 Za svako i, j ∈ 1, 2, . . . , n, verovatnoca da je sgn(vi · r) = sgn(vj · r) jednakaje 1

πarccos(vi · vj).

Dokaz. Na osnovu simetrije, P (sgn(vi · r) = sgn(vj · r)) = 2P (vi · r ≥ 0,vj · r < 0).Skup r| vi · r ≥ 0,vj · r < 0 je presek dva poluprostora ciji je diedarni ugao jednakθ = arccos(vi · vj). Na osnovu simetricnosti sfere Sn, presek ovog skupa sa Sn cini θ

”zapremine” sfere. Dakle P (vi · r ≥ 0,vj · r < 0) = θ2π

cime je lema dokazana.

Definisimo

α = min0<θ≤π

2

π

θ

1− cos θ. (3.16)

Lema 3.11 Za svako realno y ∈ [−1, 1] vazi arccos(y)π

≥ α · 12(1− y).

Dokaz. Kako je y ∈ [−1, 1] postoji θ ∈ [0, π] tako da je y = cos θ. Sada je tvrdenje lemeekvivalentno sa α ≤ 2

πθ

1−cos θsto je tacno na osnovu definicije broja α.

Lema 3.12 α > 0.87856.

Dokaz. Primetimo da je 2π

θ1−cos θ

≥ 1 za 0 < θ ≤ π2. Sa druge strane, za π

2≤ θ ≤ π funkcija

f(θ) = 1−cos θ je konkvana. Prema tome, za proizvoljno θ0 vazi f(θ) ≤ f(θ0)+(θ−θ0)f′(θ)

sto je ekvivalentno sa

1− cos θ ≤ θ sin θ0 + (1− cos θ0 − θ0 sin θ0).

Za θ0 = 2.331122 je izraz u zagradi manji od nule pa vazi 1 − cos θ < θ sin θ0. Konacnodobijamo α > 2

π sin θ0> 0.87856.

Sada smo spremni za glavnu teoremu ovog poglavlja.

Teorema 3.13 Goemans-Williamson algoritam (koraci (1)–(3)) je randomizovani 0.87856-aproksimacioni algoritam za MAX–CUT.

Dokaz. Neka je ϵ > 0 proizvoljno i neka su vektori v1,v2, . . . ,vn dobijeni resavanjem(SDP) Problema 3.9 za koje vazi (3.15). Tada za skup S, definisan u koraku (3), na osnovuLeme 3.10 vazi

E[cut(S, V \ S)] =∑

1≤i<j≤n

wi,jP (sgn(vi · r) = sgn(vj · r)) =∑

1≤i<j≤n

wi,j1

πarccos(vi · vj).

Koristeci nenegativnost grana, na osnovu Leme 3.11 primenjene na prethodnu jednacinu zay = vi · vj, dobijamo

E[cut(S, V \ S)] ≥ α1

2

∑1≤i<j≤n

wi,j(1− vi · vj) = α(W ∗ − ϵ) ≥ α(maxcut(G)− ϵ).

Neka je w = min1≤i,j≤nwi,j. Na osnovu Leme 3.12 je (α−0.87856)wα

> 0 pa zamenom ϵ =(α−0.87856)w

α(koje je polinomijalno po ulazu problema) u prethodnu nejednakost i koristeci

maxcut(G) ≥ w, konacno dobijamo

E[cut(S, V \ S)] ≥ 0.87856 ·maxcut(G).

Page 20: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 19

Primedba 3.14 Na osnovu dokaza Teoreme 3.13 nije tesko zakljuciti da vazi jace tvrdenje:za svako ϵ > 0, Goemans-Williamsonov algoritam dostize randomizovanu (α−ϵ)-aproksimaciju.Specijalno, vazi

maxcut(G)

W ∗ ≥ α.

Za kraj, pomenimo da se moze pokazati da za Goemans-Williamsonov algoritam, pri-menjen na graf koji moze imati negativne tezine grana, vazi

E[cut(S, V \ S)] ≥ αW ∗ + (1− α)W−

gde je W− suma svih negativnih tezina grana. Medutim, u ovom slucaju ne dobijamoaproksimacioni algoritam.

3.4 VNS heuristike

Za dati graf G = (V,E,w), oznacimo sa X skup svih njegovih biparticija. Ovaj skup jediskretan i konacan (sadrzi 2|V |−1−1 elemenata). Na njemu mozemo uvesti prirodnu metrikud: rastojanje izmedu particija x1 = (A1, B1) i x2 = (A2, B2) je najmanji prirodan broj k takoda se particija x1 moze dobiti od particije x2 premestanjem tacno k cvorova. Metrika d in-dukuje prirodnu definicuju k-okoline particije x ∈ X kao skupNk(x) = y ∈ X | d(x, y) = k;1-okolinu cemo oznacavati kao N(x). MAX–CUT problem mozemo posmatrati kao klasicniproblem maksimizacije zadate funkcije (cut) na skupu X (ili nekom njegovom podskupuukoliko imamo dodatna ogranicenja) i koristiti standardnu heuristiku lokalne pretrage (eng.local search). Lokalna pretraga se sastoji u izboru nekog pocenog resenja (biparticije) x,pronalazenje njegovog suseda y ∈ N(x) za koji je cut(y) > cut(x) i, ukoliko takav susedpostoji, ponavljanje iteracije za y. U protivnom, dobili smo lokalni maksimum i heuristikase zavrsava. Ukoliko za y biramo suseda sa najvecom vrednoscu cut(y), dobijamo varijantulokalne pretrage koja se naziva maksimalni gradijentni spust.

Algoritam 2: Lokalna pretraga (maksimalni gradijentni spust).

Ulaz: Biparticija x grafa G.Izlaz: Lokalno optimalna biparticija.

1 repeat2 x′ ← x;3 x← arg maxy∈N(x) cut(y);

4 until cut(x) ≤ cut(x′);

5 return x′;

Odredivanje najboljeg suseda se moze implementirati u linearnom vremenu ali broj it-eracija u opstem slucaju nije moguce ograniciti (u tom smislu je ovaj algoritam eksponen-cijalan jer je velicina prostora resenja eksponencijalna po |V |). Ipak, u praksi se lokalnimaksimum relativno brzo dostize. Da ne bi doslo do zaglavljivanja u lokalnom maksimumu,za pocetno resenje lokalne pretrage se cesto uzima nekoliko (npr. par hiljada) slucajnoodabranih biparticija.

Pretraga promenljive okoline (eng. variable neighborhood search (VNS)) predstavlja ek-stenziju lokalne pretrage na k-okoline za k > 1. Glavna ideja je sledeca: ukoliko u okolini

Page 21: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 20

N(x) trenutnog resenja x ∈ X nema resenja y za koje je cut(y) > cut(x), umesto da zavrsimopretragu, mozemo je nastaviti u 2-okolini resenja x.

Algoritam 3: VND heuristika.

Ulaz: Biparticija x grafa G i maksimalna sirina pretrage kmax.Izlaz: Lokalno optimalna biparticija.

1 k ← 1;2 repeat3 x′ ← arg maxy∈Nk(x) cut(y);4 if cut(x′) > cut(x) then5 x← x′;6 k ← 1;

7 end8 else9 k ← k + 1;

10 end

11 until k = kmax;

12 return x;

Ukoliko ni tada ne pronademo bolje resenje, posmatramo 3-okolinu itd. sve dok nedodemo do kmax-okoline, gde je kmax unapred zadati broj. Medutim, ukoliko u nekoj k-okolini pronademo bolje resenje y, potragu ponovo zapocinjemo od 1-okoline biparticije y.Varijanta VNS-a koja za svaku okolinu (deterministicki) ispituje sve njene elemente i uzimanajbolje resenje naziva se VND (skracenica od variable neighborhood descent).

Kako k-okolina biparticije x ima O(|V |k) elemenata, slozenost jedne iteracije VND-a nijezanemarljiva i za velike grafove nema smisla koristiti vrednosti kmax > 3. Ipak, moguce jeznacajno smanjiti slozenost analize k-okoline trenutnog resenja x tako sto se ne posmatrajusvi elementi vec se generise slucajni element iz y ∈ Nk(x) i posmatra se skup N(y). Na ovajnacin se ne analiziraju svi elementi skupa Nk(x) ali ovo omogucava vece vrednosti konstantekmax sto generalno daje bolje rezultate jer se sirom pretragom lakse izbegava zaglavljivanje ulokalnom maksimumu. Ovaj (nedeterministicki) metod zapravo predstavlja ”klasicni” VNS.

Festa et al. [29] koriste nekoliko randomizovanih heuristika za resavanje MAX–CUTproblema, ukljucujuci i varijantu VNS-a koja je data kao Algoritam 4.

Kao sto se moze primetiti, ova heuristika se poziva za MaxIter slucajno generisanihpocetnih resenja. Treba napomenuti i da funkcija LocalSearch u ovoj implementaciji nekoristi maksimalni gradijentni spust vec uzima prvo resenje iz zadate okoline koje je boljeod trenutnog i iterativno nastavlja pretragu.

Osim VNS–a, u pomenutom radu je dodata takozvana path-relinking heuristika koja sezasniva na pamcenju skupa do sada pronadenih najboljih resenja u iteracijama VNS-a injihovim kombinovanjem u potrazi za jos boljim resenjem. Preciznije, iz skupa prethodnonadenih resenja izabere se (random) resenje z i uporedi se sa resenjem x iz trenutne iteracije.Od svih cvorova cije su komponente karakteristicnih vektora particija x i z razlicite, izabere seonaj cijim se prebacivanjem (u odnosu na particiju x) vrednost cut-a najvise povecava. Ovaprebacivanja se izvrsavaju sve dok particije x i z ne postanu jednake. Najbolji medurezultatse zatim dodaje skupu trenutno nadenih resenja.

Page 22: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Particija grafova 21

Algoritam 4: Klasicna VNS heuristika.

Ulaz: Graf G, maksimalan broj iteracija MaxIter i maksimalna sirina pretrage kmax.Izlaz: (Heuristicki) optimalna biparticija.

1 for i← 1 to MaxIter do2 x← random pocetna biparticija;3 k ← 1;

4 while k ≤ kmax do5 x′ ← random particija iz Nk(x);6 x′′ ← LocalSearch(x′);

7 if cut(x′′) > cut(x) then8 x← x′′;9 k ← 1;

10 end11 else12 k ← k + 1;13 end

14 end

15 end

16 return x;

Primetimo da kombinacija VNS + path-relinking zapravo predstavlja varijantu genetskogalgoritma. Napomenimo da su za standardne test primere MAX–CUT problema (a i mnogihdrugih optimizacionih NP–hard problema) najbolja poznata resenja neretko delo hibridnihheuristika koje koriste VNS.

Page 23: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 4

Metod super-cvora

4.1 Ideja algoritma

Pretpostavimo da za dati tezinski graf G sa n cvorova zelimo da resimo optimizacioni(uglavnom NP–hard) problem P koji trazi da se cvorovi grafa podele u dve grupe. Tadaprostor resenja problema P mozemo kodirati kao ±1 vektore koji su indeksirani cvorovimagrafa G i koji oznacavaju u kojoj se grupi nalazi odgovarajuci cvor (+1 ako je cvor u prvojgrupi, −1 ako je u drugoj). Drugim recima, prostor resenja problema P odgovara hiperkockiQn.

Takode pretpostavimo da se funkcija cilja problema P (izraz za koji je potrebno pronacimaksimum/minimum) moze predstaviti u obliku kvadratne forme

P (x) = xTAx, x ∈ Qn

pri cemu matrica A zavisi iskljucivo od grafa G. Na osnovu ranijeg razmatranja, ova pret-postavka ima smisla - npr. u klasicnim varijantama MAX–CUT i MIN–CUT problemamatrica A je Laplasova matrica grafa.

Kako je norma vektora x ∈ Qn jednaka√n, koristeci Rayleigh koeficijente (Posledica

2.15) dobijamo

min∥x∥=

√nP (x) = nλmin(A),

max∥x∥=

√nP (x) = nλmax(A).

Stavise, minimum (maksimum) se dostize ako i samo ako je x sopstveni vektor matrice Akoji odgovara sopstvenoj vrednosti λmin(A) (λmax(A)).

Medutim, ovako definisani ektremalni vektor x∗ pripada hipersferi

Sn = x | ∥x∥ =√n,

za koju je Qn, prostor resenja problema P , samo mali deo. Drugim recima, ekstremalni vek-tor x∗ je resenje relaksacije originalnog problema. Za priblizno resenje problema P prirodnoje uzeti vektor x iz Qn koji je ”najblizi” vektoru x∗ - kao sto je ranije pomenuto, ovo je cestaideja mnogih spektralnih particionih algoritama. Primetimo da je za definiciju najblizegvektora moguce koristiti i standardno euklidsko rastojanje

√∑ni=1(xi − x∗

i )2 koje treba min-

imizovati, kao i skalarni proizvod (velicinu ugla koji zaklapaju) x ·x∗ =∑n

i=1 xi ·x∗i koji treba

22

Page 24: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 23

maksimizovati. Zaista, za fiksirani vektor x∗, obe funkcije dostizu odgovarajuce ekstremumeu sledecoj tacki hiperkocke Qn:

xi =

+1, ako je x∗

i ≥ 0,−1, ako je x∗

i < 0.

Naravno, izbor najblizeg temena hiperkocke nije nuzno optimalno resenje. Neka je Arealna simetricna matrica sa sopstvenim vrednostima λ1 ≥ λ2 ≥ . . . ≥ λn i odgovarajucimortonormiranim sopstvenim vektorima v1,v2, . . . ,vn. Neka je x =

∑ni=1 aivi (ai ∈ R, i =

1, n) razlaganje naseg resenja x u pomenutoj ortonormiranoj bazi. Mnozenjem prethodnejednakosti vektorom vT

i (1 ≤ i ≤ n) sa leve strane, dobijamo ai = vTi · x. Uzimajuci ovo u

obzir dobijamo

P (x) = xTAx =n∑

i=1

aivTi A

n∑i=j

ajvj =n∑

i=1

aivTi

n∑j=1

ajλjvj =n∑

i=1

a2iλi =n∑

i=1

(vTi ·x)2λi (4.1)

Pretpostavimo da zelimo da maksimizujemo P (x); u tom slucaju je ekstremalni vektor x∗

zapravo sopstveni vektor matrice A koji odgovara sopstvenoj vrednosti λ1, tj., uzimajuci uobzir normu, v1 =

x∗√n. Na osnovu jednacine (4.1), potrebno je maksimizovati vrednost izraza∑n

i=1(vTi · x)2λi gde je x ∈ Qn. Ovaj optimizacioni problem je ekvivalentan prethodnom (i

samim tim, i dalje je NP–hard) ali na osnovu prethodne sume, prirodno se namece idejamaksimizacije koeficijenta uz najvecu sopstvenu vrednost (λ1). Trazeni koeficijent je upravo

(vT1 · x)2 =

1

n(x∗ · x)2 = 1

n(x∗

1x1 + x∗2x2 + . . .+ x∗

nxn)2

tj. 1ncos2 ∠(x∗, x) sto opravdava izbor najblizeg vektora vektoru x∗. Jasno, maksimum se

dostize ukoliko su sve odgovarajuce komponente vektora x i x∗ istog znaka ili suprotnogznaka. Kako je P (x) = P (−x), nadalje posmatramo samo vektore x ∈ Qn za koje je sumaiz jednacine (4.1) veca ili jednaka nuli.

Koliko je ova podela cvorova prema znaku odgovarajuce komponente sopstvenog vektorax∗ zaista dobra? Ukoliko je apsolutna vrednost komponente x∗

v vektora x∗ velika, vrlo jeverovatno da optimalno resenje u cvoru v (±1) ima isti znak kao x∗

v inace bi suma∑n

i=1 x∗ixi

bila umanjena za nezanemarljivu vrednost 2x∗v. Zato u tom slucvaju cvor v mozemo smatrati

odlucenim. Sa druge strane, ukoliko je apsolutna vrednost komponente x∗v mala, vrlo je

moguce da optimalno resenje u cvoru v ima suprotan znak od x∗v; zaista, tada se mozda vise

isplati zrtvovati mali deo koeficijenta uz najvecu sopstvenu vrednost u nadi da ce to donetipoboljsanje za druge sopstvene vrednosti. Ovakve cvorove mozemo smatrati neodlucenim.Naravno, potrebno je definisati pojmove malo i veliko - za sada cemo smatrati da nam jeprecizna definicija poznata a kasnije cemo je i dati.

Bez umanjenja opstosti mozemo pretpostaviti da je x∗1 ≤ x∗

2 ≤ . . . ≤ x∗n (u suprotnom je

dovoljno re-indeksirati cvorove grafa G, tj. permutovati vrste/kolone matrice A). Neka seu vektoru resenja x nalazi u neodlucenih cvorova i d odlucenih cvorova, u+ d = n i, premapretpostavci, neodluceni cvorovi su na prvih u pozicija. Tada mozemo pisati

x =

[ud

].

Neka je

A =

[Auu Aud

Adu Add

]

Page 25: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 24

blok reprezentacija matrice A. Vektor d uzimamo kao poznat i zelimo odrediti vektor umaksimiziranjem forme P (x) koja sad dobija oblik

P (x) = uTAuuu+ uT (Audd) + (dTAdu)u+ dTAddd. (4.2)

Iako (4.2) nije kvadratna forma po u, mozemo je napraviti dodavanjem vestackog cvoravektoru u.

Definicija 4.1 Neka je x ∈ ±1n i neka je x =[u d

]T, u ∈ ±1u, d ∈ ±1d, n = u+d.

Tada vektor [u1

]nazivamo u-redukcija vektora x i oznacavamo sa redu(x).

Definicija 4.2 Neka su n, u i d prirodni brojevi za koje vazi n = u + d. Neka je A =[Auu Aud

Adu Add

]∈ Rn×n i neka je d ∈ ±1d. Tada matricu

[Auu Audd

dTAdu dTAddd

]nazivamo u-redukcija matrice A u odnosu na vektor d i oznacavamo sa redu,d(A).

Sledeca teorema nam daje vezu izmedu prethodnih definicija i jednacine (4.2):

Teorema 4.3 Neka su n i u prirodni brojevi, u < n. Neka je A ∈ Rn×n. Tada je

xTAx = redu(x)T redu,d(A)redu(x)

za svako x =[u d

]T ∈ ±1n, gde je u ∈ ±1u i d ∈ ±1n−u.

Dokaz. Rastavljanjem vektora i matrica na blok forme, dobijamo da su obe straneprethodne jednakosti jednake izrazu (4.2).

Prema tome, maksimizacija forme redu(x)T redu,d(A)redu(x) ekvivalentna je maksimizaciji

forme xTAx za fiksirani vektor d; ukoliko smo d cvorova proglasili odlucenim (tj. odredilikojoj particiji pripadaju), za odredivanje preostalih n − d = u cvorova mozemo primenitiskoro identican postupak maksimizacije nove forme P ′. Prvih u komponenti vektora redu(x)predstavljaju neodlucene cvorove a (u+1)-va komponenta je super-cvor koja predstavlja sveodlucene cvorove. Ova komponenta ce uvek imati vrednost 1 po konvenciji, zbog parnostifunkcije kvadratne forme. Zbog toga je sada prostor resenja hiperkocka Qu iako je redu(x)dimenzije u + 1.1 Ipak, zbog jednostavnosti razmatranja, posmatramo ga kao hiperkockuQu+1.

Iako opet imamo situaciju odredivanja ekstremne vrednosti kvadratne forme, ovog putaimamo specijalan cvor. Prlikom primene prethodnog spektralnog metoda na novu matricuredu,d(A), potrebno je odgovoriti na sledeca dva pitanja

• Kako tretirati super-cvor?

1Koristeci isto rezonovanje, i za prostor resenja pocetnog problema smo mogli uzeti hiperkocku Qn−1.

Page 26: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 25

• Kako kombinovati novu particiju sa prethodnom?

Super-cvor cemo tretirati kao obican cvor osim sto cemo ga uvek smatrati odlucenim ubuducim iteracijama naseg algoritma.2 U tom slucaju, novi super-cvor ce biti unija pos-tojeceg super cvora i odlucenih cvorova u trenutnoj iteraciji - uvek cemo imati tacno jedansuper-cvor. Na osnovu Teoreme 4.3, prilikom nove podele cvorova na odlucene i neodlucenei kreiranja nove redukovane matrice, pocetna forma se ne menja.

Drugo pitanje je nesto slozenije i njegov smisao je sledeci: Ukoliko je u prvoj iteraciji skupodlucenih cvorova X ⊂ V podeljen na particije X1 i X2 a u narednoj iteraciji skup novihodlucenih cvorova Y ⊂ V \X podeljen na particije Y1 i Y2 (X1 i Y1 su ”+1” komponente),da li je ukupna particija (X1 ∪ Y1, X2 ∪ Y2) ili (X1 ∪ Y2, X2 ∪ Y1)?

3 I za ovu odluku cemokoristiti pristup analogan osnovnoj ideji spektralnog algoritma.

Neka je A pocetna matrica (ili matrica dobijena u nekoj iteraciji) i A′ = redu,d(A)redukovana matrica iz naredne iteracije cije su sopstvene vrednosti λ′

1 ≥ λ′2 ≥ . . . λ′

u+1. Nekaje v′ sopstveni vektor matrice A′ koji odgovara λ′

1 i neka je v′u+1 njegova komponenta koja

odgovara super-cvoru. Kao i ranije, zelimo maksimizovati koeficijent uz λ′1

(v′T · x)2 = (v′u+1 · 1 +

u∑i=1

v′ixi)

2. (4.3)

Ukoliko je vrednost |v′u+1| dovoljno velika, za ocekivati je da ce znak sume ispod kvadrata

u (4.3) biti uslovljen znakom vrednosti v′u+1. Dakle, preostale koeficijente (za odlucene

cvorove) treba odabrati tako da pomenuta suma ima isti znak kao v′u+1, tj.

• Ukoliko je v′u+1 > 0, tada za svaki odluceni cvor v, xv = sgn(v′

v), tj. nova particija je(X1 ∪ Y1, X2 ∪ Y2).

• Ukoliko je v′u+1 < 0, tada za svaki odluceni cvor v, xv = −sgn(v′

v), tj. nova particijaje (X1 ∪ Y2, X2 ∪ Y1).

Napomenimo da je jednostavniji uslov, koji cemo koristiti u algoritmu, eventualno negirativektor v ukoliko je njegova komponenta koja odgovara super-cvoru negativna, a zatim vrsitistandardnu podelu odlucenih cvorova prema znaku odgovarajuce komponente.

Sa druge strane, ukoliko je vrednost |v′u+1| mala, prethodna pretpostavka nije osnovana

i u tom slucaju proveravamo obe mogucnosti kombinovanja particija.

Sledi pseudo-kod opisane biparticije pomocu super-cvora podeljen u dva dela: pseudo-kod glavne funkcije SuperVertexBipartition (SVB) i funkcije SuperVertexBipartitionRecur-sive (SVBR) koja se rekurzivno poziva za svaku novu redukovanu matricu. Radi boljepreglednosti, koriscene su ”gotove” funkcije: sort(v) - sortiranje komponenti vektora v poapsolutnoj vrednosti u rastuci poredak; permute(A,v) - re-indeksiranje vrsta/kolona ma-trice A radi saglasnosti sa novim indeksima komponenti vektora v nad kojim je primenjenafunkcija sort; update(p,d) - promena trenutnog (±1)-vektora biparticije p na osnovu (±1)-vektora trenutno odlucenih cvorova d.

Primetimo da na osnovu dosadasnjeg opisa, nije nuzno da sopstveni vektor po kome sevrsi biparticija bude najveci (najmanji). Jasno je i da je postupak analogan za trazenjeminimuma forme.

2Ovo je intuitivno jasno, jer on sam predstavlja skup odlucenih cvorva.3Ne razmatramo slucajeve koji bi menjali neku od pomenutih particija jer je pretpostavka da nasa heuris-

tika dobro radi za skup odlucenih cvorova.

Page 27: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 26

Algoritam 5: SuperVertexBipartition

Ulaz: Matrica A(G) dimenzije n× n i indeks sopstvenog vektora ind po kome se vrsibiparticija

Izlaz: uredeni par (p, optForm) gde je optForm (heuristicki) maksimalna vrednostforme pTA(G)p a p ∈ Qn vektor biparticije grafa G za koji se maksimum dostize.

1 p← [0, 0, . . . 0];2 v← sopstveni vektor norme

√n koji odgovara sopstvenoj vrednosti µind(A);

3 v′ ← sort(v);4 A′ = permute(A,v′);

5 d← numOfDecided(v′);6 u← n− d;

7 d← ∅;8 for i← u+ 1 to n do9 if v′[i] < 0 then

10 d←[d −1

]T;

11 end12 else

13 d←[d 1

]T;

14 end

15 end

16 p← update(p,d);17 return SuperVertexBipartitionRecursive(redu,d(A

′), p, ind);

Kao sto mozemo videti iz pseudo-koda, u funkciji SVB imamo racunanje sopstvenogvektora v, odredivanje skupa odlucenih cvorova, odredivanje njihovih particija na osnovuznaka komponenti v i rekurzivni poziv nad redukovanom matricom. Funkcija SVBP je nestoslozenija. Uslov prekida naseg algoritma je n = 1 (linije 1–3) tj. kada se matrica sastojisamo od super-cvora. Na osnovu Teoreme 4.3, kvadratna forma se ne menja i ona je upravojednaka jedinom elementu trenutne matrice - A1,1. Prilikom racunanja sopstvenog vektorapotrebno je obezbediti da komponenta koja odgovara super-cvoru (v[n]) bude nenegativna(linije 4–7). Takode, kao sto je pomenuto, prilikom sortiranja i odredivanja odlucnih cvorova,super-cvor tretiramo posebno (linije 8–11). Posle izvrsavanja petlje iz linija 12–20, vektord sadrzi odlucene cvorove; dodajemo mu super cvor na kraju i vrsimo rekurzivni poziv(linije 21–23). Medutim, ukoliko je apsolutna vrednost komponente sopstvenog vektora kojaodgovara super-cvoru previse mala, dolazi do bifurkacije - uzimamo negaciju vektora d,vrsimo dodatni rekurzivni poziv i uzimamo bolje resenje (linije 24–31).

Najbitnija ”gotova” funkcija u kodu je numOfDecided koja na osnovu rastuce sortiranogniza apsolutnih vrednosti komponenti sopstvenog vektora v odlucuje koliko njih je dovoljnoveliko - ukoliko je rezultat d, odluceni cvorovi su oni koji odgovaraju poslednjim d kompo-nentama sortiranog niza. Implementirane su 3 varijante ove funkcije i metod super-cvora jetestiran u sledeca tri moda:

• percent mode (p-mod) - cvor u je odlucen ukoliko je vrednost |vu| u top p procenatasvih vrednosti. Za parametar p su koriscene vrednosti 25, 50, 75 i 100 (p = 100odgovara klasicnom spektralnom pristupu bez super-cvora).

Page 28: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 27

Algoritam 6: SuperVertexBipartitionRecursive

Ulaz: (redukovana) matrica A dimenzija n× n, trenutna particija p i indekssopstvenog vektora ind po kome se vrsi biparticija

Izlaz: uredeni par (p, optForm) gde je optForm (heuristicki) maksimalna vrednostforme pTAp a p ∈ Qn vektor biparticije grafa G za koji se maksimum dostize.

1 if n = 1 then2 return (p,A1,1);3 end

4 v← sopstveni vektor norme√n koji odgovara sopstvenoj vrednosti µind(A);

5 if v[n] < 0 then6 v← −v;7 end

8 v′ ←[sort(v[1,n−1]) vn

];

9 A′ ← permute(A,v′);

10 d← numOfDecided(v′[1,n−1]) + 1;

11 u← n− d;

12 d← ∅;13 for i← u+ 1 to n− 1 do14 if v′[i] < 0 then

15 d←[d −1

]T;

16 end17 else

18 d←[d 1

]T;

19 end

20 end

21 p← update(p,d);

22 d1 ←[d 1

]T;

23 (optP, optForm)← SuperVertexBipartitionRecursive(redu,d1(A′), p, ind);

24 if isSuperV ertexSmall(v) then25 p← update(p,−d);26 d2 ←

[−d 1

]T;

27 (optP2, optForm2)← SuperVertexBipartitionRecursive(redu,d2(A′), p, ind);

28 if optForm2 > optForm then29 (optP, optForm)← (optP2, optForm2)30 end

31 end

32 return (optP, optForm);

Page 29: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 28

• threshold mode (t-mod) - cvor u je odlucen ukoliko je vrednost |vu| veca od date(konstantne) vrednosti t. Za parametar t su koriscene vrednosti 1 i 1

2kao i skup ”malih”

vrednosti 10−i za i ∈ 2, 6, . . . , 12.

• weighted threshold mode (w-mod) - cvor u je odlucen ukoliko je vrednost |vu|veca od t

√n−s2

n−1gde je t ∈ 1

2, 1 konstanta a s komponenta sopstvenog vektora koja

odgovara super-cvoru.

Primetimo da konstanta 1 u t-modu predstavlja prosecnu vrednost apsolutne vrednosti

komponente sopstvenog vektora (norma je n) dok√

n−s2

n−1predstavlja prosecnu vrednost

apsolutne vrednosti preostalih n− 1 komponenti za fiksirani super-cvor.

Funkcija isSuperVertexSmall (koja odreduje da li ce doci do bifurkacije) je implementi-rana po uzoru na prethodna tri moda (umesto u se gleda super-cvor); dodati su i dodatnimodovi u kojima nikad (uvek) dolazi do bifurkacije.

4.2 Analiza slozenosti

Na osnovu pseudo-kodova, za analizu slozenosti metoda super-cvora dovoljno je posma-trati funkciju SuperVertexBipartitionRecursive (SVBR). Pre dalje analize, dokazimo sledecupomocnu lemu:

Lema 4.4 Za proizvoljnu realnu matricu X ∈ Rn×m definisimo V (X) =∑n

i=1

∑mj=1 |Xi,j|.

Neka je A ∈ Rn×n i d ∈ ±1d za neke n, d ∈ N, d < n. Tada vazi

V (redn−d,d(A)) ≤ V (A).

Dokaz. Neka je A =

[Auu Aud

Adu Add

]za u = n− d > 0. Tada je

V (Audd) =u∑

i=1

|d∑

j=1

Ai,jdj| ≤u∑

i=1

d∑j=1

|Ai,j| = V (Aud)

jer je d (±1)-vektor. Analogno dobijamo V (dTAdu) ≤ V (Adu) i, uzastopnom primenomprethodne nejednakosti, V (dTAddd) ≤ V (Add). Iz prethodnih nejednakosti i definicije re-dukovane matrice dobijamo V (redn−d,d(A)) ≤ V (A) sto je i trebalo dokazati.

Prethodna lema predstavlja neku vrstu analize memorijske slozenosti funkcije SVBR.Direktna posledica Leme 4.4 je da je svaki element redukovane matrice po apsolutnoj vred-nosti ne veci od sume apsolutnih vrednosti elemenata pocetne matrice. Ovo naravno vazii za svaku narednu redukovanu matricu odakle zakljucujemo da meduvrednosti u nasemalgoritmu nece ”eksplodirati” sto cemo implicitno koristiti u daljoj analizi. Jasno, nemaopasnosti ni od overflow -a kao ni od underflow -a jer prakticno nema mnozenja/deljenja (ovone vazi za racunanje sopstvenog vektora).

Oznacimo (vremensku) slozenost funkcije SVBR sa S(n) gde kao glavni parametar pos-matramo n - dimenziju trenutne matrice A. Prva ocigledno zahtevna operacija je racunanjesopstvenog vektora matrice dimenzije n × n koji odgovara datoj sopstvenoj vrednosti (upraksi je to skoro uvek najveca, najmanja ili druga najmanja sopstvena vrednost) u liniji 4.

Page 30: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 29

Oznacimo slozenost ove operacije sa V (n). Sortiranje iz linije 8 mozemo izvrsiti u slozenostiO(n log n) dok je ”permutovanje” kolona matrice A iz linije 9 moguce izvrsiti u linearnojslozenosti jednostavnim re-indeksiranjem niza. Ostatak koda do linije 24 je ocigledno lin-earan.

Neka je T (n) = V (n) + O(n log n). Vrednost T (n) predstavlja slozenost standardnogspektralnog metoda za matricu dimenzije n × n. Za funkciju SVBR treba uzeti u obzir ibifurkaciju: ukoliko u trenutnoj iteraciji proglasimo u neodlucenih cvorova, vazi rekurentnaformula

S(n) = T (n) + 2S(u) (4.4)

koju, u opstem slucaju (kada nam nije poznata eksplicitna zavisnost u od n), nije moguceresiti. Ipak, ukoliko kao kriterijum odredivanja odlucenih cvorova koristimo percent mode,ispostavlja se da je moguce odabrati parametere tako da slozenost ostane istog reda velicinekao i kod standardnog spektralnog metoda.

Teorema 4.5 Ukoliko je slozenost standardnog spektralnog metoda za matricu dimenzijan× n jednaka T (n) = O(nr), za neko r ∈ R i r > 0, tada postoji p ∈ R, 0 < p < 1, tako daje slozenost funkcije SVBR u modu percent mode sa parametrom p jednaka O(nr).

Dokaz. U pomenutom modu se pri svakom rekurzivnom pozivu imamo u = ⌊n(1 − p)⌋neodlucenih cvorova. Na osnovu jednacine (4.4) dobijamo

S(n) = O(nr) + 2S((1− p)n)

= O(nr) + 2O(((1− p)n)r) + 2O(((1− p)2n)r) + . . .

=∑i=0

2i(O((1− p)in)r)

= O(nr)∑i=0

(2(1− p)r)i.

Prethodna suma konvergira za 2(1 − p)r < 1 sto je ekvivalentno sa p > 1 − 1r√2. Za ovako

izabran parametar p vazi

S(n) = O(nr)1

1− 2(1− p)r= O(nr).

Pretpostavka da je slozenost T (n) oblika O(nr) je prirodna - ona je skoro uvek domini-rana slozenoscu racunanja sopstvenog vektora za koji je uglavnom r = 2 ili r = 3, gdesu kvadratni algoritmi uglavnom varijante metode stepenovanja za nalazenje ekstremalnogsopstvenog vektora, dok kubni algoritmi nalaze sve sopstvene vektore pa vracaju trazeni.Sledeca posledica Teoreme 4.5 odgovara na pitanje o potrebnom procentu odlucenih cvorovazavisno od koriscenog algoritma za racunanje sopstvenog vektora.

Posledica 4.6 Neka se u funkciji SVBR za racunanje ekstremalnog sopstvenog vektora ko-risti algoritam slozenosti O(nr).

a) Ukoliko je r = 2, tada je slozenost SVBR u modu percent mode jednaka O(n2) zasvaki parametar p > 0.293.

b) Ukoliko je r = 3, tada je slozenost SVBR u modu percent mode jednaka O(n3) zasvaki parametar p > 0.206.

Page 31: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 30

4.3 Rezultati za MAX–CUT problem

Metod super-cvora je implementiran u programskom jeziku C++ pri cemu je za racunanjesopstvenih vektora koriscena C++ biblioteka Eigen (http://eigen.tuxfamily.org/). KlasaSelfAdjointEigenSolver ove biblioteke racuna sopstvene vrednosti i sopstvene vektore realnesimetricne matrice dimenzije n× n u slozenosti O(n3) svodenjem matrice na tridijagonalnuformu koristeci QR algoritam. Napomenimo da je moguce koristiti bilo koji drugi (brzi)metod za racunanje sopstvenih vektora.

Heuristika je testirana na nekoliko standardnih instantci za MAX–CUT problem. Svitest primeri korisceni u ovom poglavlju se mogu naci na adresi

http://www2.research.att.com/~mgcr/data/index.html

Do kraja rada koristicemo sledece oznake: p025, p050, p075 i p100 za heuristiku u p-modu saparametrima 25, 50, 75 i 100 procenata, redom (podsetimo se da je p100 klasicni spektralnimetod (KSP)), t050 i t100 za heuristiku u t-modu sa parametrima 1

2i 1, i w050 i w100 za

heuristiku u w-modu sa parametrima 12i 1. Za resavanje MAX-CUT problema je u svim

varijantama heuristike koriscena Laplasova matrica grafa i njen najveci sopstveni vektor.

Prvu grupu test primera cini klasa netezinskih sparse grafova (u kojima je |E| < 3|V |)koje je konstruisao K. Fujisawa za analizu raznih varijanti SDP algoritama, uz pomoc kojihsu i dobijene gornje granice (UB). Opis test primera dat je u Tabeli 4.1.

Naziv V E Gustina UB

g10.n 10 26 57.78% 18.17

g20.n 20 47 24.74% 38.48

g25.n 25 51 17.00% 43.04

g30.n 30 77 17.70% 63.22

g50.n 50 131 10.69% 109.99

g100.n 100 269 05.43% 226.16

g150.n 150 355 03.18% 308.63

g200.n 200 495 02.49% 427.30

g250.n 250 331 01.06% 317.26

g500.n 500 625 00.50% 598.15

g1000.n 1000 2394 00.48% 1752.77

g1250.n 1250 3123 00.40% 2741.28

Tabela 4.1: Broj cvorova, grana, gustina i gornja granica za FUJISAWA primere.

U Tabeli 4.2 bold fontom su obelezeni najbolji rezultati za svaki test primer. Varijantap025, osim u primeru g100.n, daje uvek najbolje rezultate. t-mod se pokazao kao najslabijisa uglavnom manjim vrednostima MAX-CUTa od KSP-a za grafove preko 200 cvorova. w-mod je uglavnom komparativan sa najboljim varijantama p-moda. Moze se primetiti da zat i w mod, u vecini slucajeva parametar 1 daje bolje rezultate od parametra 1

2.

Page 32: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 31

Naziv UB p025 p050 p075 p100 t050 t100 w050 w100

g10.n 18.17 17 15 11 9 9 9 9 15

g20.n 38.48 36 35 35 31 31 31 31 34

g25.n 43.04 42 42 40 38 40 40 41 42

g30.n 63.22 60 60 58 57 58 58 58 59

g50.n 109.99 105 105 96 96 100 101 101 104

g100.n 226.16 202 201 197 181 185 196 191 203

g150.n 308.63 276 273 263 258 249 250 253 270

g200.n 427.30 388 380 372 362 362 361 365 377

g250.n 317.26 289 287 286 281 279 279 285 282

g500.n 598.15 554 547 544 541 539 538 534 539

g1000.n 1752.77 1532 1481 1407 1310 1272 1376 1435 1442

g1250.n 2741.28 2433 2397 2319 2247 2217 2226 2260 2362

Tabela 4.2: Vrednost cut-a na FUJISAWA primerima za odgovarajuce varijante.

Na Slici 4.2 prikazani su rezultati p-moda (u odnosu na gornju granicu) za razlicitevrednosti parametra. Mozemo primetiti da (za sve test primere) kako procenat odlucenihcvorova u jednoj iteraciji opada, vrednost cut-a raste. Vrednost cut-a za p025 i p050 je uproseku 5 − 10% bolja od vrednosti cut-a KSP-a, pri cemu se najveca razlika dostize zag10.n (44%) a najmanja za g500.n (2%). Varijanta p025 uvek obezbeduje cut velicine bar0.874 · UB4, pri cemu je za grafove sa manje od 100 cvorova vrednost cut-a u proseku 0.95od UB, dok je za grafove sa bar 100 cvorova vrednost cut-a u proseku 0.90 od UB.

1

2

3

4

5

6

87

9

10

1

2

3

4

5

6

87

9

10

1

2

3

4

5

6

87

9

10

1

2

3

4

5

6

87

9

10

p100 p075

p050 p025

Slika 4.1: Podela grafa g10.n metodom super-cvora u p-modu.

4Granica komparabilna sa Goemans-Williamson algoritmom.

Page 33: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 32

0.7

0.75

0.8

0.85

0.9

0.95

1

g10.n g20.n g25.n g30.n g50.n g100.n g150.n g200.n g250.n g500.n g1000.n g1250.n

p025

p050

p075

p100

Slika 4.2: Vrednosti cut-a (u odnosu na UB) na FUJISAWA primerima za razlicite parametrep-moda.

Drugu grupu test primera cine 24 grafa kreirana od strane Helmberga i Rendla [30]. Ovagrupa ukljucuje toroidne, planarne i random generisane grafove razlicitih velicina i gustina.Broj cvorova ovih grafova se krece od 800 do 3000 a gustina od 0.17% do 6.12% i premaovim parametrima test primeri su podeljeni u 8 grupa po 3 grafa. Tezine grana pripadajuskupu −1, 1.

U [29] dve varijante VNS-a testirane su na ovim test primerima: u prvoj varijanti jeizabrano 1000 pocetnih random biparticija i koriscena je path-relinking tehnika dok je udrugoj (random) izabrana samo jedna pocetna biparticija (tj. broj iteracija Algoritma 4 je1). U ovom radu je implementiran odgovarajuca VNS heuristika pri cemu se za pocetnubiparticiju uzima ona dobijena metodom super-cvora. Cilj je bio utvrditi da li polaznoresenje dobijeno nasom metodom daje bolje rezultate od slucajno izabranog polaznog resenja.Testiranje je vrseno za varijante p025 i p100. U Tabeli 4.3 su prikazani rezultati.

Mozemo zakljuciti da se VNS + p-mod resenja malo razlikuju od odgovarajucih VNSresenja sa 1 iteracijom. Interesantno je da je da su za primere G49 i G50 dobijeni boljirezultati nego u [29] za 1000 iteracija VNS-a. Osim toga, u 6 od 8 grupa test primeradobijeni su rezultati koji su bolji od 0.879 vrednosti gornje granice tj. garantovanog rezultataGoemans-Williamson algoritma. Ipak, na globalnom nivou, metod super-cvora ne doprinosipoboljsanju VNS-a.

Osim u kombinaciji sa VNS heuristikom, na primerima G11, G12, G23, G32, G34, G48(najcesce analizirani primeri) su testirane standardne varijante metoda super-cvora. Naosnovu Tabele 4.4 vidimo da se ovog puta najbolje pokazao w-mod dok na osnovu Slike 4.3zakljucujemo da i dalje vazi isti odnos kvaliteta cut-a u zavisnosti od parametara p-moda;jedini izuzetak predstavlja G48 koji je bipartitan. t-mod u ovom slucaju daje znacajnoslabije rezultate.

U odnosu na FUJISAWA test primere gde su najbolje varijante p-moda dobijale bar 90%vrednosti gornje granice, ovde je uspesnost oko 75% (odnosno 85% za w-mod) - ovi grafovisu ”teski” za klasicni spektralni pristup.

Page 34: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 33

Naziv V Gustina UB VNS 1 VNS 1000 p025 p100

G1 800 6.12% 12078 11549 11621 11515 11549

G2 800 6.12% 12084 11575 11615 11549 11539

G3 800 6.12% 12077 11577 11622 11561 11559

G11 800 0.63% 627 552 560 538 544

G12 800 0.63% 621 532 554 526 532

G13 800 0.63% 645 564 580 558 556

G14 800 1.58% 3187 3040 3055 3001 3004

G15 800 1.58% 3169 3017 3043 3002 3006

G16 800 1.58% 3172 3017 3043 2994 2999

G22 2000 1.05% 14123 13087 13295 13153 13163

G23 2000 1.05% 14129 13190 13290 13195 13131

G24 2000 1.05% 14131 13209 13276 13209 13156

G32 2000 0.25% 1560 1368 1386 1306 1318

G33 2000 0.25% 1537 1342 1362 1286 1316

G34 2000 0.25% 1541 1340 1368 1312 1292

G35 2000 0.64% 8000 7593 7635 7520 7531

G36 2000 0.64% 7996 7584 7632 7531 7540

G37 2000 0.64% 8009 7598 7643 7560 7541

G43 1000 2.10% 7027 6599 6659 6534 6542

G44 1000 2.10% 7022 6559 6642 6570 6576

G45 1000 2.10% 7020 6555 6646 6538 6554

G48 3000 0.17% 6000 6000 6000 6000 6000

G49 3000 0.17% 6000 5874 6000 5894 6000

G50 3000 0.17% 5988 5820 5868 5880 5880

Tabela 4.3: Poredenje standardne VNS heuristike i VNS heuristike sa pocetnom particijomdobijenom metodom super-cvora na G primerima.

Page 35: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 34

Naziv UB p025 p050 p075 p100 t050 t100 w050 w100

G11 621.04 426 398 316 160 238 268 504 510

G12 621.61 464 434 432 416 226 226 484 484

G23 14041.3 12695 12513 12049 11341 11748 8488 12064 12161

G32 1560.75 956 978 794 566 234 222 1232 1234

G34 1541.66 1120 1090 1050 948 474 380 1254 1252

G48 6000 5292 5124 5666 6000 6000 3780 6000 6000

Tabela 4.4: Vrednost cut-a na primerima G11, G12, G23, G32, G34, G48 za odgovarajucevarijante.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

G11 G12 G23 G32 G34 G48

p025

p050

p075

p100

Slika 4.3: Vrednosti cut-a (u odnosu na UB) na G primerima za razlicite parametre p-moda.

Na osnovu prethodnih testova primeceno je da apsolutna vrednost komponente sop-stvenog vektora koja odgovara super-cvoru raste veoma brzo - obicno je dovoljno 4-5 iteracijada ova vrednost cini 99% ukupne norme vektora. Ovo za posledicu ima dve bitne stvari

1. Na G i FUJISAWA test primerima najbolji rezultati ostaju isti ukoliko se ne koristibifurkacija.

2. U varijantama t050 i t100, metod super-cvora izvrsi svega par iteracija.

Osobina 1. je prednost i donosi ustedu u vremenskoj slozenosti (u slucaju p-moda, asimp-totska slozenost ostaje ista ali dolazi do promene konstante). Osobina 2. je posledica naglogsmanjivanja ostalih komponenti sopstvenog vektora sto dovodi do situacije da nemamo ni-jedan odlucen cvor; takode, u pocetnim iteracijama t-moda dolazi do odlucivanja svega1− 3% ukupnog broja cvorova. Slabiji rezultati ovog moda leze upravo u tome.

Na Slici 4.5 prikazano je ponasanje t-moda za manje parametre. Interesantno je daheuristika na ovim primerima optimalno radi kada je parametar t reda velicine 10−3 iako suu pitanju grafovi i sa 800 i sa 2000 cvorova.

Page 36: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Metod super-cvora 35

Slika 4.4: Komponente najveceg sopstvenog vektora posle formiranja super-cvora za G11.

0

200

400

600

800

1000

1200

1400

1 0.5 1E-02 1E-03 1E-04 1E-05 1E-06 1E-07 1E-08 1E-09 1E-10 1E-11 1E-12

G11

G12

G32

G34

Slika 4.5: Vrednosti cut-a t-moda za razlicite parametre.

Sa druge strane w-mod je cesto uspesan (narocito na G primerima) i u njemu procenatodlucenih cvorova raste od 1% do 10% sa porastom broja iteracija. Medutim, zbog velikogbroja iteracija i nedovoljnog smanjivanja dimenzije matrice po iteraciji, w-mod je cestovremenski zahtevniji od prethodna dva moda.

Page 37: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 5

Detekcija klastera

Ukoliko nije drugacije naglaseno, u ovoj glaviG oznacava netezinski graf, A - njegovu matricususedstva, n - broj njegovih cvorova, m - broj njegovih grana, dok dini=1 predstavlja nizstepena njegovih cvorova.

5.1 Matrica modularnosti

Do sada smo se koncentrisali na biparticiju grafova i analizirali metod super-cvora na MAX–CUT primerima uglavnom sastavljenih od (delimicno) random generisanih grafova. Medutim,od velikog je interesa primenjivati razne metode particije grafova na realnim mrezama([31, 32, 33]).

Realne mreze, u najsirem smislu, su grafovi koji modeliraju realne sisteme koji mogubiti bioloski, socioloski, informacioni itd. Primeri realnih mreza su WWW , Facebook, pro-teinske/metabolicke mreze, mreze ekosistema, mreze citata naucnih radova i sl. Za razlikuod random grafova, realne mreze ispoljavaju velike nehomogenosti, narocito kod distribu-cije stepena cvorova - za njih je karakteristicno postojanje puno cvorova malog stepena imalo cvorova velikog stepena. Jedna od najbitnijih karakteristika je i distribucija grana kojanije samo globalno vec i lokalno nehomogena, sa visokom koncentracijom grana u okviruspecijalnih grupa cvorova i niskom koncentracijom izmedu razlicitih grupa. Ovakve grupecvorova, za koje se ocekuje da imaju zajednicke osobine ili uloge u grafu, poznate su kaodrustva, klasteri, moduli (eng. communities, clusters, modules). Problem detekcije klasteraje u literaturi poznat jednostavno kao community detection.

Mogucnost detekcije klastera u realnim mrezama donosi puno prednosti. Npr. u soci-jalnim mrezama se pripadnost klasteru moze koristiti za filtriranje informacija od znacajadatom korisniku, u proteinskim mrezama se na taj nacin mogu odrediti proteini sa slicnimfunkcijama u celiji, u mrezama kupovina (npr www.amazon.com) identifikacija korisnikasa slicnim interesima omogucuje bolji sistem preporuka i sl. Algoritmi za resavanje ovogproblema mogu se podeliti u dve klase: particione i hijerarhijske. Particioni algoritmi vrsesimultanu particiju grafa na vise komponenti prebacivanjem cvorova iz jedne u drugu, svedok kriterijum za zaustavljanje nije zadovoljen. Hijerarhijski algoritmi vrse particiju grafana mali broj komponenti (uglavnom je to biparticija) i rekurzivno se pozivaju za svaku oddobijenih komponenti. Na taj nacin se dobijaju stabla podele ciji listovi predstavljaju finalneparticije (drustva) - ova stabla se nazivaju dendrogrami.

Kako metod super cvora radi sa (±1)-vektorima, tj. vrsi biparticiju, izucavacemo samohijerarhijske algoritmime.

36

Page 38: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 37

U prethodno pomenutim problemima particije grafa (MAX–CUT, sparsest cut...) imamoeksplicitno zadatu funkciju cilja, tj. za svaku particiju (iz konacnog skupa particija datoggrafa) znamo njenu ”vrednost” i biramo najbolju. Detekcija klastera je problem ”otvorenog”tipa: ne postoji univerzalno prihvacena definicija najbolje podele mreze na drustva. Zapravo,sama definicija moze zavisiti od tipa mreze; klasicni princip ”vise grana unutar klastera,manje grane izmedu klastera” ne daje uvek najbolje rezultate.

Od mnogih definisanih mera kvaliteta date particije, najpopularnija je modularnost (eng.modularity) koju su uveli Newman i Girvan 2004. godine [34]. Naime, autori definisu modu-larnost date particije mreze kao broj grana unutar klastera minus ocekivani broj grana unutarklastera u random grafu koji ima isti niz stepena cvorova kao polazni. Velika modularnostimplicira da su veze unutar klastera ”jace” nego sto bi inace bile da smo grane ubacivalislucajno, odrzavajuci stepene. Kako ne postoji zatvorena formula za ocekivani broj granaizmedu data dva cvora u random grafu sa zadatim nizom stepena cvorova, upotrebljavajuse aproksimacije koristeci koncepte konfiguracionih modela [35] (eng. Configuration Model).Ovi modeli predstavljaju neku vrstu (randomizovanih) algoritama koji za dati niz stepenacvorova d vracaju kao rezultat graf (moguce sa petljama i visestrukim granama) ciji jeocekivani niz stepena cvorova upravo d.

Jedan od najjednostavnijih algoritama je: za svaki par cvorova (i, j) dodati 2m grana

sa verovatnocomdidj4m2 , gde je m = 1

2

∑ni=1 di ukupan broj grana. Tada je zaista ocekivana

vrednost stepena cvora i jednaka∑n

i=1didj4m22m = di, pa na osnovu ovog modela mozemo

smatrati da je trazeni ocekivani broj grana izmedu cvorova i i j upravodidj2m

. Za datuparticiju P , definisimo funkciju analognu Kroneckerovoj delta funkciji

∆(i, j) =

1, ako cvorovi i i j pripadaju istom klasteru particije P ,0, inace.

Definicija 5.1 Modularnost grafa (mreze) G u odnosu na particiju P je vrednost

QP (G) =1

2m

n∑i=1

n∑j=1

(Ai,j −

didj2m

)∆(i, j). (5.1)

Faktor 12m

iz jednacine (5.1) sluzi samo kao normalizaciona konstanta. Definicija modu-larnosti indukuje sledecu definiciju

Definicija 5.2 Matrica modularnosti grafa G, u oznaci M (ili M(G)), je realna matricadimenzija n× n sa elementima

Mi,j = Ai,j −didj2m

.

Jasno, matrica modularnosti je simetricna realna matrica. Takode primetimo da je sumaelemenata proizvoljne vrste (kao i proizvoljne kolone) matrice M(G) jednaka 0. Ovo zaposledicu ima da matrica modularnosti uvek ima sopstvenu vrednost 0 i njoj odgovarajucisopstveni vektor [1, 1, . . . , 1]T .

Teorema 5.3 Neka je (A,B) proizvoljna biparticija grafa G i neka je x njen karakteristicni(±1)-vektor. Ako je M matrica modularnosti grafa G, tada je modularnost grafa G u odnosuna particiju (A,B) jednaka

QA,B(G) =1

4mxTMx. (5.2)

Page 39: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 38

Dokaz. Posto se radi o biparticiji, umesto ∆(i, j) u jednacini (5.1) mozemo koristiti1+xixj

2.

Sledi

QA,B(G) =1

2m

n∑i=1

n∑j=1

Mi,j1 + xixj

2

=1

4m

n∑i=1

n∑j=1

Mi,j +1

4m

n∑i=1

n∑j=1

Mi,jxixj

=1

4mxTMx

gde smo iskoristili da je suma svih elemenata matrice M jednaka 0.

Sada smo na poznatom terenu: maksimizacija modularnosti (posmatrajuci samo bipar-ticije) jednaka je maksimizaciji kvadratne forme (5.2). Medutim, posle podele grafa na dvaklastera, potrebno je ponovo primeniti maksimizaciju modularnosti nad ovim podgrafovima.Iako naizgled prirodno resenje, jednostavno brisanje grana izmedu dva novodobijena klasterai formiranje novih matrica susedstva za X i Y nije korektan postupak - dolazi do promenestepena cvorova sto nije u saglasnosti sa jednacinom (5.1). Resenje nije ni uzeti samo pod-matricu matrice modularnosti indukovanu cvorovima podgrafa - u tom slucaju dolazi domaksimizacije pogresne vrednosti.1

Neka je H proizvoljan podgraf grafa G. Za svaki cvor v ∈ H, definisimo d(H)i =

|N(v)∩V (H)| sto predstavlja stepen cvora v unutar podgrafa H. Takode definisimo D(H) =∑v∈V (H) dv. Tada matricu M (H), indeksiranu cvorovima grafa g i definisanu sa

M(H)i,j = Ai,j −

didj2m− δij

(d(H)i − di

D(H)

2m

)(5.3)

gde je δij standardna Kroneckerova delta funkcija, nazivamo matrica modularnosti podgrafaH. Primetimo da je M (G) = M , kao i da se M (H) razlikuje od M (za odgovarajuce indekse)samo na dijagonalnim elementima. Takode, nije tesko pokazati da je suma proizvoljne vrste(kolone) matrice M (H) jednaka 0. Sada uvodimo pojam modularnosti podgrafa H grafa G uodnosu na particiju P kao

QP (H) =1

4m

|V (H)|∑i=1

|V (H)|∑j=1

M(H)i,j ∆(i, j). (5.4)

Primetimo da se (5.4) poklapa sa (5.1) za H = G. Ukoliko je x karakteristiv cni vektorparticije (A,B) podgrafa H tada se, potpuno analogno dokazu Teoreme 5.2 moze se dokazatida vazi

QA,B(H) =1

4mxTM (H)x. (5.5)

Sledeca teorema opravdava posebnu definiciju modularnosti podgrafa.

Teorema 5.4 Neka je (X, Y ) particija grafa H koji je podgraf grafa G. Neka je (X1, X2)particija (pod)grafa X i neka je (Y1, Y2) particija (pod)grafa Y . Tada je

QX1,X2,Y1,Y2(H) = QX,Y (H) +QX1,X2(X) +QY1,Y2(Y ). (5.6)

Page 40: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 39

Algoritam 7: SpectralCommunityDetection

Ulaz: Graf H, podgraf grafa GIzlaz: Uredeni par (P,QP (H), gde je QP (H) (heuristicki) maksimalna vrednost

modularnosti podgrafa H a P particija za koju se ona dostize.

1 λ← najveca sopstvena vrednost matrice M (H);2 v← sopstveni vektor koji odgovara sopstvenoj vrednosti λ;

3 if λ = 0 then4 return (V (H), 0);5 end

6 A← i ∈ V (H) | vi ≥ 0;7 B ← i ∈ V (H) | vi < 0;8 x← karakteristicni vektor biparticije (A,B);

9 Q← 14m

xTM (H)x;

10 (P1, Q1)← SpectralCommunityDetection(A);11 (P2, Q2)← SpectralCommunityDetection(B);

12 return (P1 ∪ P2, Q+Q1 +Q2);

Dokaz Teoreme 5.4 je tehnicke prirode i ovde ga necemo navoditi. Jednacina (5.6) govorida se deo modularnosti koji smo maksimizovali prvom biparticijom (QX,Y (H)) nece kasnijeizgubiti.

Sada imamo spreman aparat za spektralni algoritam maksimizacije modularnosti grafa(Newman 2006. [36], Algoritam 7): u svakom koraku algoritam vrsi biparticiju maksimi-zovanjem kvadratne forme (5.5). Koristi se standardni spektralni pristup aproksimacijesopstvenog vektora koji odgovara najvecoj sopstvenoj vrednosti matrice modularnosti. Naosnovu prethodne diskusije, uvek vazi λmax(M

(H)) ≥ 0. Ukoliko je najveca sopstvena vred-nost upravo 0, to je prirodan kriterijum za zaustavljanje - modularnost se ne moze povecavatinovim grananjem a sopstveni vektor [1, 1, . . . , 1]T govori da treba uzeti ceo podgraf kaoklaster. Ukupna modularnost jednaka je sumi iz linije 12 na osnovu Teoreme 5.4. Jasno jeda algoritam treba pozvati sa parametrom H = G.

U ovom radu je koriscena varijanta prethodnog algoritma gde je umesto klasicne aproksi-macije sopstvenog vektora v u linijama 6–8 koriscen metod super-cvora.

5.2 Kernighan-Lin heuristika

Uz standarni spektralni metod biparticije, neretko se koristi i neka dodatna heuristika saciljem da se pronadena biparticija malo popravi. Dodatna heurista se obicno primenjujeposle odredivnanja biparticije (A,B), tj. njenog karakteristicnog vektora x, koji potomsluzi kao polazna tacka lokalne pretrage za maksimumom funkcije xTMx. U algoritmuSpectralCommunityDetection heuristika bi se pozivala posle linije 7.

Najpoznatija heuristika ovog tipa je Kernighan-Lin heuristika [37]. Ideja ove heuristikeje slicna ideji dokaza Teoreme 3.5 - za fiksiranu biparticiju (A,B) izabrati par cvorova a ∈A, b ∈ B tako da je vrednost cut(A \ a ∪ b, B \ b ∪ a) maksimalna, oznaciti ih

1Ovo nije ocigledno; preporucuje se citaocu da ovo formalno dokaze.

Page 41: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 40

kao markirane, zameniti ih i nastaviti postupak za nemarkirane cvorove. Posle markiranjasvih cvorova izabere se (na osnovu nekog racunski jednostavnog kriterijuma) koji podskupmarkiranih cvorova ce zaista biti promenjen. Trivijalna implementacija ovog algoritma dajeslozenost O(n3), dok sortiranje i pametnija pretraga (videti pomenuti rad) daju slozenostO(n2 log n).

U radu [36] je predlozena sledeca verzija Kernighan-Lin heuristike:

1. Medu svim nemarkiranim cvorovima particije (A,B) grafa G, pronaci cvor v cijim seprebacivanjem u suprotnu grupu modularnost povecava najvise ili se smanjuje naj-manje, ako je nije moguce povecati.

2. Markirati cvor v, prebaciti ga u suprotnu grupu i zapamtiti trenutnu particiju.

3. Ponavljati 1. i 2. dok svi cvorovi ne postanu markirani.

4. Medu svim zapamcenim particijama izabrati particiju (A′, B′) sa najvecom modu-larnoscu. Ukoliko je QA′,B′(G) > QA,B(G), ponoviti korake 1.–4.; u suprotnom kraj.

Ova heuristika je koriscena i kao dodatak nasem algoritmu. Dajemo implementaciju uslozenosti O(n2) gde je n dimenzija matrice modularnosti.

Neka je x karakteristicni vektor trenutne particije (A,B) grafa G. Za proizvoljno v ∈V (G), neka je yv ∈ Rn vektor cija je v-ta komponenta jednaka 2xv a sve ostale su 0. Ukolikocvor v prede u suprotnu grupu, novi karaktericni vektor particije postaje x − yv, dok semodularnost menja za (zanemarujemo konstantu 1

4m)

∆Q = xTMx− (x− yv)TM(x− yv)

= xTMyv + yvTMx− yv

TMyv

= 2xTMyv − yvTMyv

= (2x− yv)TMyv

Kako je

(2x− yv)T = 2[x1,x2, . . .xv−1, 0,xv+1, . . . ,xn]

i

Myv = 2

xvM1,v

xvM2,v...

xvMn,v

konacno dobijamo

∆Q = 4xv(n∑

i=1

xiMi,v)− 4Mv,v.

Ukoliko uvedemo oznaku col[v] =∑n

i=1 xiMi,v, tada je ∆Q = 4(col[v] −Mv,v). Sa drugestrane, promena znaka koordinate v u vektoru x uslovljava promenu col[i] = col[i]−2xvMi,v.Ovo je dovoljno zapazanja za dizajn algoritma KernighanLin (Algoritam 8).

Page 42: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 41

Algoritam 8: KernighanLin

Ulaz: Matrica modularnosti M grafa G dimenzija n× n i vektor biparticije xIzlaz: x′ - vektor biparticije sa vecom (ili jednakom) modularnoscu.

1 for v ← 1 to n do2 col[i]←

∑ni=1 x[i]M [i][v];

3 end4 mark[]← false;

5 for iter ← 1 to n do6 v = argmaxmark[v]=false(col[v]−M [v][v]);7 mark[v] = true;8 ind[iter] = v;9 val[iter] = col[v]−Mv,v;

10 for i← 1 to n do11 col[i] = col[i]− 2x[v]M [i][v];12 end

13 end

14 pos← argmaxi val[i];15 if val[pos] > 0 then16 Promeni znak svim x[ind[1]],x[ind[2]], . . .x[ind[pos]];17 return KernighanLin(M , x);

18 end19 else20 return x;21 end

5.3 Rezultati na realnim mrezama

Evaluacija metode super-cvora za maksmizaciju modularnosti vrsena je na 8 realnih mrezakoje su postale standardne test instance u mnogim radovima ovog tipa:

Zaharijev karate klub (karate) - mreza koja predstavlja prijateljstva 34 clana jednogkarate-kluba u SAD. Postala je standardni test algoritama za klasterizaciju, delom i zbogtoga sto se klub podelio na dva dela zbog konflikta pa se novi klubovi mogu posmatrati kaonajbolji klasteri za datu mrezu; cilj je dobiti te klastere.

Americka koledz NFL liga (ball) - mrez a koja predstavlja raspored utakmica za sezonu

2000/2001. Cvorovi predstavljaju timove a a grane utakmice izmedu njih. Timovi su podel-jeni u konferencije (oko 8-12 timova u svakoj) i obicno se vise utakmica igra izmedu timovaiz iste konferencije - cilj je rekonstruisati konferencije na osnovu utakmica.

Knjige o politici SAD-a (books) - u ovoj mrezi knjige cvorovi predstavljaju knjige natemu politike SAD-a kupljene sa Amazona a grane povezuju parove knjiga koje su cestokupovane zajedno. Knjige su klasifikovane kao liberalne, konzervativne ili nista od toga i ciljje odrediti te grupe na osnovu podataka o kupovini.

Ostale mreze ukljucuju mrezu povezanosti dzez muzicara (jazz), zajednicu delfina pos-matranu u Novom Zelandu (dolph), mrezu saradnje naucnika koji istrazuju mreze (coll),metabolicku (meta) i mrezu email kontakata (email).

Detaljniji opisi svih pomenutih mreza (ukljucujuci i njihove autore) mogu se naci u [38].

Page 43: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 42

Naziv V E Gustina UB

KARATE 34 78 13.90% 0.420

DOLPH 62 159 08.41% 0.531

BOOKS 105 441 08.08% 0.528

BALL 115 613 09.35% 0.606

JAZZ 198 2742 14.06% 0.446

COLL 235 415 01.51% 0.805

META 453 2025 01.98%

EMAIL 1133 5451 00.85%

Tabela 5.1: Broj cvorova, grana, gustina i gornja granica modularnosti test primera.

Same mreze, u obliku matrica susedstva i originalnih reprezentacije, mogu se skinuti saadrese http://www-scf.usc.edu/~gaurava/.

Za koriscene modove u metodu super-cvora koristimo iste oznake kao za MAX–CUTproblem. Prvo analiziramo slucaj bez Kernighan-Lin heuristike.

Naziv UB p025 p050 p075 p100 t050 t100 w050 w100

KARATE 0.420 0.398 0.398 0.419 0.393 0.377 0.393 0.395 0.398

DOLPH 0.531 0.511 0.509 0.509 0.491 0.474 0.407 0.512 0.495

BOOKS 0.528 0.520 0.510 0.498 0.467 0.457 0.439 0.488 0.497

BALL 0.606 0.597 0.531 0.587 0.493 0.455 0.425 0.520 0.565

JAZZ 0.446 0.424 0.425 0.425 0.394 0.391 0.357 0.393 0.410

COLL 0.805 0.777 0.772 0.752 0.718 0.756 0.690 0.778 0.778

META 0.411 0.401 0.361 0.348 0.378 0.333 0.403 0.421

EMAIL 0.540 0.533 0.497 0.489 0.461 0.458 0.539 0.508

Tabela 5.2: Modularnosti bez koriscenja Kernighan-Lin heuristike.

U tabeli 5.2 su (za svaku mrezu) bold fontom oznacene najbolje modularnosti kao ione koje se od najboljih ne razlikuju za vise od 10−3. Mozemo primetiti da se mod p025pokazao kao najuspesniji (njegova modularnost je uvek ≥ 94% gornje granice). Takode,posmatrajuci p-modove, u skoro svim test primerima kvalitet heuristike raste kako procenatodlucenih cvorova opada; u svim test primerima (p-mod) rezultati metoda super-cvora suuvek bolji od klasicnog spektralnog pristupa (KSP). Modularnosti u zavisnosti od procenataodlucenih cvorova se mogu videti na Slici 5.1.

Mozemo primetiti da do odstupanja dolazi u mrezama KARATE i BALL i donekle uJAZZ - u ovim mrezama mod p075 daje bolje rezultate od ocekivanih. Pomenute mreze suujedno i tri najgusce mreze iz test kolekcije i mozda u tome lezi neko objasnjenje neregu-larnosti.

Page 44: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 43

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

KARATE DOLPH BOOKS BALL JAZZ COLL META

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

KARATE DOLPH BOOKS BALL JAZZ COLL META EMAIL

p_025

p_050

p_075

p_100

Slika 5.1: Modularnost u odnosu na parametar p u p-modu.

t-mod varijante daju znatno slabije rezultate, a osim mreze KARATE, t050 daje boljerezultate od t100, dok se daljim smanjivanjem parametra dobijaju (uglavnom) nesto boljirezultati. Sa druge strane, rezultati w-moda su konkurentni sa p-modom pri cemu daju boljerezultate od KSP-a. Slika 5.2 prikazuje poredenje izmedju KSP-a (p100), p25 i najboljihrezultata modova t i w.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

KARATE DOLPH BOOKS BALL JAZZ COLL META EMAIL

KSP

t-mod

w-mod

p_025

Slika 5.2: Poredenje rezultata p, t i w modova sa klasicnim spektralnim pristupom.

Kernighan-Lin heuristika poboljsava rezultate metoda super-cvora za 1 − 5%. Kako supocetni rezultati bili vrlo blizu gornjoj granici, ovo za posledicu ima da se za vecinu testprimera rezultati razlicitih modova razlikuju za manje od 1% (u odnosu na gornju granicu).Ovo je narocito izrazeno u manjim mrezama u kojima se KL heuristika ponasa kao globalnaheuristika.

Osim analize razlicitih modova metoda super-cvora, vrsena su poredenja sa sledecimalgoritmima:

1. Girman-Newmanov algoritam (GN) [39]. Autori definisu gustinu grane e kao uku-pan broj najkracih puteva (posmatrajuci sve parove cvorova) koji sadrze e. Kako suklasteri uglavnom medusobno povezani malim brojem grana, najkraci putevi izmedurazlicitih klastera moraju prolaziti kroz tih nekoliko grana i one imaju najvecu gustinu;Algoritam radi tako sto iterativno uklanja grane trenutno najvece gustine.

Page 45: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 44

Naziv UB p025 p050 p075 p100 t050 t100 w050 w100

KARATE 0.420 0.419 0.419 0.419 0.419 0.419 0.419 0.419 0.419

DOLPH 0.531 0.526 0.526 0.526 0.526 0.526 0.526 0.527 0.526

BOOKS 0.528 0.520 0.524 0.520 0.526 0.526 0.526 0.520 0.526

BALL 0.606 0.601 0.601 0.601 0.601 0.601 0.600 0.601 0.601

JAZZ 0.446 0.442 0.431 0.442 0.442 0.442 0.442 0.442 0.431

COLL 0.805 0.799 0.791 0.801 0.781 0.802 0.801 0.795 0.786

META 0.428 0.436 0.430 0.433 0.434 0.430 0.427 0.431

EMAIL 0.567 0.564 0.566 0.562 0.567 0.560 0.562 0.556

Tabela 5.3: Modularnosti koriscenjem Kernighan-Lin heuristike.

2. Newmanov algoritam (N) [36] koji zapravo predstavlja mod p100 metoda super-cvorasa Kernighan-Lin heuristikom.

3. LP i VP alogritmi [38]. LP predstavlja relaksaciju celobrojnog programiranja lin-earnim programiranjem a zatim se za odredivanje pripadnosti cvora klasteru koristispecijalno zaokruzivanje. Napomenimo da su gornje granice (UB) test primera odredeneuz pomoc modifikovane verzije ovog algoritma. VP predstavlja relaksaciju kvadratnogprogramiranja vektorskim programiranjem i vrlo je slican algoritmu Goemans-Williamsa.

Nijedan od pomenutih algoritama nije ”cisto spektralni”; NG je kombinatorni, N koristiheuristiku a LP/VP su varijante matematickog programiranja. Zbog toga ima smisla poreditiih samo sa varijantama naseg algoritma koje koriste Kernighan-Lin heuristiku.

Naziv UB N GN VP LP p-mod t-mod w-mod

KARATE 0.420 0.419 0.401 0.420 0.420 0.419 0.419 0.419

DOLPH 0.531 0.526 0.520 0.526 0.529 0.526 0.526 0.527

BOOKS 0.528 0.526 0.527 0.527 0.524 0.526 0.526

BALL 0.606 0.601 0.601 0.605 0.605 0.601 0.601 0.601

JAZZ 0.446 0.442 0.405 0.445 0.445 0.442 0.442 0.442

COLL 0.805 0.781 0.720 0.803 0.803 0.801 0.802 0.795

META 0.433 0.403 0.450 0.436 0.434 0.431

EMAIL 0.562 0.532 0.579 0.567 0.567 0.562

Tabela 5.4: Poredenje heuristika za detekciju klastera. Za p-mod je uzeta najveca od vred-nosti p025, p050 i p075; analogno i za ostale modove.

Zakljucujemo da je metod super-cvora znatno bolji od GN algoritma, uglavnom bolji odN algoritma i nesto slabiji od VP/LP algoritama. Medutim, u odnosu na VP/LP algoritme,rezultati su slabiji za manje od 1%, osim u slucaju mreza META i EMAIL gde su rezultati

Page 46: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 45

slabiji za oko 3%. Sa druge strane, VP/LP algoritmi su veoma zahtevni sto se tice memori-jskog i vremenskog ogranicenja - LP radi sa Θ(|V |3) ogranicenja (zbog toga ga nije moguceprimeniti na dve najvece mreze) dok VP koristi Θ(|V |2) promenljivih. Efikasnost naseg algo-ritma zavisi primarno od metoda koriscenog za racunanje ekstremalnog sopstvenog vektoradok se memorijska moze svesti na Θ(|V | + |E|) i u tom pogledu je ”bolji” od algoritamabaziranih na matematickom programiranju.

5.4 Novi algoritmi koriscenjem dendrograma

Mnoge mere kvaliteta particije, ukljucujuci i modularnost, favorizuju karakterizaciju klasterakao delove grafa unutar kojih je gustina grana veca nego van njih. Ukoliko particija (A,B)grafa G predstavlja podelu grafa na dva klastera (po neformalnim definicijama), tada je ukomplementu grafa G, gustina grana izmedu A i B veca nego unutar ovih particija. Ovoznaci da je G ”skoro bipartitan” graf. Prema tome, problem detekcije klastera mozemotretirati i kao trazenje velikih bipartitnih podgrafova komplementa datog grafa. Koristecispektar grafa, bipartitnost mozemo detektovati na dva ranije pomenuta nacina.

1. Na osnovu Teoreme 2.27, ukoliko je graf bipartitan, tada cvorovi jedne particije imajupozitivne a cvorovi druge particije negativne komponente sopstvenog vektora koji odgo-vara najmanjoj sopstvenoj vrednosti njegove matrice susedstva. Prema tome, particijacvorova grafa G se moze izvrsiti na osnovu najmanjeg sopstvenog vektora matriceA(G). Nazovimo ovaj metod particije - AC-metod (Adjacency Complement).

2. Na osnovu Teoreme 2.28, ukoliko je graf bipartitan, tada cvorovi jedne particije imajupozitivne a cvorovi druge particije negativne komponente sopstvenog vektora koji odgo-vara najvecoj sopstvenoj vrednosti njegove normalizovane Laplasove matrice. Prematome, podela cvora grafa G se moze izvrsiti na osnovu najveceg sopstvenog vektoramatrice NL(G). Nazovimo ovaj metod particije - NLC-metod (Normalized LaplacianComplement).

Neka su c : V (G) → R i w : E(G) → R proizvoljne funkcije koje cemo dodelitinetezinskom grafu G. Za proizvoljno V ′ ⊂ V (G) definisimo c(V ′) =

∑u∈V ′ c(u). Ko-

risticemo i oznaku za ”granske” tezine podskupova cvorova w(V ′) =∑

uv∈E, u,v∈V ′ w(u, v).Za V ′, V ′′ ⊂ V , sa w(V ′, V ′′) cemo oznacavati vredonst cut(V ′, V ′′) racunajuci tezine w.Napomenimo da i dalje graf G posmatramo kao netezinski tj. koristimo odgovarajuce oblikematrica A i NL.

Neka je x ∈ Qn proizvoljni vektor koji odreduje particiju (X1, X2) grafa G. U odnosu napomenute funkcije c i w, definisimo sledecu funkciju cilja

Fc,w(x) = 2 (w(X1) + w(X2)− w(X1, X2))− (c(X1)− c(X2))2 .

Funkcija F favorizuje grane unutar particija dok penalizuje grane izmedu particija kao irazliku u velicini particija. Funkcije c i w su parametarske za funkciju F i one odreduju kolikosu ”bitni” pojedini cvorovi i grane; u najjednostavnijem slucaju to su jedinicne funkcije.Sledece teoreme pokazuju da AC i NLC metodi particije zapravo vrse maksimizaciju funkcijeF za odgovarajuce parametre c i w.

Teorema 5.5 Neka je c′(v) = 1 za svako v ∈ V (G) i w′(u, v) = 1 za svako uv ∈ E(G).Tada je

xTA(G)x+ Fc′,w′(x) + |V (G)| = 0 (5.7)

Page 47: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 46

za svako x ∈ Qn.

Dokaz. Oznacimo |V (G)| = n i neka vektor x ∈ Qn odreduje particiju (X1, X2). Kako sufunkcije c i w jedinicne, sledi c(V ′) = |V ′| za svako V ′ ⊂ V i vazi w(X1)+w(X2)−w(X1, X2) =∑

uv∈E xuxv. Koristeci A(G) = J − A− I, gde je A matrica susedstva grafa G, dobijamo

xTA(G)x = xT (J − A− I)x

=∑

1≤u,v≤n

xuxv −∑

1≤u,v≤n

Au,vxuxv −∑

1≤u≤n

x2u

= (|X1| − |X2|)2 − 2∑uv∈E

xuxv − n

= −Fc′,w′(x)− n

sto je i trebalo dokazati.

Kako AC-metod (heuristicki) minimizuje izraz xTA(G)x, na osnovu jednacine (5.7) sledida on maksimizuje razliku broja grana unutar i van komponenti, pri cemu favorizuje particijepriblizno jednake kardinalnosti.

Teorema 5.6 Neka je dv stepen cvora v grafa G sa n cvorova u kome ne postoji cvor kojije susedan sa svim ostalim. Ukoliko je c′′(v) = 1√

n−1−dvza svako v ∈ V (G) i w′′(u, v) =

1√n−1−du

√n−1−dv

za svako uv ∈ E(G), tada je

xTNL(G)x = n+n∑

v=1

1

n− 1− dv+ Fc′′,w′′(x) (5.8)

za svako x ∈ Qn.

Dokaz. Kako u G ne postoji cvor stepena n, u grafu G nema izolovanih cvorova i stepencvora v je jednak n − 1 − dv. Prema tome, matrica NL(G) na glavnoj dijagonali sadrzijedinice, na pozicijama (i, j) za koje ij ∈ E(G) sadrzi −w′′(i, j) a na ostalim pozicijamanule. Zakljucujemo

xTNL(G)x = n− 2∑

u=v, uv ∈E(G)

w′′(u, v)xuxv

= n+n∑

v=1

1

n− 1− dv− 2

∑uv ∈E(G)

w′′(u, v)xuxv

= n+n∑

v=1

1

n− 1− dv−

∑1≤u,v≤n

c′′(u)c′′(v)xuxv − 2∑

uv∈E(G)

w′′(u, v)xuxv

= n+

n∑v=1

1

n− 1− dv+ 2(w′′(X1) + w′′(X2)− w′′(X1, X2))− (c(X1)− c(X2))

2

= n+n∑

v=1

1

n− 1− dv+ Fc′′,w′′(x)

gde je (X1, X2) particija koju odreduje vektor x.

Page 48: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 47

Na osnovu jednacine (5.8) i cinjenice da n +∑n

v=11

n−1−dvne zavisi od particije, za-

kljucujemo da NLC-metod (heuristicki) maksimizuje funkciju Fc′′,w′′ ; za razliku od najjed-nostavnije varijante funkcije c gde su svi cvorovi jednako vredni, ovde cvorovi velikog stepenaimaju veci uticaj.

Moze se pokazati da je i modularnost grafa jos jedna varijanta ciljne funkcije F :

Teorema 5.7 Neka je dv stepen cvora v grafa G sa n cvorova i m grana cija je matricamodularnosti M . Ukoliko je c′′′(v) = dv√

2mza svako v ∈ V (G) i w′′′(u, v) = 1 za svako

uv ∈ E(G), tada jexTMx = n+ Fc′′′,w′′′(x).

za svako x ∈ Qn.

Dokaz. Na osnovu jednostavnog racuna koristeci xTMx = xTAx −∑

1≤u,v≤ndudv2m

xuxv irezultat iz dokaza Teoreme 5.5.

Primetimo da u slucaju AC i NLC metoda tezine cvorova indukuju tezine grana tj. vaziw(u, v) = c(u)c(v) dok kod matrice modularnosti to nije slucaj. Teoreme 5.5, 5.6 i 5.7predstavljaju formalnije argumente za upotrebu AC i NLC metoda za particiju grafa.

Prilikom particije grafa uzastopnom primenom biparticije potrebno je imati uslov zazaustavljanje tj. kriterijum kada je trenutni podskup V ′ cvorova dovoljno dobra aproksi-macija klastera. Jedan od prirodnih uslova je Fc,w(V

′, ∅) ≥ Fc,w(X1, X2) za svaku particiju(X1, X2) skupa V ′. Ovaj uslov je koriscen prilikom maksimizacije modularnosti; kriterujumje nepostojanje pozitivne komponente najveceg sopstvenog vektora matrice modularnosti.Stevanovic je 2012. postavio hipotezu da je ovaj uslov ekvivalentan sa tim da je graf induko-van skupom V ′ kompletan ili kompletan multipartitan2. Ovu hipotezu su nedavno dokazaliBolla et. al. [40].

Medutim, ovde predlazemo novi pristup. Glavna ideja je koristiti algoritam iz dva pro-laza: u prvom prolazu se biparticija uzastopno primenjuje bez uslova zaustavljanja (dok nedobijemo n = |V | grupa sa po jednim cvorom) ili sa slabim uslovom zaustavljanja (npr. dokje velicina trenutnog skupa cvorova veca od 1% ukupnog broja cvorova). Na ovaj nacin dobi-jamo binarno korensko stablo T (G) (dendrogram) particije grafa G u kome svaki cvor nodeodgovara skupu cvorova set(node) = V ′ ⊂ V (G) dobijenom biparticijom oca cvora node.Uz pomenute uslove o zaustavljanju, ocekivani broj cvorova stabla T je Ω(n). Jasno, listovistabla T ne predstavljaju dobru particiju i mnoge izvrsene biparticije su zapravo smanjileposmatranu ciljnu funkciju F ali, sa druge strane, stablo T nam daje puno informacija opotencijalno kvalitetnim particijama i dovoljno je izabrati najbolju.

Oznacimo sa P (T ) skup svih particija koje se mogu dobiti iz korenskog stabla T takosto se neke od biparticija jednostano ne izvrse. Za cvor x ∈ T , oznacimo sa sub(x) skupsvih cvorova u njegovom podstablu. Svakoj particiji p ∈ P (T ) jednoznacno odgovara skupcvorova T ′ ⊂ T tako da za svaka dva elementa x, y ∈ T ′ vazi sub(x) ∩ sub(y) = ∅; klasteriparticije p su podskupovi skupa V koji odgovaraju cvorovima iz T ′. Drugi prolaz nasegalgoritma predstavlja odabir particije iz P (T ) koja maksimizuje modularnost grafa G ilineku drugu generalizaciju F ′ funkcije cilja na vise od dve particije. Ukoliko je je F ′ adi-tivna na skupu podgrafova grafa G (kao sto je npr. modularnost), particiju P (T ) mozemo

2Ovo je i vrlo intuitivno - kompletan multipartitan graf je komplement uniji kompletnih grafova i samimtim od njega se ne moze ocekivati dobra podela na klastere.

Page 49: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 48

odabrati u slozenosti O(n) koristeci dinamicko programiranje nad stablom. Zaista, uko-liko je d[x] (x ∈ T ) optimalna vrednost funkcije F ′ za podgraf set(x) grafa G, tada vazid[x] = max(F ′(x), d[y] + d[z]) gde su y i z sinovi cvora x.

Sledi pseudo-kod pomenutog algoritma. Algoritam MakePartition istovremeno vrsikreiranje stabla T (G) na osnovu ciljne funkcije F1 (prolaz odozgo-nadole) i racunanje op-timalne particije na osnovu ciljne funkcije F2 (prolaz odozdo-nagore) modifikovanim DFS-obilaskom stabla. Na kraju obilaska, svi cvorovi koji predstavljaju klastere su markirani irekonstrukcija particije se moze izvrsiti dodatnim (linearnim) DFS-obilaskom.

Algoritam 9: MakePartition

Ulaz: Trenutni cvor node stabla T (G)Izlaz: Maksimalna vrednost zadate funkcije F2 za podgraf set(node) grafa G.

1 if |set(node)| = 0 then2 mark[node] = true;3 return F2(set(node));

4 end

5 M ← matrica podgrafa G indukovana skupom cvorova set(node) za koju jeoptimizacija xTMx ekvivalentna optimizaciji F1(x);

6 v← sopstveni vektor za koji je vTMv optimalno;

7 X1 ← u ∈ set(node) | vu ≥ 0;8 X2 ← u ∈ set(node) | vu < 0;9 set(node.left)← X1;

10 set(node.right)← X2;

11 val1 ←MakePartition(node.left);12 val2 ←MakePartition(node.right);

13 if F2(set(node)) ≥ val1 + val2 then14 mark[node] = true;15 end16 d[node] = max(F2(set(node)), val1 + val2);

17 return d[node];

Slozenost prolaska odozdo-nagore je linearna dok je slozenost prolaska odozgo-nadoleuslovljena metodima za izracunavnaje optimuma kvadratne forme i istog je reda velicine kaokod Newmanovog algoritma.

Za funkciju F1 koriscene su funkcije Fc′,w′ i Fc′′,w′′ , tj. AC i NLC metodi. Za funkcijuF2 koriscena je funkcija modularnosti. Umesto standardnog spektralnog pristupa u linijama6-8 koriscen je metod super-cvora.

Algoritam MakePartition u opstem slucaju daje particije manje modularnosti od algo-ritma Newmana jer koristi drugaciju ciljnu funkciju za prolaz odozgo-nadole. Medutim,skoro sve stvarne particije u realnim mrezama imaju modularnost manju od optimalne kaosto je to slucaj sa mrezom karate (modularnost 0.3715, najbolja pronadjena 0.419), books(modularnost 0.415, najbolja pronadena 0.526), ball (modularnost 0.554, najbolja pronadena0.601) itd. Zbog toga ovaj algoritam nudi jednu vrstu trade-off -a (manja modularnost – vecaokolina ispitivanja) i potencijalno ima vece sanse za detekciju realnih particija od onih samaksimalnom modularnoscu.

Page 50: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 49

Na osnovu Slike 5.5 mozemo zakljuciti da biparticije dobijene AC i NLC metodima odgo-varaju stvarnoj podeli karate kluba dok u slucaju Newmanovog pristupa (cak i uz metodsuper-cvora) dolazi do pogresne klasifikacije cvora 10. Primetimo da su AC/NLC metodi udaljim particijama izdvojili ”problematicni” cvor 10 kao i cvor 12 koji je stepena 1.

Iako AC i NLC metodi za mrezu karate daju iste particije, sto se u opstem slucaju vrloretko desava, dobijeni dendrogrami se razlikuju (Slike 5.6 i 5.7).

0.2

0.3

0.4

0.5

0.6

0.7

0.8

KARATE DOLPH BOOKS BALL JAZZ COLL META EMAIL

p_AC

p_NLC

Slika 5.3: Najbolje modularnosti dobijene AC i NLC metodima koristeci super-cvor u p-modu.

p_AC

p_NLC

0.2

0.3

0.4

0.5

0.6

0.7

0.8

KARATE DOLPH BOOKS BALL JAZZ COLL META EMAIL

w_AC

w_NLC

Slika 5.4: Najbolje modularnosti dobijene AC i NLC metodima koristeci super-cvor u w-modu.

Page 51: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 50

12

25

26

28

29

2432

1915

16

21

23

27

34

10

9

33

30

31

7

4

617

11

5

22

13

18

2

3

114

208

12

25

26

28

29

2432

1915

16

21

23

27

34

10

9

33

30

31

7

4

617

11

5

22

13

18

2

3

114

208

12

25

26

28

29

2432

1915

16

21

23

27

34

10

9

33

30

31

7

4

617

11

5

22

13

18

2

3

114

208

12

25

26

28

29

2432

1915

16

21

23

27

34

10

9

33

30

31

7

4

617

11

5

22

13

18

2

3

114

208

p025KL p025

AC p025

NLC p025

AC p100

NLC p100

Slika 5.5: Poredenje klasicne maksimizacije modularnosti (sa i bez Kernighan-Lin heuris-tike) i AC/NLC metoda na mrezi KARATE. Kvadraticima i kruzicima je oznacena pravapodela kluba. Razlicitim bojama su prikazane dobijene particije za svaki algoritam; ispreki-dana linija oznacava prvu biparticiju. Jedino su AC/NLC metodi uspeli da dobiju korektnubiparticiju.

Page 52: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 51

1

2

10

13

6

17

7

11

5

1

4

1

2

3

8

4

2

0

18

22

32

29

26

25

15

23

28

24

2

1

34

16

30

27

33

19

31

9

Slika

5.6:

Dendrogram

mreze

KARATE

dob

ijen

AC-m

etodom

savarijantom

p025super-cvora.Osencenicvorovipredstavljaju

koren

dob

ijenih

particija

(npr.

jednaparticija

je5,6,7,11,17).

Page 53: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Detekcija klastera 52

1

6

3

4

30

33

19

15

23

21

9

31

29

32

25

26

27

24

28

1

0

13

12

1

7

6

7

5

11

8

1

4

4

3

1

2

1

8

22

20

Slika

5.7:

Dendrogram

mreze

KARATE

dob

ijen

NLC-m

etodom

savarijantom

p025super-cvora.Osencenicvorovipredstavljaju

koren

dob

ijenih

particija

(npr.

jednaparticija

je5,6,7,11,17).

Page 54: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Glava 6

Zakljucak

U ovom radu je prezentovan i analiziran novi spektralni metod za particiju grafova koji jenazvan metod super-cvora. Vrsena su poredenja i kombinacije ovog metoda sa razlicitimpoznatim algoritmima i pokazano je da, ukoliko se kao kriterijum odlucivosti cvorova koristi(fiksirani) procenat top cvorova (p-mod), slozenost algoritma ostaje ista.

Glavni rezultati ovog rada su sledeci:

• Originalna implementacija metoda super-cvora u programskom jeziku C++. Dizajniranje kompletan framework u kome se ovaj metod moze koristiti za razlicite problemepozivanjem odgovarajuce funkcije sa dodatnim parametrima (oblik optimizacije, rednibroj sopstvene vrednosti, parametri za odlucivanje cvorova itd.). Omoguceno je doda-vanje raznih heuristika i izbora algoritma za racunanje sopstvenih vektora. Takode jeimplementirana vizuelizacija uz pomoc programa GraphViz.

• Primena na resavanje MAX-CUT problema i testiranje na test primerima koji se koristekao referentni sistem za vecinu heuristika ovog tipa kao i primena na klasterizacijupodataka za osam realnih mreza.

• Novi algoritmi spektralne particije koriscenjem dendrograma i komplemenata karak-teristicnih matrica grafa.

Za ispitivanje i analizu metoda super-cvora postoji jos puno prostora. Jedan ocigledanpravac u kome je moguce ici je dodatna heuristicka logika prilikom odlucivanja cvorova ikreiranja redukovane matrice i/ili kombinovanje p, t i w metoda.

Jos jedan moguci pravac u istrazivanju je ideja prof. Jurgena Josta (Max Planck institut)da se umesto jednog koriste dva super-cvora: jedan za pozitivne a drugi za negativne kom-ponente vektora particije. I ova ideja je implementirana ali jos uvek nedovoljno testirana.Umesto grupe odlucenih cvorova d (decided) imamo dve podgrupe p (positive) i n (negative)dok je redukovana matrica matrice M data sa Muu Mupp −Munn

pTMpu pTMppp −pTMpnn−nTMnu −nTMnpp nTMnnn

.

U ovom slucaju, umesto znaka super-cvora treba gledati razliku komponenti sopstvenogvektora koje odgovaraju pozitivnom i negativnom super-cvoru.

53

Page 55: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Literatura

[1] D. Stevanovic, Spectral Approaches to Community Detection, Computers in Scientific Discovery6 (CSD6), Portoroz, Slovenia, 2012.

[2] R. Diestel, Graph Theory, third edition, Springer-Verlag Heidelberg, New York, 2005.

[3] J. A. Bondy, U. S. R. Murty, Graph Theory with Applications, The Macmillan Press Ltd.,1976.

[4] D. Stevanovic, V. Baltic, S. Simic, M. Ciric, Diskretna matematika: osnove kombinatorike iteorije grafova, Drustvo Matematicara Srbije, Beograd, 2008.

[5] A. Ilic, Ekstremalni problemi i algoritmi za grafovske invarijante bazirane na sopstvenim vred-nostima i rastojanjima, Doktorska disertacija, Prirodno matematick fakultet, Univerzitet uNisu, 2010.

[6] R. A. Horn, C. R. Johnson, Matrix analysis, Cambridge University Press, Cambridge NewYork Melbourn, 1990.

[7] Lj. Kocinac, Linearna algebra i analiticka geometrija, Prosveta, Nis, 1996.

[8] M. Cvetkovic, Matricne nejednakosti, Master rad, Prirodno matematick fakultet, Univerzitetu Nisu, 2012.

[9] D. Cvetkovic, M. Doob, H. Sachs, Spectra of graphs Theory and Application, Third ed., JohannAmbrosius Barth Verlag, 1995.

[10] A. E. Brouwer, W. H. Haemers, Spectra of Graphs, Springer, New York, 2012.

[11] T. H. Cormen, C. E. Leiserson, R. L. Rivest and C. Stein, Introduction to Algorithms, Seconded., MIT Press. New York, 2001.

[12] R. M. Karp, Reducibility among combinatorial problems, In R. E. Miller and J. W. Thatcher,editors, Complexity of Computer Computations, pages 85–103, Plenum Press, 1972.

[13] C. - E. Bichot and P. Siarry, Graph partitioning, ISTE Wiley, 2011.

[14] C. Schulz, High Quality Graph Partitioning, Dissertation, Fakultat fur Informatik des Karl-sruher Instituts fur Technologie, 2013.

[15] K. Andreev and H. Racke, Balanced Graph Partitioning, Theory of Computing Systems 39(6)(2006), 929–939.

[16] S. Arora, S. Rao and U. Vazirani, Expander flows, geometric embeddings and graph partitioning,Journal of the ACM 56(2) (2009), 1–37.

[17] D. Bader, H. Meyerhenke, P. Sanders and D.Wagner, 10th DIMACS Implementation Challenge- Graph Partitioning and Graph Clustering, http://www.cc.gatech.edu/dimacs10/.

54

Page 56: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

LITERATURA 55

[18] B. Mohar, S. Poljak Eigenvalues in Combinatorial Optimization, Combinatorial and Graph-Theoretical Problems in Linear Algebra vol. 50 (1993), The IMA Volumes in Mathematics andits Applications, Springer-Verlag, New York, 107–151.

[19] N. Alon, Spectral techniques in graph algorithms, Lecture Notes in Computer Science 1380(1998), 206–215.

[20] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Math. J. 23(98) (1973), 298–305.

[21] M. Fiedler, A property of eigenvectors of nonnegative symmetric matrices and its applicationto graph theory, Czechoslovak Math. J. 25(100) (1975), 619–633.

[22] A. Pothen, H. Simon and K. P. Liou, Partitioning sparse matrices with eigenvectors of graphs,SIAM J. Matrix Anal. Appl. 11 (1990), 430452.

[23] C. Delorme, S. Poljak, Laplacian eigenvalues and the maximum cut problem, MathematicalProgramming 62 (1993), 557–574.

[24] C. Delorme, S. Poljak, The performance of an eigenvalue bound on the max-cut problem insome classes of graphs, Disc. Math. 111 (1993), 145–156.

[25] S. Poljak, F. Rendl, Solving the max-cut problem using eigenvalues, Disc. Appl. Math. 62(1995), 249–278.

[26] M. X. Goemans, D.P. Williams, Improved approximation algorithms for Max-Cut and Satisfi-ability Problems using Semidefinite Programming, J. of the ACM 42 (1995), 1115–1145.

[27] F. Alizadeh, Interior point methods in semidefinite programming with applications to combi-natorial optimization., SIAM J. Optimiz. 5 (1995), 13–51.

[28] F. Rendl, R. Vanderbei, H. Wolkowicz, Interior point methods for max-min eigenvalue prob-lems, Report 264 (1993), Technische Universitat Graz, Graz, Austria.

[29] P. Festa, P. M. Pardalos, M. G. C. Resende, and C. C. Ribeiro, Randomized heuristics for theMAX-CUT problem, Optimization Methods and Software 7 (2002), 1033–1058.

[30] C. Helmberg and F. Rendl, A spectral bundle method for semidefinite programming, SIAM J.on Optimization 10 (2000), 673–696.

[31] S. Fortunato, Community detection in graphs, Physics Reports 486 (2010), 75–174.

[32] M. E. J. Newman, Communities, modules and large-scale structure in networks, Nature Physics8 (2012), 25–31.

[33] M. C. V. Nascimento, A. C. P. L. F. de Carvalho, Spectral methods for graph clustering Asurvey, European Journal of Operational Research 211 (2011), 221–231.

[34] M. E. J. Newman, M. Girvan, Finding and evaluating community structure in networks, Phys.Rev. E 69(2) (2004), 026113.

[35] R. van der Hofstad, Random Graphs and Complex Networks, Lecture Notes (2013), http://www.win.tue.nl/\~rhofstad/NotesRGCN.pdf.

[36] M. E. J. Newman, Modularity and community structure in networks, Proc. Natl. Acad. Sci.USA 103 (2006), 8577–8582.

[37] B. W. Kernighan, S. Lin, An efficient heuristic procedure for partitioning graphs, Bell Syst.Tech. J. 49 (1970), 291–307.

Page 57: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

LITERATURA 56

[38] G. Agarwal, D. Kempe, Modularity-Maximizing Graph Communities via Mathematical Pro-gramming, European Physics Journal B 66(3) (2008), 409–418.

[39] M. Girvan and M. E. J. Newman, Community structure in social and biological networks, Proc.Natl. Acad. Sci. USA 99 (2002), 7821–7826.

[40] M. Bolla et. al., When the largest eigenvalue of the modularity and normalized modularitymatrix is zero, http://arxiv.org/abs/1305.2147, 2013.

Page 58: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Biografija

Nikola Milosavljevic je roden 10.01.1989. godine u Nisu, Republika Srbija. Osnovnu skolu”Kralj Petar I” u Nisu je zavrsio kao nosilac Vukove diplome i dak generacije. Gimnaziju”Svetozar Markovic” u Nisu, specijalizovano matematicko odeljenje, takode je zavrsio kaonosilac Vukove diplome i dak generacije.

Skolske 2008/2009. godine upisao je osnovne studije informatike na Departmanu zainformatiku, Prirodno-matematickog fakulteta u Nisu, koje je zavrsio skolske 2010/2011.godine sa prosecnom ocenom 10,00. Skolske 2011/2012. godine upisao je master akademskestudije na Departmanu za informatiku, Prirodno-matematickog fakulteta u Nisu, studijskiprogram: informatika. Master akademske studije zavrsio je skolske 2012/2013. godine saprosecnom ocenom 10,00.

Za vreme osnovne i srednje skole takmicio se iz matematike, informatike i fizike i osvajaobrojne nagrade na drzavnim i saveznim nivoima (ukljucujuci i prve nagrade na drzavnimtakmicenjima iz matematike), nagrade grada Nisa kao i nagradu na Matematickom turnirugradova u Belorusiji 2005. Za vreme studija, nastavlja sa takmicenjima i najveci uspesiukljucuju II mesto na timskom Microsoft BubbleCup takmicenju iz programiranja 2012; deonajbolje plasirane srpske ekipe na ACM (South-Eastern European Region) takmicenju izprogramiranja, Bukuret, 2010; plasman u finale medunarodnog takmicenja iz programiranjaChallenge24, Budimpesta, 2013.

Dobitnik je Konstantinove stipendije kao najbolji student Prirodno matematickog fakul-teta u Nisu za 2012/2013 godinu.

Za vreme studiranja drzao je pripremnu nastavu iz informatike i matematike ucenicimaspecijalizovanog matematickog odeljenja Gimnazije ”Svetozar Markovic” iz Nisa. Saradnikje na seminaru matematike u Istrazivackoj stanici Petnica. Od 2010. godine je clan komisijeza takmicenja srednjoskolaca iz informatike, predavac na pripremama srpskog informatickogolimpijskog tima i autor mnogih zadataka na takmicenjima iz programiranja ukljucujuci iBOI 2012 na kome je bio i clan naucnog komiteta. 2012. godine je vodio srpski informatickiolimpijski tim na IOI, Sirmione/Monticari, Italija.

Autor je dva naucna rada u casopisima kategorije M21:

• A. Ilic, N. Milosavljevic, The weighted vertex PI index, Mathematical and ComputerModeling 57 (3-4) (2013), 623–631.

• N. Milosavljevic, D. Stevanovic, Detour Index of Hexagonal Chains, MATCH Commun.Math. Comput. Chem. 2013, accepted.

57

Page 59: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Прилог 5/1

ПРИРОДНO - MАТЕМАТИЧКИ ФАКУЛТЕТ

НИШ

КЉУЧНА ДОКУМЕНТАЦИЈСКА ИНФОРМАЦИЈА

Редни број, РБР:

Идентификациони број, ИБР:

Тип документације, ТД: монографска

Тип записа, ТЗ: текстуални / графички

Врста рада, ВР: мастер рад

Аутор, АУ: Никола Милосављевић

Ментор, МН: Драган Стевановић

Наслов рада, НР: СПЕКТРАЛНА ПАРТИЦИЈА ГРАФОВА МЕТОДОМ

СУПЕР-ЧВОРА

Језик публикације, ЈП: српски

Језик извода, ЈИ: енглески

Земља публиковања, ЗП: Р. Србија

Уже географско подручје, УГП: Р. Србија

Година, ГО: 2013.

Издавач, ИЗ: ауторски репринт

Место и адреса, МА: Ниш, Вишеградска 33.

Физички опис рада, ФО: (поглавља/страна/ цитата/табела/слика/графика/прилога)

60 стр. ; граф. прикази

Научна област, НО: рачунарске науке

Научна дисциплина, НД: спектрална теорија графова / теорија алгоритама

Предметна одредница/Кључне речи, ПО: граф, сопствене вредности матрице, хеуристика

УДК 519.142 : 519.157

Чува се, ЧУ: библиотека

Важна напомена, ВН:

Извод, ИЗ: У раду је представљен нови спектрални алгоритам (хеуристика) за партицију графова који се заснива на итеративној трансформацији матрице на основу компоненти одговарајућег сопственог вектора. Приказана је примена у решавању Max-Cut проблема као и нови алгоритми за решавање проблема детекције кластера. Осим стандардне варијанте алгоритма, анализиране су и комбинације са Kernighan-Lin i VNS хеуристикама.

Датум прихватања теме, ДП: 17.09.2013.

Датум одбране, ДО:

Чланови комисије, КО: Председник:

Члан:

Члан, ментор:

Образац Q4.09.13 - Издање 1

Page 60: Spektralna particija grafova metodom super- cvora · nauˇcio mnogim stvarima od kojih je teorija grafova samo jedan mali deo. Nijedan rad nije bez greˇsaka pa tako sigurno nije

Прилог 5/2

ПРИРОДНО - МАТЕМАТИЧКИ ФАКУЛТЕТ

НИШ

KEY WORDS DOCUMENTATION

Accession number, ANO:

Identification number, INO:

Document type, DT: monograph

Type of record, TR: textual / graphic

Contents code, CC: university degree thesis (master thesis)

Author, AU: Nikola Milosavljević

Mentor, MN: Dragan Stevanović

Title, TI: SPECTRAL GRAPH PARTITIONING USING A SUPER-VERTEX METHOD

Language of text, LT: Serbian

Language of abstract, LA: English

Country of publication, CP: Republic of Serbia

Locality of publication, LP: Serbia

Publication year, PY: 2013

Publisher, PB: author’s reprint

Publication place, PP: Niš, Višegradska 33.

Physical description, PD: (chapters/pages/ref./tables/pictures/graphs/appendixes)

60 p. ; graphic representations

Scientific field, SF: Computer science

Scientific discipline, SD: Spectral graph theory / theory of algorithms

Subject/Key words, S/KW: graph, matrix eigenvalues, heuristics

UC 519.142 : 519.157

Holding data, HD: library

Note, N:

Abstract, AB: In this thesis, the new spectral graph partitioning heuristic is presented. The heuristic is based on the iterative matrix transformation using the component values of the corresponding eigenvector. We analyze the application of this heuristic on Max-Cut problem and present some new algorithms for community detection problem. We also present a modifications of our heuristic using Kernighan-Lin and VNS heuristics.

Accepted by the Scientific Board on, ASB: 17.09.2013.

Defended on, DE:

Defended Board, DB: President:

Member:

Member, Mentor:

Образац Q4.09.13 - Издање 1