Descriere Data Mining

Revista Informatica Economic, nr. 4 (36)/2005 50

Data mining on the real estate market

Tit-Liviu LEONTIN, Darie MOLDOVAN, Manuela RUSU, Daniela SECAR, Corina TRIFU

Facultatea de tiine Economice i Gestiunea Afacerilor Universitatea Babe-Bolyai, Cluj-Napoca

This paper aims to give an update on the evolution of the data analyze techniques, linking them with the artificial intelligence algorithms, especially with data mining. We shall high-light a couple of fields where data mining is very useful and some software application, with a special emphasizes on the free WEKA. As example, we shall present a case study of the real estate market in Cluj-Napoca, with national and European perspectives. Keywords: data mining, real estate market, WEKA, decision, assessment.

ate vechi, cunotine noi nc de la apariia primelor calculatoare

n anii 1950, oamenii au neles puterea aces-tora de a coleciona, manipula, clasifica, sto-ca i regsi date ntr-un mod mult mai rapid, mai flexibil i mai eficient dect puterea uman. Volumul i complexitatea informaii-lor depete capacitatea intelectual a unei persoane; acesta este motivul pentru care sis-temele informaionale permit stocarea datelor pentru o analiz ulterioar i ofer metodele de procesare i filtrare a acestora pentru a ex-trage doar datele relevante. Mai mult, cu aju-torul algoritmilor matematici i statistici ce implementeaz metode cunoscute pentru n-elegerea datelor se obin informaii cu ne-lesuri noi. Dar aceast metod se bazeaz pe ingeniozi-tatea uman i capacitatea de a gsi metode de interpretare a datelor, n timp ce calcula-toarele rmn maini rapide dar simple de procesare a datelor prin algoritmii implemen-tai. Pe msur ce complexitatea aplicaiilor, numrul variabilelor ce trebuie luate n con-siderare i volumul datelor primare au cres-cut exponenial de la un an la altul, unii cer-cettori au nceput s-i pun ntrebri. Nu cumva exist i alte informaii ce pot fi extra-se din datele existente, ns care nu sunt evi-dente, nu le nelegem i nu tim cum s le in-terpretm? Dar dac exist nelesuri ascun-se, sau relaii complexe cauz-efect ntre da-te, pe care nu le putem evidenia cu o simpl formul matematic? Ce se ntmpl dac schimbrile au loc mai repede dect puterea

noastr de a gsi i a verifica algoritmi noi? Depii de volumul i complexitatea datelor, cercettorii au ales s doteze calculatoarele cu inteligen pentru a gsi i extrage noi in-formaii i cunotine din datele existente. Astfel, n anii 1990, psihologi, ingineri i ma-tematicieni i-au nzecit eforturile de a ne-lege cum funcioneaz creierul uman pentru a nva lucruri noi. Odat definit procesul de nvare, i calculatoarele puteau fi dotate cu rutinele software pentru descoperirea abloa-nelor repetitive n date, pentru a gsi relaii i interdependene, pentru a nva lucruri noi fr asisten uman, pentru a extrage cuno-tine noi i valoroase fr ca un programator sau operator s le spun cum. Astfel a fost realizat legtura cu disciplinele de inteligen- artificial. Majoritatea oamenilor neleg greit concep-tul de inteligen artificial; este un subiect fierbinte n anumite cercuri ale filosofiei, in-gineriei i psihologiei deoarece termenul in-teligent poate ridica probleme privind con-tiina proprie, mintea, comportamentul uman, credina n Dumnezeu i altele. De aceea, cercettorii au divizat domeniul inteli-genei artificiale n dou [1]. Pe de o parte, cei ce se ocup de inteligena artificial pu-ternic ncearc s creeze o form artificial de inteligen, capabil de raionament, solu-ionarea problemelor, nelegere a propriei existene i gndire mai mult sau mai puin apropiat de cea uman, ns cercetrile n aceast direcie au nregistrat succese de mi-

D

Revista Informatica Economic, nr. 4 (36)/2005

51

c importan n simulri a unei inteligene limitate bazate pe un set predefinit de reguli. Pe de alt parte, cercettorii ce se ocup cu inteligena artificial slab trebuie s creeze o form mult mai restrns de comportament inteligent, ns nu posed inteligen com-plex i nelegere a propriei existene. n aceast ultim direcie s-au obinut rezultate remarcabile n domenii de specialitate, cum ar fi limbajele de programare LISP i Prolog, Deep Blue - supercomputerul IBM ce l-a n-vins n 1997 ntr-un joc de ah de proporii istorice pe campionul mondial Garry Kasparov [2], sistemele expert folosite n afaceri i industrie, programe de traducere automat a documentelor dintr-o limb n al-ta, recunoaterea scrisului de mn, a vorbirii i nelegerea imaginilor. De la inteligen artificial la data mining Machine learning este un domeniu al inteli-genei artificiale ce implic dezvoltarea unor metode de a crea aplicaii software pentru analiza seturilor de date pentru a permite cal-culatoarelor s nvee din experiena ante-rioar [3]. Machine learning folosete inten-siv statistica matematic, din moment ce am-bele studiaz interpretarea datelor. n funcie de tipul rezultatelor, algoritmii de machine learning sunt organizai n mai multe catego-rii, cum ar fi supervised learning care gene-reaz funcii ce pun n coresponden datele de intrare i ieire, sau unsupervised learning n care algoritmii genereaz modele bazndu-se pe datele existente. Recunoaterea formelor sau clasificarea duce cu un pas nainte statistica matematic i machine learning prin efectuarea unei aciuni n funcie de tipul datelor, folosind metode cum ar fi reelele neuronale i reelele bayesiene i avnd aplicaii tipice n clasifi-carea textului i recunoaterea vorbirii i a imaginilor. Aflndu-se sub aceeai umbrel cu inteli-gena artificial pentru numeroasele nele-suri ntr-o gam larg de contexte, data mining este cunoscut i sub numele de des-coperirea cunotinelor n bazele de date i folosete tehnici computaionale bazate pe in-teligen artificial, machine learning, recu-noaterea formelor i statistic matematic.

Data mining este un proces analitic ce explo-reaz un numr foarte mare de date n cuta-rea unor abloane sau relaii ntre variabile [4], apoi generalizeaz aceste rezultate ntr-un model, formul sau arbore de decizie i, n cele din urm, verificarea corectitudinii mo-delului generat prin testarea lui pe setul de date existent sau al unuia nou. De cele mai multe ori, cu predilecie n aplicaiile econo-mice, scopul acestui algoritm este de a gsi metode de previziune a evenimentelor i re-zultatelor viitoare pe baza datelor existente, de a ajuta managerii s ia decizii repede i corect. n alte situaii, data mining poate fi folosit pentru a verifica dac exist o corela-ie ascuns ntre datele de intrare i rezultate, sau dac o asemenea coresponden este im-probabil. Domenii de utilizare i aplicaii software pentru data mining Data mining este o unealt foarte puternic, folosit n cele mai variate domenii. Iat c-teva exemple: Piaa int. Obiectivul este acela de a fo-losi data mining pe baza rezultatelor unei campanii de direct-mail din trecut pentru a se identifica respondenii cei mai promitori, combinnd date demografice i geografice culese la acea dat. Avantajele trebuie s fie o mai bun rat a respondenilor i costuri mai sczute ale noii campanii. Grupul finan-ciar Fleet a investit 38 de milioane de dolari n depozite de date pentru a-i nnoi infras-tructura privind clienii [5]. Data mining a fost folosit pentru a prevedea probabilitatea de rspuns n ceea ce privete interesul pen-tru un credit ipotecar al 20.000 de clieni dintr-o baz de date de 15 milioane, a-i gsi pe cei profitabili i a-i depista pe cei neprofi-tabili chiar dac ar rspunde favorabil. Depistarea clienilor ce au tendina de a renuna la serviciile firmei. Obiectivul este de a preveni att pierderea clienilor existeni ct i atragerea de clieni predispui la a re-nuna uor la serviciile firmei. Soluia data mining este identificarea pe baza unor carac-teristici comune a clienilor pe cale s renun-e, folosind reele neuronale i analize de se-rii cronologice. France Telecom a implemen-tat n acest sens un Customer Profiling


System (CPS), avnd ca rezultat detectarea rapid a clienilor cu tendina de renunare prin compararea anumitor caracteristici ale acestora cu caracteristici ale celor care renun-aser deja [5]. Detectarea fraudelor. Fraudele mresc costurile sau reduc veniturile. Folosind regre-sii i reele neuronale pentru a determina ca-racteristicile eseniale ale cazurilor de fraud pentru a le preveni pe viitor, se pot obine importante creteri ale profitului, evitnd cli-enii indezirabili. Automobile Insurance Bureau of Massachusetts, o companie de asi-gurri auto, a folosit rapoarte vechi ale exper-ilor n legtur cu fraudele depistate [5]. Mai multe caracteristici (peste 60), cum sunt tipul accidentului, tipul tratamentului aplicat, gra-vitate, au fost codificate ntr-o baz de date. Folosind metode specifice de data mining au fost gsite caracteristici comune cazurilor de fraud. Analiza riscului. Riscul de a acorda credite unor clieni cu potenial de a deveni ru-platnici poate fi diminuat considerabil con-struind funcii de separare a clienilor pe baza anumitor caracteristici [5]. Sisteme de recomandare. Vizitatorii i clienii magazinelor virtuale pe Internet, de exemplu amazon.com, evalueaz produsele prezentate. Informaiile astfel obinute sunt folosite pentru a recomanda produsele ctre ali vizitatori. Folosind tehnica numit filtra-re colaborativ [5], companiile i-au crescut veniturile prin cross-selling i up-selling. Un studiu online efectuat de site-ul de specia-litate KDnuggets.com n luna august 2004 privind domeniile de utilizare a data mining [6] a relevat urmtoarele: industria bancar este lider cu 13%, urmat de marketing di-rect, detecia fraudelor i cercetarea tiinific cu cte 9%; alte domenii sunt biotehnologie cu 8%, asigurri i medicin cu 7% fiecare, comer electronic i telecomunicaii cu 6% fiecare, investiii financiare, manufactur, vnzare cu amnuntul i securitate cu 4% fie-care. Un alt studiu al aceluiai site, efectuat n luna septembrie 2004, promoveaz algo-ritmii ce produc arbori de decizie pe primul loc ntre categoriile de algoritmi sugerate. Cteva pachete software comerciale folosite

n data mining sunt: Oracle9i Data Mining pentru Oracle9i Database Enterprise Edition, Oracle Data Mining Suite [7], Teradata Warehouse Mining [8], SAS Enterprise Mi-ner [9], Crystal Analysis and Decisions [10], Clementine [11], SmartDiscovery [12], Monarch [13], Statistica [14], InfoBase [15], PolyAnalyst [16]. Cteva aplicaii software gratuite, destinate mediului de cercetare i educaie, sunt: IBM Intelligent Miner [17], WEKA [18], ADaM [19], YALE [20]. Alte produse software pen-tru data mining, grupate pe categorii, pot fi gsite online pe site-ul www.KDnuggets.com Mediul de programare WEKA WEKA (the Waikato Environment for Knowledge Analysis) este un soft gratuit pus la dispoziie de catedra de specialitate a Uni-versitii Waikato din Hamilton, Noua Zeeland [18]. Mediul de programare WEKA permite aplicarea tehnicilor de nvare au-tomat asupra problemelor practice i inte-greaz diverse unelte pentru nvarea auto-mat ce pot fi utilizate ntr-un mediu de lucru uzual, caracterizat de o interfa omogen. Utilizatorii pot folosi gama larg de tehnici de nvare automat pentru extragerea unor informaii utile din baze de date foarte mari. Trebuie precizat faptul c WEKA poate fi utilizat n orice domeniu de interes, avnd astfel un avantaj major asupra celorlalte apli-caii de data mining, mai ales asupra celor comerciale care sunt destinate unui singur domeniu de activitate. WEKA conine unelte pentru preprocesarea datelor, iar pentru clasificarea acestora se uti-lizeaz arbori de decizie, regresie, clusterizare, reguli de asociere si vizualizare. Aplicaia este dezvoltat n Java, iar codul surs este deschis, eliberat sub licen GNU General Public License. Acesta este un mare avantaj al sistemului WEKA spre deosebire de alte aplicaii, deoarece permite modifica-rea sistemului de ctre utilizatori n modul n care acetia au nevoie de el, eventual cu dez-voltarea de noi tehnici de nvare automat i implementarea de algoritmi proprii. De asemenea, la fel de important e faptul c sis-temul poate fi utilizat pe mai multe platfor-me: Unix, Linux i Microsoft Windows.


53

Ultima versiune pus la dispoziia utilizatori-lor este WEKA 3.4.3 i poate fi instalat att pe platforma Windows ct i pe alte platfor-me: Linux, Unix, etc. Trebuie menionat c pentru MacOS X nu este disponibil deo-camdat decat versiunea WEKA 3.4.2. Pen-tru a rula WEKA trebuie s existe instalat pe sistem maina virtual Java 1.4. O versiu-ne anterioar a WEKA este WEKA 3.0, ce se bazeaz pe lucrul n linie de comand. La lansarea WEKA apare fereastra GUI Chooser care permite utilizatorilor s opteze pentru lucrul n linie de comand (CLI) sau pentru deschiderea lucrului n interfaa grafi-c (Explorer). WEKA Explorer pune la dispoziie n interfaa grafic pachetele sis-temului, i anume: Preprocessing, n cadrul cruia se pot des-chide seturile de date att sub forma fiierelor ARFF ct i dintr-o baz de date anume; de asemenea, se poate realiza o filtrare nesupra-vegheat a datelor cu unul din filtrele puse la dispoziie; Classify, ce permite alegerea i rularea ori-crui algoritm de clasificare din cele 6 cate-gorii de algoritmi definite; Cluster, n cadrul cruia se poate alege i rula metoda de clusterizare a datelor; Associate, ce permite setarea unei reguli de asociere a datelor i aplicarea acesteia; Select Attributes este un alt pachet WEKA i permite configurarea i aplicarea oricrei combinaii de atribute din cele ce definesc se-tul de date pentru a depista care sunt cele mai relevante atribute din set; Visualize permite vizualizarea setului cu-rent de date n una sau dou dimensiuni, iar dac atributele au valori continue este utilizat un spectru de nuane ale aceleiai culori pen-tru reprezentarea valorilor, pe cnd pentru atribute discrete fiecare valoare este repre-zentat cu alt culoare. Suplimentar acestor pachete de instrumente pentru lucrul cu seturi de date, WEKA coni-ne i un clasificator pe baz de arbori de de-cizie WEKA CLASSIFIERS TREES USERCLASSIFIER i o interfa grafic pentru realizarea de reele neuronale WEKA CLASSIFIERS FUNCTIONS NEURAL NEURALNETWORK.

Setul de date utilizat n mediul de programare WEKA trebuie s fie n format ARFF pentru a putea fi prelucrat. Datele provin de cele mai multe ori dintr-o tabel Excel sau dintr-o ba-z de date i trebuiesc convertite n formatul ARFF, cel mai larg rspndit pentru baze de date n fiiere text. Folosirea acestui format n paralel cu suportul direct pentru baze de date este un alt avantaj al WEKA. Pe lng aceste elemente favorabile ce carac-terizeaz sistemul WEKA, exist i cteva dezavantaje, i anume faptul c necesit nv-area utilizrii interfeei, nelegerea algorit-milor i a modului de interpretare a rezultate-lor numerice i grafice. n plus, WEKA folo-sete termeni statistici n loc s foloseasc termeni corespunztori datelor de intrare (de exemplu, din aplicaiile economice) aa cum fac alte produse software specializate pe me-diul de afaceri i mult mai intuitive pentru un manager sau economist. Studiu de caz: Data mining n piaa imobi-liar Obiective Conform unui studiu recent condus de revista financiar Capital i prezentat n ediia cu numrul 18 (24 aprilie 2004) [21], n oraul Cluj-Napoca exist aproximativ 200 de agen-ii imobiliare, reprezentnd cel mai mare nu-mr pe cap de locuitor din ar. O explicaie posibil a acestui fapt este explozia industriei locale n ultimii ani, investitorii romni ct i cei strini considernd Clujul a fi una dintre regiunile cu cea mai rapid dezvoltare eco-nomic. Fiind date cererea mare de apartamente i preurile extrem de ridicate existente n mo-mentul de fa pe piaa imobiliar clujean, scopul acestui proiect este de a facilita achi-ziia unui apartament. Acest obiectiv va fi realizat prin analiza datelor existente pe piaa de locuine utiliznd tehnici de data mining. n cadrul lucrrii se vor determina preul i punctajul adecvat fiecrui apartament, care pe o scal de la 1 la 5 va arta dac acea lo-cuin merit sau nu s fie cumprat. Argumentare Din cauza numrului foarte mare de agenii imobiliare existente pe piaa din Cluj Napoca, gsirea unui apartament poate de-


veni o mare problem. Mai mult chiar, avnd att de multe variante poate deveni chiar im-posibil vizitarea fiecrui apartament dispo-nibil i luarea unei decizii corecte n funcie de necesitile personale ce pot sau nu a fi ndeplinite de locaiile n cauz. Alte dou motive ce au determinat realizarea acestui proiect au fost dinamica foarte mare a pieei imobiliare i cererea n continu crete-re pe aceast pia ce duce la creteri nejusti-ficate ale preurilor, ajungndu-se astfel la necesitatea reevalurii continue a apartamen-telor, lucru ce poate fi realizat mult mai uor utiliznd analiza de tip data mining. Unelte i metode n realizarea lucrrii s-a utilizat mediul de programare WEKA, iar proiectul a fost im-plementat cu ajutorul interfeei grafice a Ex-plorer-ului. Dintre algoritmii de clasificare pui la dispoziie de sistem n cadrul lucrrii s-au utilizat Regresia Liniar i algoritmul J.48 de clasificare prin arbori de decizie. Setul de date Datele sunt fost furnizate de sptmnalul clujean Piaa de la A la Z [22] i conin anunurile de vnzare de apartamente din Cluj-Napoca publicate n luna ianuarie 2001. Datele au fost primite n format FoxPro. Pen-tru a putea analiza aceast baz de date folo-sind WEKA n vederea atingerii obiectivelor propuse, formatul iniial al datelor a trebuit modificat n pai succesivi. n primul rnd, anunurile se regseau n baza de date n cmpuri de tip memo, cte unul pentru fiecare anun. Prin urmare, primul pas a fost de a extrage datele relevante (etajul,

prezena balconului, televiziune cablu, tele-fon, central termic, garaj etc.) din cmpul memo folosind formule de cutare de text n Excel. Dup aceasta, pe baza cuvintelor cheie gsite, o nou baz de date Excel a fost gene-rat coninnd toate cele 18 atribute finale pe care le vom folosi ca set de antrenament n WEKA. Cmpurile libere pentru o instan au fost schimbate cu un semn al ntrebrii, simboliznd informaie lips. A fost necesar i efectuarea unor alte modi-ficri nainte de nceperea testelor, innd cont de faptul c algoritmii alei pentru ana-liz stabilesc o relaie ntre atributele de in-trare i cel de ieire (cauz-efect). Din acest motiv, toate instanele din baza de date trebu-iau s conin cel puin dou atribute non-vide, unul pentru intrare i altul pentru ieire, deoarece este imposibil s se stabileasc o re-laie cu un singur atribut. Ca rezultat, din ba-za de date au fost terse toate instanele ce aveau un singur atribut. O alt problem ce trebuia rezolvat era moneda n care era ex-primat preul, deoarece preurile din anunuri erau exprimate att n lei ct i n trei valute diferite. Am decis s convertim toate preuri-le folosind Euro ca moned de referin, f-cnd conversia cu ratele de schimb oficiale din 7 ianuarie 2001. n cele din urm, ntru-ct WEKA folosete ca intrare a datelor for-matul ARFF, baza de date din Excel a fost convertit n format CSV (valori separate de virgule), dup care i s-a adugat antetul con-innd descrierea atributelor, a tipurilor i va-lorilor acestora.

Nr. Atribut Tip Nr. Atribut Tip 1 camere nominal: 1, 2, 3, 4, 5 10 termopan boolean

2 decomandat nominal: decomandat, semidecomandat 11 modificri boolean

3 confort nominal: sporit, I, II 12 central boolean

4 etaj nominal: intermediar, parter/ultimul 13 contorizat boolean

5 balcon boolean 14 telefon boolean

6 finisare nominal: superfinisat, finisat, semifinisat, nefinisat 15 cablu boolean

7 parchet boolean 16 garaj nominal: garaj, parcare

8 faian boolean 17 cartierul nominal: Mntur, Gheorgheni, Zorilor, Mrti, Grigorescu, Centru

9 gresie boolean 18 pre numeric Fig. 1. Modelul de calcul obinut n urma algoritmului de regresie liniar

Forma final a bazei de date coninea 18 atribute ce descriu informaiile existente despre


55

apartamente i conine 1981 instane. Atribu-tele sunt nominale, booleene i preul ca atri-but numeric. (Figura 1) n ceea ce privete baza de date, mai trebuie fcut o clarificare: pentru a obine cele mai bune rezultate folosind algoritmul de clasifi-care J48, au fost efectuate modificri n baza de date prin selecia a 7 atribute i adugarea unui atribut suplimentar reprezentnd o eva-luare general a caracteristicilor fiecrui apartament. Aceast evaluare a fost efectuat folosind o funcie expert aplicat tuturor ce-lor 18 atribute iniiale, obinnd astfel un scor personalizat al fiecrui apartament pe baza preferinelor medii ale cumprtorilor. Eva-luarea este dat de un numr ntreg pe o scal de la 1 la 5, 1 fiind valoarea cea mai mic i reprezentnd o decizie proast de cumprare, iar 5 fiind valoarea cea mai mare, corespon-dent unei achiziii oportune. Regresia liniar Relaia dintre caracteristicile i preul apar-tamentelor poate fi estimat intuitiv ca fiind liniar. Aceasta nseamn c modificarea unui atribut are ca rezultat o modificare pro-porional n pre. Algoritmul corespunztor unei legturi liniare ntre atributele de intrare i cel de ieire este modelul regresiei liniare, ce face parte din setul de algoritmi funcio-

nali din WEKA. Folosind clasificarea statis-tic, regresia liniar determin coeficientul numeric al fiecrui atribut prin analiza unui set de date de antrenament i raporteaz eroa-rea statistic a algoritmului prin calculul coe-ficientului de corelaie. Ca o particularitate, algoritmul de regresie liniar implementat n WEKA nu este limitat la atribute numerice, fiind astfel o metod excelent de analiz a bazei de date de antrenament n care 17 atri-bute (caracteristici) determin n mod direct cel de-al 18-lea atribut (preul). Cel mai important parametru pentru algorit-mul de regresie liniar este metoda de selec-ie a atributelor, cu trei opiuni posibile. La extreme se afl metoda Fr selecie ce conduce la obinerea rapid a unor rezultate, ns fiind mai puin selectiv, respectiv me-toda Greedy ce este considerabil mai lent ns cu rezultate mai precise. ntre ele se afl metoda M5 ce face un compromis ntre vi-tez i acuratee. Totui, trebuie luat n con-siderare o restricie: metoda Greedy deter-min formula cea mai precis, ns are nevo-ie ca relaia dintre atributele de intrare i cel de ieire s fie ct mai apropiat de una linia-r pentru a determina corect valorile maxime locale. Dac relaia nu este liniar, metoda Greedy va da o formul eronat.

Pre = 4.537,74 pentru 2, 3, 4 sau 5 camere + 3.851,08 pentru 3, 4 sau 5 camere + 2.897,56 pentru 4 sau 5 camere + 28.548,94 pentru 5 camere + 2.015,49 pentru decomandat + 5.328,60 pentru confort I sau sporit + 4.467,44 pentru confort sporit + 1.201,83 pentru finisat sau superfinisat + 3.754,58 pentru superfinisat + 1.682,11 pentru garaj + 2.520,75 pentru cartierele Gheorgheni, Grigorescu, Zorilor sau Centru + -595,08 pentru cartierele Grigorescu, Zorilor sau Centru + 6.855,38 pentru cartierul Centru + 1.265,03 .

Fig. 2. Modelul de calcul obinut n urma algoritmului de regresie liniar Prin aplicarea algoritmului de clasificare prin regresie liniar pe baza de date complet (1981 nregistrri), att metoda Greedy ct i metoda M5 au gsit exact aceeai formu-l de calcul a preului apartamentului pe baza caracteristicilor acestuia. (Figura 2) Coeficientul de corelaie a fost de 0,702, ceea

ce nseamn c legtura dintre caracteristicile apartamentelor i pre se poate aproxima bine cu o legtur liniar. Un coeficient de corela-ie cu valoarea 1 ar indica o legtur liniar perfect, n timp ce un coeficient de corelaie cu valoarea 0 ar indica lipsa unei legturi n-tre atributele de intrare i cel de ieire. Algo-


ritmul de regresie liniar a considerat rele-vante doar 6 atribute de intrare din 17. Folosind formula gsit, putem calcula uor preul unui apartament n funcie de caracte-risticile acestuia. De exemplu, un apartament cu 3 camere, decomandat, confort sporit, fi-nisat, fr garaj, aflat n cartierul Zorilor, pre-ul estimat este calculat prin simpla adugare a coeficienilor corespunztori valorii fiec-rui atribut: 4.537,74 + 3.851,08 + 2.015,49 + 5.328,60 + 4.467,44 + 1.201,83 + 2.520,75 - 595,08 + 1.265,03 = 24.592,88 . J48 - Arborele de decizie J.48 este de fapt implementarea algoritmului C4.5 creat de ctre J.Ross Quinlan [23], care folosete metoda inductiv top-down de con-

struire a arborilor de decizie. Acetia se con-struiesc pe baza testrii fiecrui nod al arbo-relui, ncepnd cu nodul rdcin, pentru fie-care nregistrare. Fiecare nod reprezint nu-mele unui atribut. Se ncearc introducerea instanei ntr-o clas existent, pe baza carac-teristicilor comune, evalundu-se atributul corespunztor nodului la care s-a ajuns. n funcie de valoarea sa, instana va urma o ramur. Cnd nu mai exist noduri de evalu-at, instana este clasificat. Dac o anumit clas nu mai difer ntr-un mod evident de al-ta n urma introducerii a tot mai multe nre-gistrri, cele dou se vor uni, proces numit pruning.

Locul Atributul Intensitatea legturii Locul Atributul Intensitatea legturii

1 pre 2.398,843 10 balcon 0 2 camere 1.760,281 11 faian 0 3 cartierul 120,16 12 contorizat 0 4 confort 44,849 13 telefon 0 5 finisare 10,946 14 cablu 0 6 etaj 8,646 15 central 0 7 garaj 0,475 16 gresie 0 8 decomandat 0,296 17 termopan 0 9 parchet 0 18 modificri 0

Fig. 3. Ordonarea atributelor folosind algoritmul ChiSquaredAttributeEval Deoarece algoritmul J.48 realizeaz o clasifi-care cu rezultat discret, nu continuu, i ntru-ct preul apartamentelor este un atribut de tip continuu, s-a impus evaluarea fiecrui apartament pe baza tuturor atributelor, mai puin numrul de camere, atribut care am considerat c nu trebuie sa influeneze punc-tajul. Rezultatul evalurii este un scor nomi-nal pe o scal de la 1 la 5, unde 5 este puncta-jul cel mai bun i 1 cel mai slab. Scorul a fost introdus n baza de date pe ultima poziie, re-zultnd 19 atribute. Pentru a realiza o clasificare de calitate a fost necesar evaluarea atributelor. Instrumentul WEKA ales pentru a realiza acest lucru a fost Attribute evaluator, folosind ChiSquaredAttributeEval prin metoda Ranker. ChiSquaredAttributeEval calculeaz inten-sitatea legturii dintre variabile folosind tes-tul HI ptrat (2). Metoda Ranker noteaz atributele n funcie de evaluare, ordonndu-

le. Am aplicat evaluarea n funcie de tipul apartamentelor, adic numrul de camere. (Figura 3) Din rezultatul obinut reiese c atributele clasate pe locurile 9-18 au obinut punctaj 0, ceea ce ne-a determinat s renun-m la folosirea lor n clasificare, relevana lor fiind nul n acest caz ns adugnd n mod inutil complexitate procesului de clasifi-care. Excluderea lor din baza de date folosit pentru aplicarea algoritmului J.48 duce la creterea vitezei de creare a modelului i la o mai bun acuratee a acestuia. Algoritmul J.48 a fost aplicat ntregului set de date ca set de antrenament, urmnd ca tes-tarea s se fac pe un set de test format din alte date. Atributul n funcie de care se face clasificarea este scorul. Vom obine astfel un arbore de decizie ale crui frunze reprezint scorul categoriei respective. n urma rulrii algoritmului s-a obinut o acuratee de 87,2%, ceea ce nseamn c 1728 de instane din 1981 au fost clasificate corect n cadrul


57

modelului creat. (Figura 4) Arborele de decizie generat are ca nod rd-cin numrul de camere, acest atribut fiind principalul mijloc de a diferenia apartamen-tele. n cadrul modelului au mai fost gsite ca fiind relevante pentru difereniere atributele pre, prezent n fiecare ramur principal a arborelui, gradul de finisare, confortul i car-tierul. n cazul apartamentelor de 5 camere, modelul nu poate fi aplicat cu succes deoarece n setul de date nu exist dect 6 nregistrri pentru apartamentele de 5 camere. Lipsa unui numr

mai mare de nregistrri a dus la imposibilita-tea crerii unui model viabil pentru aceast clas. Pentru testarea modelului am utilizat un set de date de test format din 200 de nregistrri, rezultatul avnd o acuratee de 85% , ceea ce demonstreaz viabilitatea modelului decizio-nal creat pe setul de antrenament. Exemplu de interpretare a unei ramuri din ar-borele decizional: Dac apartamentul are patru camere, preul su este ntre 31.864 i 44.722 Euro i este situat n Centru, atunci scorul su este 4.

Fig. 4. Arborele de decizie rezultat n urma aplicrii J.48 pe setul de antrenament

Concluzii Rezultatele acestui proiect dovedesc faptul c WEKA este o unealt potrivit ce ofer me-todele fundamentate tiinific de a extrage cunotine noi privind preurile apartamente-lor n funcie de caracteristicile lor i de a fo-losi aceste cunotine n luarea deciziei de cumprare. Lund n considerare schimbrile ce au loc n fiecare zi n activitatea economic i care pot conduce la o pia i concuren imperfect, erorile nu pot fi evitate. Deoarece aceast aplicaie se bazeaz pe informaii de pe pia, i erorile legate de datele propriu-zise sunt prezente. Numrul instanelor din baza de da-te nu este foarte mare i baza de date este ra-r, lipsind multe valori ale atributelor. Preu-rile sunt cele solicitate de ctre vnztori n anunurile din ziar, nereflectnd cu precizie valorile apartamentelor ci aproximri, de multe ori preurile fiind psihologice,

oportunistice, care nu sunt atinse niciodat n urma negocierilor ntre vnztori i cumpr-tori. O alt posibil surs de eroare este con-vertirea preurilor exprimate n patru monede diferite la un numitor comun, deoarece nu toi vnztorii au luat n considerare acelai curs de schimb valutar. Perspective O aplicaie practic a acestui proiect este im-plementarea lui pe un server web pentru a es-tima instantaneu preul unui apartament i a asista cumprtorii, vnztorii i ageniile imobiliare n evaluarea i luarea unei decizii privind o tranzacie de vnzare-cumprare, de asemenea colectnd automat date privind noile tranzacii ce au loc i genernd noi mo-dele de calcul n funcie de evoluia pieei. O asemenea baz de date poate oferi rezultate excelente n alte studii statistice i data mining, inclusiv prezicerea schimbrilor n cererea de apartamente n diferite cartiere, in-


formaii de mare valoare pentru ageniile imobiliare, oficialiti locale responsabile cu dezvoltarea oraului, arhiteci i firme de construcii. Folosind acest proiect putem elabora i de-termina modele i grafice privind fluctuaiile sezoniere i anuale ale preurilor n funcie de mai muli factori, cum ar fi rotaia populaiei studeneti a oraului. O evaluare comparati-v a industriei i pieei imobiliare din diferite orae ale rii poate ajuta persoanele fizice i juridice s aleag un ora potrivit intereselor lor. O alt perspectiv demn de luat n sea-m este cea a unui studiu comparativ n piaa imobiliar comunitar pentru a nelege evo-luia preurilor apartamentelor nainte i dup aderarea la Uniunea European, sau posibili-tile cetenilor europeni de a cumpra apar-tamente. Bibliografie [1] Enciclopedia Wikipedia: www.wikipedia.org/wiki/Artificial_intelligence [2] Kasparov versus Deep Blue: www.research.ibm.com/deepblue [3] Enciclopedia Wikipedia: www.wikipedia.org/wiki/Machine_learning [4] Enciclopedia Wikipedia, www.wikipedia.org/wiki/Data_mining [5] PATEL, Nitin, Data Mining, Cursul 15.062, Massachusetts Institute of Technology, MIT OpenCourseWare, Sloan School of Management, 2003: ocw.mit.edu [6] Knowledge Discovery Nuggets, 2004: www.kdnuggets.com/polls/2004/data_mining_applications_industries.htm [7] Oracle9i Data Mining pentru Oracle9i Database Enterprise Edition, i Oracle Data Mining Suite: www.oracle.com

[8] Teradata Warehouse Mining: www.ncr.com [9] SAS Enterprise Miner: www.sas.com [10] Crystal Analysis and Decisions: www.businessobjects.com [11] Clementine: www.spss.com [12] SmartDiscovery: www.inxight.com [13] Monarch: www.datawatch.com [14] Statistica: www.statsoftinc.com [15] InfoBase: www.acxiom.com [16] PolyAnalyst: www.megaputer.com [17] IBM Intelligent Miner: www.developer.ibm.com/university/scholars [18] WEKA (Waikato Environment for Knowledge Analysis): www.cs.waikato.ac.nz/ml/weka [19] ADaM (Algorithm Development and Mining system): datamining.itsc.uah.edu/adam [20] YALE (Yet Another Learning Environment): www-ai.cs.uni-dortmund.de/SOFTWARE/YALE [21] OBAE, Petrior, Clujul tace i le fa-ce, Capital nr. 18/2004: www.capital.ro/index.jsp?page=archive&magazine_id=279&article_id=14048 [22] Celina Prodcom SRL, Piaa de la A la Z, Cluj Napoca: www.piata-az.ro [23] QUINLAN, Ross, C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, CA, 1993

Documents

Descriere Data Mining