Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
7. BIG DATA -Kako podatke
pretvoriti u vrijednost
KRAŠ AUDITORIUM 10.10.2019.
GLAVNI PARTNER
PARTNERI
GLAVNI IT PARTNER
PARTNERI
veljača: USPJEŠNA MOTIVACIJA I SAMOMOTIVACIJA
ožujak: UPRAVLJANJE KRIZAMA I KONFLIKTIMA
travanj: IZAZOVI POSLOVNE STRATEGIJE I PLANIRANJA
svibanj: SVJETSKI TRENDOVI: THE WORLD IS BROKEN WE NEED TO FIX IT
lipanj: IZAZOVI DIGITALNE PRODAJE
rujan: KAKO ZAPOSLITI NAJBOLJE LJUDE: EMPLOYER BRANDING
listopad: KAKO PODATKE PRETVORITI U VRIJEDNOST
studeni: TAJNE USPJEHA TIMOVA
studeni: UPRAVLJANJE VREMENOM I PRIORITETIMA
Dvije priče za početak
1. Kasni gost računskog centra na Columbia University
2. Cambridge Analytica
Cambridge Analytica i predviđanje osobnosti
• Michal Kosinski, Stanford University 2013.
• Analiza podataka 58.000 volontera
• Cambridge Analytica, BrExit i Trumpov izbor
Točnost predviđanja Facebook Lajkova
„Digital” Rules the World
• Prosječni zaposleni dnevno šalje i prima 121 email • Ljudi provode 3 sata i 23 minute na mobilnim uređajima • 3,03 milijarde ljudi su u nekoj društvenoj mreži • 63 000 Google pretraživanja obavi se svake sekunde • 1,57 milijardi ljudi gleda 5 milijardi YouTube videa svakog
dana • Prosječni korisnik provede 20 minuta na Facebooku • Od 2,1 milijarde profila na Facebooku, 270 milijuna
profila je lažno
Činjenice digitalnog doba
• 3.5 milijardi ljudi su korisnici Interneta, kontroliraju 92% bogatstva
• LinkedIn ima 450 milijuna registriranih korisnika, Facebook preko 2 milijarde
• 2014. godine u svijetu je bilo 5.8 zettabyte (1021) podataka, a očekuje se rast 50 puta do 2020.
• 2019, SAD na tržištu rada nedostaje 200.000 analitičara podataka, a preko milijun menadžera nisu „Big Data pismeni”.
• U 2016. godini skoro 80% Fortune’s 500 kompanija nije bilo u stanju efikasno koristiti svoje podatke.
Činjenice digitalnog doba
Efikasnost digitalizacije Encyclopedia Britannica Wikipedia
Godina osnivanja 1768 2001
Broj članaka 65.000 6,816.935
Broj jezika 1 271
Broj riječi 40 miljuna 3 milijarde
Ažuriranje Godišnje U realnom vremenu
Grešaka po članku 2,92 3,86
Cijena 729£ besplatno
The BASICS of Digital Era
• Big Data – sve u trenutku događanja
• Artificial Intelligence – ljude zamjenjuje tehnologija
• Social Networks & Apps – povezani smo i informirani
• IoT & Sensors – sve se mjeri i pod stalnom je kontrolom
• Cloud – nema vremenskih ni prostornih ograničenja za komunikaciju
• Smart Concepts – smart home, smart enterprise, smart city, smart government,…
12
Osnovni pojmovi • Podatak je skup znakova zapisanih na mediju: papiru
(knjiga, notes), digitalnom mediju (na sticku, disku, u računalu), videozapis na videokaseti, filmu (fotografija, filmski zapis)…
• Informacija – interpretirani podatak koji služi pri odlučivanju i otklanja neizvjesnost
• Znanje je kombinacija podataka i informacija čemu je dodano ekspertno mišljenje – Znanje “zna” koristiti informacije; eksplicitno je
(formalno i zapisano) ili implicitno (postoji samo u glavama); opisuje svijet po znanstvenom i iskustvenom kriteriju
• Mudrost – znanje koje odolijeva testu vremena
Big Data i naplaćivanje poreza
IRS: Big Data se koristi za sprječavanje krađe identiteta, prijevara i neispravnih plaćanja da se spriječi izbjegavanje poreza.
REZULTAT: otkrivene su i spriječene prijevare od više milijardi US$ kroz krađu identiteta i osigurano ubiranje zatajenog poreza od 2 milijarde US$ u zadnje 3 godine
14
Kvaliteta podataka i informacija
• Kvalitetna informacija/podatak je:
– Točna - korektno opisuje stanje stvari
– Potpuna - dovoljno opisuje stanje stvari
– Relevantna – bitna je i odgovara problemu i osobi
– Pravovremena - dobivena na vrijeme
• Vrijednost podatka/informacije
– Ovisi o kvaliteti
– Ovisi o primatelju
Praćenje avionske prtljage
DELTA: sa 130 milijuna komada prtljage godišnje, Delta je prva veća zrakoplovna kompanija koja omogućava putnicima da prate svoje torbe putem mobilnh uređaja.
REZULTAT: aplikacija je skinuta 15 milijuna puta i daje putnicima osjećaj sigurnosti.
Targetiranje ljudi kojima let kasni
RED ROOF INN: koristi informacije o vremenskim prilikama i targetira putnike koji zapnu na aerodromu. Big Data koriste za personalizirane poruke: ‘Zapeli ste na JFK? Dođite u Red Roof Inn.’ U SAD je dnevno otkazano 2-3% letova što znači 90,000 putnika koji traže prenoćište.
Big Data za NBA i NFL
CATAPULT: analizom podataka utvrđuju vjerojatnost da će sportaši biti ozlijeđeni i prate koje vježbe na treningu imaju potencijal izazivanja ozljeda. To povećava sigurnost i smanjuje broj ozljeda.
REZULTAT: Catapult surađuje s polovinom NFL timova, trećinom NBA ekipa i s 30 glavnih sveučilišnih sportskih ekipa.
Data = Power Acxiom – najveća kompanija za koju niste nikad čuli
Baza od 500 milijuna potencijalnih klijenata – podaci dobiveni „analizom” 50.000 milijardi „transakcija”
Big Data Big Data karakteristike:
1. Volume - vrlo veliki volumen podataka,
2. Velocity - vrlo velika brzina podataka
3. Variety - vrlo velika različitost podataka
4. Veracity – vrlo velika podudarnost s istinom
5. Value – vrlo velika potencijalna vrijednost
• 20% strukturirani podaci (od ljudi ili senzora…)
• 80% nestrukturirani (tekst, slike, govor, dokumenti, video, glazba…)
Big Data u predviđanju gripe
GOOGLE: u suradnji s Američkim uredom za kontrolu zaraznih bolesti prate se pretraživanja vezana uz gripu i na taj se način predviđaju i sprečavaju epidemije.
Smanjenje gubitka klijenata
T-MOBILE: integrira Big Data kombinirajući znanje o transakcijama klijenata i njihovim interakcijama kako radi predviđanja njihovog mogućeg prelaska drugom operateru.
REZULTAT: korištenjem podataka društvenih mreža te podataka iz transakcija, CRM i plaćanja računa, prelasci su smanjeni za 50%.
• Tekst KB (1024B), Slika MB 1024KB), video GB (1024MB)
• Terabyte = 1024 MB = 1012 Byte = 10.000.000.000.000 B
• Petabyte = 1024 TB = 1015 Byte
• Exabyte = 1024 PB = 1018 Byte
• Zettabyte = 1024 EB = 1021 Byte
• Yottabyte = 1024 ZB = 1024 Byte
• Hellabyte = 1024 YB = 1027 Byte
• YB = 1024 Byte = 10.000.000.000.000.000.000.000.000 B
Pokazatelji količine podataka
Big Data - Extreme Data
US National Security Agency gradi podatkovni centar u Bluffdaleu, Utah – s kapacitetom yottabyte podataka
Big Data za kolekcionare
EBAY: “The Feed” je nova web stranica koja omogućava klijentima da imaju uvid u trgovanje i najčudnijim dijelovima ponude. Podaci o interesima, hobijima i prethodnim kupnjama su temelj.
REZULTAT: stranica privlači sve veći broj kolekcionara.
Predviđanje budućih „zvijezda”
NEXT BIG SOUND: analizom podataka i online aktivnosti na stranicama Wikipedije, lajkova na Facebooku, pregledavanja You Tube videa i spominjanja na Twittteru , firma predviđa koji glazbeni sastavi će ući u modu, nastupi na kojim će ih TV showovima brže lansirati i tome slično.
Povijest digitalne analize podataka
• 60-ih godina podaci su se čuvali u datotekama koje nisu imale strukturu
• 70-ih godina razvija se relacijski model podataka koji strukturira i pohranjuje pretražive podatke (SQL jezika)
• 90-ih godina količina podataka raste, rješenje je skladište podataka za analizu agregiranih podataka
• 1997. Michael Cox i David Ellsworth (NASA) prvi rabe pojam Big Data - velika količina podataka
• 2006. godine razvijen software otvorenog koda Hadoop kao odgovor na ogromnu količinu podataka koja se generira na Internetu.
Datoteka
• Pohranjuje skup zapisa (slogova)
• Ako se pohranjuju strukturirani podaci, datoteka se može usporediti s tablicom
• Kod nestrukturiranih podataka radi se o slobodnom tekstu, slikama i drugim medijima
Matični Broj Ime Prezime Datum Rođenja
118 Ana Zlatić 13.04.1984.
131 Ivan Ivić 12.12.1978.
156 Zlatko Antić 01.10.2001.
625 Martin Martinović 27.10.1999.
Baza podataka
• Pohranjuje skup raznovrsnih zapisa (ljudi, događaja, predmeta…) informacijskog sustava ili aplikacije
• Specifična baza, namijenjena analitičkoj obradi, naziva se skladištem podataka
• Baza podataka koja pohranjuje podatke dokumenata, naziva se bazom dokumenata
• U specifičnim primjenama (ekspertni sustavi) baza podataka pohranjuje znanje pa se govori o bazi znanja
Ohrabrivanje gubitnika u Casinu
CAESARS ENTERTAINMENT: prati potrošnju i ishode kockanja svojih najvećih klijenata da bi im zatim ponudila poticaje i nagrade ako su natprosječno gubili za stolovima.
Targetiranje ljudi vezano uz vrijeme
THE WEATHER CHANNEL: analizirajući ponašanje svojih korisnika na 3 milijuna lokacija u svijetu, Weather Company je postala moćni partner marketinškim kampanjama (npr. prodavači šampona za kosu targetiraju klijente u vlažnoj klimi zbog novog proizvoda protiv kovrčanja).
REZULTAT: pola prihoda tvrtke dolazi iz digitalnog poslovanja.
Podaci odražavaju generaciju
32
Baza dokumenata • Sadrži tekstovne ili multimedijske
podatke koje doživljavamo kao dokumente (pravni i poslovni dokumenti, novinski i znanstveni članci, audio i video zapisi)
• Dokumenti se mogu obraditi, pohraniti i pretraživati, što obavljaju – Sustavi za upravljanje informacijskim
sadržajem (Content Management System) ili
– Sustavi za upravljanje dokumentima (Document Management System)
Znanstvene baze dokumenata
• EconLit – ekonomija
• Emerald – menadžment, marketing, ljudski resursi
• scienceDirect – sva područja, > 8,5 mil. članaka
• Directory of Open Access Journals
• Research in Exconomic Papers - RePEc, besplatni tekstovi iz ekonomije
• ScientificCommons - sučelje za pretraživanje repozitorija sa znanstvenim i stručnim radovima
• Current Contents - bibliografija iz više od 7600 časopisa
• Google Scholar: http://scholar.google.hr/
• Hrvatska znanstvena bibliografija
Skladište podataka (Data Warehouse) • Specifična baza namijenjena analizi podataka • U njoj se podaci promatraju kroz “dimenzije” • Npr. koliko je VW prodano u ožujku 2019 u Osijeku?
pro
izvod
tržište
03/2019
Osijek
VW 18
Regija Slavonija Podravina agregiranje Grad Osijek Vukovar Borovo Koprivnica Đurđevac detaljiziranje
Lemonade – lider u digitalizaciji
• Najrazvijeniji P2P model osiguranja, jedinstveno klijentovo iskustvo: machine learning, chatbot Maya
• Brzina i jednostavnost: sva komunikacija sa sustavom je „govor u kameru” telefona (zahtjevi se rješavaju u 3 sekunde), bitno smanjeni troškovi
Hadoop • Googleov projekt koji se „izdvojio”
• Platforma otvorenog koda omogućuje implementaciju Google File System i MapReduce tehnologija, te upravljanje i obradu velike količine podataka preko „grozda jeftinog hardwarea”
• Glavni korisnici: Google, Yahoo, Facebook, NASA, Twitter
• Google Earth koristi satelitske snimke Zemlje za virtualnu kartu svijeta, a projekt Google Street View je uz pomoć aparata 360° snimio desetke milijuna slika svijeta.
• Procjenjuje se da zajedno Earth i Street View zauzimaju preko 50 petabajta (Petabyte = 1015 Byte) podataka
Google i Big Data
38
• Unutarnji podaci o organizaciji, resursima, cijenama, zaposlenima, nabavi, planiranju…
• Vanjski podaci kao preferencije kupaca, regionalna potražnja za proizvodima konkurencije, zakoni i propisi…
• Javni podaci iz javnih izvora npr. popis stanovništva, vladini dokumenti, kretanje cijena dionica, trgovački ugovori…
• Privatni podaci korisni u odlučivanju npr. podaci o prethodnim odlukama, ocjene konkurentskih tvrtki dobivene od stručnjaka od povjerenja…
Podaci za podršku odlučivanja
Umjetna inteligencija i Big Data • IBM Watson analizirao 600.000 medicinskih izvješća o
liječenju raka, 1,5 miliona patentnih prijava u onkologiji i 20 miliona stranica članaka u medicinskim časopisima
• Rezultat: Sustav za podršku odlučivanja Sloan-Kettering Cancer Memorial Center u New Yorku
Money = „Data”
• Bitcoin i još 707 drugih
• Libra (Facebook), Gemini…
Market Capitalization 10/2016: 13,512,526,310US$ (20% rast u 4 mjeseca)
• Cryptocurrency Market
Optimizacija transporta
UPS: svakodnevno UPS dostavlja 16,9 milijuna paketa i dokumenata i obavlja preko 4 milijarde dostava godišnje svojom mrežom od 100.000 vozila.
REZULTAT: analiza Big Data omogućila je optimalno korištenje vozila kompanija i tako uštedjela 39 milijuna galona goriva i skratila ukupne pređene kilometre za 364 milijuna milja.
Podaci se mogu „monetizirati”
• “Fast data”, “actionable data” • Stalne inovacije u prikupljanju i
obradi velikih količina podataka o internetskim pretragama, aktivnosti na društvenim mrežama, podataka od senzora i nadzora
• Kreativno istraživanje oblika i pravilnosti (patterns), radi uvida u trendove i pravila
Praćenje metabolizma
AETNA: praćenje metaboličkih promjena kod pacijenata putem testova, procjena faktora rizika pojedinog pacijenta i fokus na ponašanje, lijekove ili tretmane koji imaju najviše efekta na poboljšanje zdravlja
REZULTAT: 90% pacijenata ima koristi od „skeniranja podataka”, 60% ima koristi od boljeg pridržavanja propisanih terapija lijekova
Predviđanje gubitka klijenata
AMERICAN EXPRESS: istražuje podatke koji predviđaju lojalnost i razvija prediktivne modele kojima se analizira povijest transakcija i kroz 115 varijabli prognozira mogući prelazak klijenata konkurenciji.
REZULTAT: moguće je utvrditi 24% računa koji će vjerojatno biti zatvoreni u naredna 4 mjeseca
Analiza treninga radi bolje igre
ATLANTA FALCONS: koriste GPS tehnologiju za procjenu kretanja igrača američkog nogometa za vrijeme treninga što trenerima omogućava planirati i realizirati efikasniju igru.
Nagrađivanje prošlih kupnji
BANK OF AMERICA:
“BankAmeriDeals” omogućava povrat gotovine (cash-back) odabranim klijentima na temelju analize njihovih obavljenih kupnji putem kartica.
VIDEO
Bolja ponuda velikim potrošačima
DUETTO: pruža personaliziranu uslugu osobama koje online pretražuju hotelski smještaj. Cijene hotela svakog klijenta određene su prema podacima o tome koliko osoba troši „vanpansionski”, u kasinu ili baru. Gosti koji su veći potrošači dobivaju popust u cijeni smještaja.
Povećanje produktivnosti strojeva
GENERAL ELECTRIC: prate se podaci o potrošnji svih prodanih uređaja. Analitički tim GE koristi te podatke za „štelanje” uređaja da budu što učinkovitiji.
REZULTAT: podaci će povećati produktivnost strojeva u SAD za 1.5%, kroz 20 godina što bi moglo povećati BDP za 30%.
Big Data i kartica lojalnosti
KROGER: prikuplja, obrađuje i koristi podatke svojih 770 milijuna kupaca.
REZULTAT: budući da 95% rasprodaja ide preko kartice lojalnosti, Kroger tvrdi da je taj program donio korist od preko 12 milijardi US$
VIDEO
Analiza navika gledanja programa
NETFLIX: koristi podatke i analizu navika gledanja stotina milijuna korisnika da bi se tvrtka angažirala u nabavljanju i stvaranju upravo onakvih programa kakve njihov auditorij želi.
Optimizacija željezničkog prometa
NORFOLK SOUTHERN: koristi podatke o putnicima, ulascima, izlascima, zastojima, vožnjama da bi smanjila gužve i omogućila bržu vožnju vlakova.
REZULTAT: kompanija predviđa uštedu od 200 milijuna US$ godišnje ako omogući povećanje prosječne brzine za 1 mph.
VIDEO
Niži Carbon Footprint
UBER: podaci se unose u algoritme koji utvrđuju najefikasnije povezivanje vozača i klijenta i utvrđivanje optimalne cijene vožnje.
REZULTAT: smanjen je broj vozila u Londonu za trećinu uvođenjem usluge UberPool za klijente koji žele smanjiti troškove benzina i emisiju ugljikovih spojeva.
Semantička pretraga u Online kupovanju
WAL-MART: koristi analizu teksta, strojno učenje i „synonym mining” radi što boljeg semantičkog pretraživanja pri kupnji.
REZULTAT: semantičko pretraživanje omogućilo je ubrzanje procesa online kupovanja za 10% do 15%.
Predsjednik Obama o Big Data
• Bogu vjerujemo, svi ostali daju podatke. — Edwards Deming
• Dobre marketinške odluke traže podatke. - John Sculley
• Nemoj razvijati teorije bez podataka. — Sherlock Holmes
• Bez Big Data ste slijepi i gluhi nasred autoceste. – Geoffrey Moore
• Big data je temelj svih megatrendova u društvenim mrežama, mobilnim aplikacijama, računalnim igrama i cloud computingu. – Chris Lynch
• Podaci imaju priču – ispričajte ju i dajte podacima smisao. — Dan Heath
• Pogreške zbog nedovoljno podataka bolje su nego kad nemate podataka. – Charles Babbage
• Kad se podaci dime, u poslovanju ima vatre. — Thomas Redman
Sve tajne kreativnosti 129 kn, Život kao igra 159 kn, Sve tajne harmoničnog vođenja 149 kn
NOVIJE KNJIGE
veljača: USPJEŠNA MOTIVACIJA I SAMOMOTIVACIJA
ožujak: UPRAVLJANJE KRIZAMA I KONFLIKTIMA
travanj: IZAZOVI POSLOVNE STRATEGIJE I PLANIRANJA
svibanj: SVJETSKI TRENDOVI: THE WORLD IS BROKEN WE NEED TO FIX IT
lipanj: IZAZOVI DIGITALNE PRODAJE
rujan: KAKO ZAPOSLITI NAJBOLJE LJUDE: EMPLOYER BRANDING
listopad: KAKO PODATKE PRETVORITI U VRIJEDNOST
studeni: TAJNE USPJEHA TIMOVA
studeni: UPRAVLJANJE VREMENOM I PRIORITETIMA