25
Hvordan få forretningsverdi av Big Data Bouvet Innsikt 2013-11-21 Lars Marius Garshol, [email protected], http://twitter.com/larsga 1

Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Embed Size (px)

DESCRIPTION

Hva slags typer analyse kan være interessant for en typisk norsk kunde? Hvilken forretningsverdi kan disse ha? Hva trenger man for å kunne kjøre analysene? Hva slags verktøy finnes?

Citation preview

Page 1: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Side: 1

Hvordan få forretningsverdi av Big DataBouvet Innsikt 2013-11-21Lars Marius Garshol, [email protected], http://twitter.com/larsga

Page 2: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Side: 2

Anvendelser

Page 3: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

3

Hvor er forretningsverdien?

• Skal Big Data få forretningsverdi for deg må du– finne de verdifulle spørsmålene,– besvare dem med data-analyse, og– handle!

• All verdens data og analyse er verdiløs hvis den ikke fører til handling

Page 4: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

4

Offentlig tilsyn

• Gitt masse data om tilsynsobjektene– virksomhetstype, geografisk plassering,

tid for forrige tilsyn, eiertype, dato opprettet, ...

• er det mulig å forutsi hvilke objekter det mest sannsynlig er problemer med?– så kan man prioritere tilsyn mot disse

• Utgangspunkt– man sitter på masse data om objektene– man vet allerede hvor det ble funnet

problemer i fortiden– kan bruke dette for å trene en modell

Page 5: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

5

Svindel

• Er det mulig å identifisere hvilke søknader som er svindelforsøk?

• Igjen, gitt– alle data i søknaden,– som man har om søker fra før,

• kan man trene opp en modell som forutsier dette?

• Vil kreve at man har informasjon om hvem som begikk svindel tidligere– for å kunne lære opp en modell

Page 6: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

6

Hvilke kunder er på vei ut?

• Å gjenvinne kunder er svært dyrt– veldig mye å hente på å overbevise

kunden om å bli– krever at man vet hvem som er i

faresonen• Kan man identifisere kunder i

faresonen?– se på generelle attributter ved kunden– se på hvordan kunden bruker produktet– dataeksos er sentralt her

Page 7: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

7

Produktanbefaling (1)

• Kunder som kjøpte dette har også kjøpt ...– kan brukes på nettsider, f.eks, for å vise

relaterte produkter– lett å lage, krever bare ordreinformasjon– teknikken heter “frequent itemsets”

Page 8: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

8

Produktanbefaling (2)• Vi tror du vil like ...– for å gjøre dette trenger man informasjon

om hva enkeltkunder liker– kilden kan være ratinger, kjøp,

dataeksos ...– kan enten utnytte bare kundeinfo, eller ta

hensyn til produktegenskaper– gitt nok data er dette lett å bygge med

rimelig resultat– kan gjøres med k-nearest neighbours,

eller matrisefaktorisering

Page 9: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

9

Kundesegmentering

• Kan man automatisk identifisere grupper av kunder?– dvs, gitt data om kundene og deres oppførsel, kan

man automatisk lage grupper av like kunder?– kan f.eks kombineres med personas fra

Kundereisen• Dette er clustering

– krever informasjon om kunden pluss oppførsel– lang rekke med ulike teknikker– krever ingen opplæring eller forhåndsdefinerte

grupper• Algoritmen vil automatisk plassere kunden

– dette kan etterpå brukes som input til videre analyse

Page 10: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

10

Automatisk datakobling

• Det finnes teknikker for å automatisk koble datasett uten felles identifikator– kalles “record linkage”, historie tilbake til

1946– vi har avanserte verktøy for dette1)

• Kan brukes til en hel rekke ting– konsolidering av kontaktdatabaser/CRM– kobling av interne data mot eksterne

data• enten data man kjøper, eller åpne data

– innhenting av kundeinformasjon fra sosiale medier

1) http://code.google.com/p/duke/

Page 11: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

11

A/B-testing

• Big Data-analyse handler om å bruke mer pålitelige verktøy enn magefølelse

• Dette kan også brukes på f.eks– valg mellom alternative

brukergrensesnitt– valg av tiltak overfor kunder– ...

• Kan løses med vanlig statistisk hypotese-testing– mer moderne løsning: banditt-algoritmer

A: B:

Page 12: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

12

Hvem skal vi ringe?

• Direktesalg er dyrt– enten det er via telefon eller post– derfor viktig å velge ut de riktige

kandidatene• To måter å gjøre dette på

1. magefølelse for å sette statiske kriterier2. machine learning for å lære opp en

statistisk modell som veier mange kriterier

• Ved å systematisk samle data om hvem som responderer kan man bli mer målrettet– gir grunnlag for å lære opp modellen

Page 13: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Side: 13

Verktøy

Page 14: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

14

Verktøy er ikke det viktigste

spørsmål+ data+ matematikk= svar

Page 15: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

15

Forutsetninger

• Datavarehus er en fordel– lettere å analysere data som er samlet og

massert– dog ikke påkrevd

• Semantisk integrasjon kan hjelpe– enklere og mer fleksibel integrasjon av

data– godt alternativ til datavarehus

• Også mulig å løse ad-hoc– dvs integrere data etter hvert som det

trengs for hver enkelt analyse– enkel og billig måte å komme i gang på– mer kostbart på sikt, fordi integrasjoner

må gjentas mange ganger

Page 16: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

16

• Åpen kildekode-verktøy for dataanalyse– gjør det mulig å spre analysen ut over mange

maskiner– noe nær lineær skalering med antall maskiner– basert på Googles MapReduce-teknikk– mer eller mindre synonymt med Big Data

• Stort økosystem– masse verktøy basert på Hadoop– Mahout, Pig, ...

• Tungt å bruke– vanskelig å programmere med– krever mange maskiner

• Stort sett unødvendig!http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

“because “Hadoop” and “Big Data” are buzzwords, half the world wants to wear this straightjacket even if they don’t need to.”

Page 17: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

17

Hvordan mislykkes med Hadoop• Mange installerer Hadoop...• ...finner aldri ut hva de skal med

det– gir opp

• ...prøver seg på data-analyse– har ikke kontroll på matematikken– får ikke resultater– gir opp

• ...har spørsmål og matematikk, men– har ikke nok data eller klarer ikke

integrere dem– gir opp

Page 18: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

18

Scripting

• Å massere og analysere data med statiske språk er tungvint– Java, C#, osv

• Ekstremt mye lettere å gjøre med scriptspråk– særlig Python, men også andre

• Finnes ferdige analyseverktøy for Python– NumPy, SciPy, pandas

• R er også mye brukt

Page 19: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

19

Noen praktiske eksempler

• Clustering av flymodeller– 250 linjer for innlasting og vasking av

data– 150 linjer for clustering

• Personlige anbefalinger av filmer– 13 linjer til innlesing av data– 230 linjer til å gjøre anbefalinger

• Forutsi ølratinger med lineær regresjon– 83 linjer til lesing og vask av data– 107 linjer til forutsigelse

• Spamfiltrering med Bayes’s Teorem– 162 linjer

Page 20: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Side: 20

Hvordan bygge

Page 21: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

21

Hvordan bygge en løsning?

1. Finn et spørsmål2. Finn data som kan besvare det3. Lag en prototyp– samle og vask dataene med scripting– lag et script som kjører en algoritme

4. Test prototypen– viktig å validere at man kan stole på

svarene!5. Bygg en produksjonsløsning– forutsatt at prototypen passerte test

Page 22: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

22

Kommer spørsmålet først?

• Et stort tema i data science er EDA:– Exploratory Data Analysis– det å grave i dataene for å finne innsikter

og idéer– disse kan etterpå testes med analyse

• Når man først har dataene samlet kan dette være svært kraftig– krever at man har dataene– lettere med semantisk integrasjon

• Viktig også for å ha bakgrunn tiltolke resultat

fra analyse

Page 23: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

23

Hvordan teste Big Data-analyse?• Bruk 90% av dataene som input til

algoritmen– når den er ferdig opplært, forutsi resultat

for de siste 10%• Mål avvik mellom forutsigelse og

korrekt resultat– gjør dette 10 ganger med forskjellige 10-

deler av dataene som testdata• Snittavvik gir meget god validering

Page 24: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Konklusjon

24

Page 25: Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

25

Alle kan bruke Big Data

• Krever bare at man har– data + spørsmål med forretningsverdi

• Kort vei fra spørsmål til svar– gitt riktig tilnærming– svaret kan være at man ikke har nok

data• Etter første svar er de neste lettere– mer av dataene er samlet og klare– man har mer oversikt over data og

teknikker