Upload
kisk-ff-mu
View
518
Download
0
Embed Size (px)
Citation preview
Jiří Štěpán
Big dataPersonalizace
Příležitosti & problémy
„Expert“ @JiriStepan• Od roku 1997 pomáhám firmám uspět na
internetu. • Nyní vedu datově orientovanou společnost
Etnetera ActivateJsem: • datafreek, který na sobě měří co se dá• nadšenec do cloudů, Rka a dat• sportovec, propagátor cyklistiky a otec.
O čem se dnes budeme bavit
• Jak velká jsou big data a kde se vzala?
• Jak se dá personalizovat online komunikace
• Trocha etiky kolem, aby to nevypadalo tak růžově
• Big data nejsou jen data větší než jeden disk.
• Charakteristika je složitější.
• Pojďme se podívat do historie, jak to vlastně vzniklo …
5 MB disk v roce 1956
V blízké budoucnosti bude třeba internet po celé trase Praha –
Brno!!!!
Řádově 10e4 více výkonnější hračka
Kdyby pokrok šel stejně rychle …• Rodinný dům by byl postaven za 25minut• Autem na Jadran bychom jeli 50 sekund• .. a za 0,1cl benzínu• Rozpočet na energii a topení by byl jednotky
kč / ročně• Nebo by ..
Person-Person distance in 1969
http://www.jstor.org/discover/10.2307/2786545?uid=3739704&uid=2&uid=4&uid=3739256&sid=21101674727517
.. And in 2008
http://arxiv.org/abs/0803.0939
Takže si to shrneme ….
Někdy kolem roku 2010 klesly náklady na přenos a uskladnění a zpracování dat prakticky na nulu.
A to umožnilo vznik oboru big data
Definice Big dat: 4V
Technologicky to znamená• Opuštění modelu relačních databází• Nástup platforem jako hadoop, mongodb, elastics search,
redshift, bigquery, …• Ty umožňují:
– Škálovat horizontálně na mnoha malých strojích – Schopnost pracovat se streamem dat– Nějakou omezenou formu SQL like dotazování
• Daní je velká omezenost typů, operací a vnitřní konzistence dat
• Zpravidla orientovány na přírůstkové zpracování, nikoliv mazání a updaty
Large data vs. main data
Large data (mainly SQL)• Jsme schopni predikovat
jejich velikost za pět let• Známe přesně strukturu a
účel dat• Po uložení jsou aktualizovány• Chceme kontrolovat vnitřní
konzistenci dat• Dopředu víme jak budeme
data používat a známe jejich účel a hodnotu
Big data (no SQL)• Nevíme kolik bude dat a to
ani řádově• Data mají, jeden dva
indexy(klíče) a to je vše• Po uložení zůstávají• Data nebudou 100%
konsitentní• Data ukládáme pro strýčka
příhodu, jejich hodnotu vnímáme intuitivně
Big data „filozoficky“
• Uložení informací je tak levné, že se ukládá cokoliv a nastálo.
• Ukládá se tedy více informací než dokáže kdokoliv kdykoliv přečíst.
• Tato data nikdy nikdo neuvidí jako taková. Projeví se jen jako výstupy vizualizací či strojového učení
• Ukládají se informace „pro strýčka příhodu“
Co to znamená v praxi?• Každý kdo dnes poskytuje nějakou službu si
ukládá skoro vše o jejím používání.• Proč? Protože přenos, uložení a zpracování
dat jsou zadarmo• Každý druhý dokáže tato data dát do kontextu
a využít ke svým záměrům• Proč jen každý druhý? Protože je (zatím) málo
data vědců
To je mimochodem můj tip na doporučení budoucího povolání. Datových vědců je a bude velký nedostatek.
2012
2013
2014
PERSONALIZACE VČERA, DNES A ZÍTRA
Definice personalizace pro tuto přednášku:
Digitální komunikace, která sdělení modifikuje dle nějaké znalosti o příjemci.
Jaká komunikace? Jaké sdělení a jak jej modifikuje
Jaké znalosti můžeme mít
Ještě jedna definice …
Personalizace je když se snažíte využít vaše
poznání zákazníka, abyste mu něco prodali.
Ale paninko na svíčkovou
potřebujete lepší maso
Ále dobrý den, Chutnala ta rybička
manželovi?
Že jste to vy, dám vám to za jenom za 50.
Pro vás vašnosti, bych vybral spíš
tohle. To víte kvalitka.
Pokrok nezastavíš …
Statický obsah(2005)
Web
Mass email
Banner
Obsah dle kontextu
(2010)
Dynamický web
Segmentovaný email, trigger email
PPC reklama
Obsah dle dlouhodobé
znalosti uživatele (nyní)
Personalizovaný web
1:1 automatizovaná
emailová komunikace
RTB, Behaviorální cílení, dynamické
banery
???
Prediktivní doporučení?
Personalizovaný produkt?
???
???
Co od personalizace můžeme čekat?
• Vyšší spokojenost uživatelů– Vyšší konverze– Delší dobu na stránkách, více zobrazení stránek– Častější používání– Vyšší CTR, openrate, …
• Vyšší loayalitu– Méně odhlášených z newslleteru– Větší šance na znovu nakoupení
• Poznání zákazníků a jejich chování z dalšího úhlu pohledu
Co od personalizace jistě dostaneme
• Více práce– Práce s daty– Více kreativ, textů apod.– Nastavovaní pravidel– Více testování
• Zamyšlení nad našimi zákazníky
OK, CHCI TO.CO MÁM DĚLAT?
Jaké kanály můžeme personalizovat?
Jak personalizaci prezentovat
Explicitně – vybrali jsme pro vás, protože ….
Implicitně – prostě jenom zobrazení
Jaké sdělení• Alternace několika ručně připravených
sdělení– Banner pro muže, ženy, pro lidi nad 30let– Jiný email pro lidi s příznakem VIP
• Sdělení tvořené na základě pravidel– Jiné řazení obsahu– Vybrané produkty, nabídky– Email generovaný na základě prohlížených
produktů– Cena pro zákazníka
Dlou
hodo
bá p
racn
ost
Nutnost kvalitního m
ěření a monitoringu
VÝVOJOVÉ STUPNĚ PERSONALIZACE(DLE SLOŽITOSTI IMPLEMENTACE)
Základní škola: Personalizace dle kontextu požadavku
• Známe jen to, co nám pošle prohlížeč– Lokaci– Jazyk– Odkud a proč přišel– Typ prohlížeče– Typ sítě– Základní informace o tom, zda je tu poprvé nebo ne
• Nepotřebujeme drahé nástroje – stačí kreativita
Tip: Mrkněte hned do vašich GA, jak to
u vás vypadá
Gympl: Víme o zákazníkovi statické informace
• Data zjištěná typicky ze soutěží, registrací atd.• Základní demografie• Snadno spočítatelné charakteristiky zákazníka– Počet návštěv, celková útrata, …
Občas se holt netrefíte.
MATURITA: REAGUJEME NA ŽIVOTNÍ CYKLUS
Long time customer live cycle
Další příklady
• Zapomenutý košík• Trigger email s nabídkou z prohlížené
kategorie• Umělá úprava ceny nebo dostupnosti při
opakované návštěvě• Využití callcentra pro volání uživatelům s web
aktivitou
VYŠŠÍ DÍVČÍ - DOPORUČOVÁNÍ
Produkty / články
Interakce / hodnocení
/ zájem
Uživatelé/Odborníci/ komunita
Doporučení
Základní typy doporučení
• Na základě atributů– Líbily se mi tři filmy, které režíroval W. Allen a
systém doporučí další filmy tohoto režiséra• Na základě podobnosti zájmů– Líbilo se mi deset stejných filmů jako jiným
uživatelů, tak mi to doporučí dva navíc co jsem ještě neviděl
– Ti kdo kupovali toto, kupovali i toto• Kombinace obou přístupů POZOR – tady je opravdu
nutné mít čistá data
Poznámka k reálnému světuJediné co zatím opravdu funguje je „kartička“.
„Slibné“ začátky, ale zatím není masivně používáno:• Hlas jako identifikátor volajícího, analýza
emocí• Analýza obrazového záznamu• Technologie typu iBeacon, případně wifi
tracking
BIGDATA & ETIKA
Co big data a personalizace znamenají pro společnost
• Obrovský business – Data jsou dnes defakto surovinou. – Těží se, prodávají se, zpracovávají se. – (Akorát je málo horníků)
• Obrovskou příležitost ke zlepšení života– Optimalizace dopravy, výroby, zdravotní aplikace, …
• Obrovské riziko zneužití informací
Rizika sběru dat - otázky• Kdo data sbírá a jak moc s tím souhlasíte
– Je jasné, že se data sbírají a že s tím souhlasíte? Máte možnost s tím něco dělat?
• Míra schopnosti identifikovat jedince a možnosti jeho poškození.– Jak moc může zneužití ublížit? Jen obtěžuje? Může stát peníze? Může
člověka zabít?• Transparentnost dalšího zpracování dat
– Víme co se s daty děje, zda jsou anonymizována, jak jsou zabezpečena atd.?
• Retence dat s ohledem na změnu charakteru subjektu– Jak dlouho jsou data ukládána? Co se s daty děje v případě např.
prodeje společnosti?
Kdo data sbírá?• Přímo nějaká viditelná firma a vy to víte
a souhlasíte s tím (Tesco card)• Nějaký „infrastrukturní“ subjekt– Google, reklamní síť, antivirus, Android
• Stát veřejně (všechny formuláře, data z kamer, registry)
• Stát neveřejně – tady jsme ve spekulacích
• Explicitně kriminální živel nebo nepřítel
Riziko
Case study – na lovu těhotných žen• Target pregnacy model (2012):
http://www.businessinsider.com/the-incredible-story-of-how-target-exposed-a-teen-girls-pregnancy-2012-2 – Celé založeno na prosté detekci
nákupu 25 produktů a věrnostní kartičce
• A když se zkusíte schovat, tak jste málem kriminálník: http://mashable.com/2014/04/26/big-data-pregnancy/#VtUroBEmmaqd
Case study 2 – nakládání s datyUber.com• Super služba, zkuste si.• Ukládá trvale kompletní data o každé
jízdě. GPS log, hodnocení, kartu, …• Září 2014: hackerský útok a únik dat.
Kdo má dnes data o našich jízdách stále nevíme.
• Listopad 2014: Kauza božského režimu vs. Johana Bhuiyanová.
• Prosinec 2014: Podezření na zneužití dat k očernění novinářů
Otázka k zamyšlení: UBER je dnes největší globální taxislužbou.
Přitom nevlastní jediné auto a nezaměstnává
jediného řidiče.
Vše co má jsou data.
Infrastruktura: Co o nás ví Google?
• Toto ví o každé cookie:– https://myaccount.google.com/privacy
• A toto pokud se přihlásíte:– https://history.google.com/history/device
(iPhone je na tom úplně stejně a Facebook hůře, Google je alespoň otevřený)
Další infrastrukturní hráči
• Síťoví operátoři (včetně informací z BTS)• Operační systémy• Antivirové programy• Prohlížeče• Reklamní sítě• Sociální sítě (zejména gadgety)• …
Na jaké weby se ve skutečnosti díváte?
• Light Beam extension pro Firefox
• Ukazuje to co nevidíte
• Zkuste si jej, budete se divit
Akce -> ReakceDle aktuálních výzkumů je jednou z příčin růstu blokování reklam masivní a nešetrně použitý remarketing.
Lidé se poprvé uvědomili, že jsou sledováni. A vadí jim to.
Ta opravdová rizika
IBM's Hollerith punch-card machine (1930)
Segmentační algoritmus
http://www.amazon.com/IBM-Holocaust-Strategic-Alliance-Corporation-Expanded/dp/0914153277
Rizika jsou. Co s nimi?• Obávám se že teprve čekáme na první velký průšvih• Regulace nakládání s daty a vynucování– Cookie law, ….
• Profesní standardy • Tlak na transparenost dat u firem i institucí• Svobodná volba lidí zda chtějí data měnit za lepší
službu– Add blockery– Security balíky, TOR, …– Prostá opatrnost (https://
www.youtube.com/watch?v=F7pYHN9iC9I )
Výzvy, které nás čekají
Big data ani personalizace zatím nejedou na plno. Ale budou a jsou tu dvě výzvy:
• Výzva č. 1: Dostat big data do každodenního fungování, tak aby zlepšila život na planetě stejně jako jiné vynálezy.
• Výzva č. 2: Zvládnout jejich nástup z pohledu společnosti. Eliminovat rizika s nimi spojená.
DĚKUJI ZA POZORNOSTZÁVĚR SI UDĚLEJTE LASKAVĚ SAMI
Jiří Štěpán, [email protected]://twitter.com/JiriStepan