Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
NAČRTOVANJE SODOBNE ANALITIČNE
ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el.
mag. BOŠTJAN KOS, MBA
Izzivi pri gradnji analitičnih rešitev
• Naraščanje števila podatkovnih virov
• Naraščanje raznovrstnosti podatkov (strukturirani, nestrukturirani, slike, IoT, zvok, video, RFID, vremenski podatki, podatki iz socialnih omrežij, itd.)
• Naraščanje raznovrstnosti ter lokacij podatkovnih virov (On-premise, Cloud, Hybrid, SaaS, DBaaS, itd.)
• Naraščanje količine podatkov
• Naraščanje števila rešitev, ki skrbijo za dostop do podatkov v različnih virih.
• Naraščanje kompleksnosti integracije podatkov iz različnih virov
• Naraščanje raznovrstnosti časovnih dostopov do podatkov ter njihovega prenosa (batch, real-time, stream, itd.)
• Manjšanje časovnega okna za integracijo podatkov
Izzivi pri gradnji analitičnih rešitev
• Naraščanje števila različnih podatkovnih shramb v podjetjih (ERP, CRM, DWH, Data Lake, Dokumentni sistemi)
• Nezavedanje ter nepoznavanje podatkovnih shramb ter njihovih vsebin
• Sledenje ter uvajanje državnih, mednarodnih in industrijskih regulativ (npr. Basel, Solvency, GDPR, itd.)
• Zahteva po obveznem skrbništvu nad celotnim procesom pridobivanja, obdelave ter posredovanja podatkov
• Prehod iz reaktivnega analitičnega sistema, kjer so uporabniki zahtevali podatke in poročila od IT, v proaktivni analitični sistem
• Zahteva po infuziji analitike v vse poslovne procese
Izzivi pri gradnji analitičnih rešitev
• Naraščanje števila uporabnikov
• Naraščanje zahtevnosti uporabnikov
• Naraščanje kompleksnost poročil
• Prehod iz masovnih v individualna poročila
• Naraščanje števila končnih aplikacij
• Dostava informacij na različne naprave
• Zahteva po napredni analitiki
• Zahteva po prediktivni analitiki
• Zahteva po peskovnikih ter Big Data
• Zahteva po podatkovni znanosti
• Zahteva po umetni inteligenci ter t.i. chatbot-ov
• Kljub vsemu naštetemu uporabniki zahtevajo čedalje boljšo odzivnost
3. Poslovna
analitika in
podatkovna
znanost
(Razumevanje trenutnih
in prihodnjih trendov,
sprememb ter
napovedi)
1. Hibridno
upravljanje s
podatki (Zapišite enkrat,
dostopajte kjerkoli
z enotnim
dostopom)
2. Skrbništvo nad podatki in
integracija podatkov (Priprava, objava in zaščita podatkov
za zagotavljanje sledljivosti ter skladnosti)
Informacijska arhitektura (IA) je osnova za umetno inteligenco (AI) -> Ni AI brez IA <-
Trije ključni stebri sodobne analitične arhitekture
Analytics
Machine
Learning
AI
Data
AI lestev
1. Hibridno upravljanje s podatki
• Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.:
– Operativne baze podatkov
– Dokumentni sistemi
– Podatkovno skladišče
• Strukturirani podatki
• Hramba zgodovinskih podatkov
• Visoke performanse
– Podatkovno jezero
• Nestrukturirani podatki
• Ponor za podatke s področja IoT
• Stroškovno učinkovit distribuiran sistem za hrambo in obdelavo velikih količin podatkov
Analytical Data
Lake Storage
Data
Access
Self-service
Data
virtualization
Data
federation
Open APIs
Object store
and cache
Databases,
Deep analytics,
data modeling,
data marts, and data
warehousing
Enterprise
content store
Landing zone,
exploration, history,
logs and archive
Sand boxes
#
1. Hibridno upravljanje s podatki
• Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.:
– Analitični peskovniki
• Omogočajo raziskovanje po podatkih in pridobivanje novega vpogleda v podatke
• Okolje, ki omogoča ponovljivo uporabo transformacij in poizvedb
• Okolje, kjer uporabniki lahko dostopajo do velike količine surovih podatkov
• Okolje za razvoj analitičnega modela
Analytical Data
Lake Storage
Data
Access
Self-service
Data
virtualization
Data
federation
Open APIs
Object store
and cache
Databases,
Deep analytics,
data modeling,
data marts, and data
warehousing
Enterprise
content store
Landing zone,
exploration, history,
logs and archive
Sand boxes
#
1. Hibridno upravljanje s podatki
• Naslavlja potrebo po razširjenem obsegu in povečani hitrosti izvajanja analitičnih obdelav
• Implementacija v privatnem ali javnem oblaku ter zagotavljanje kompatibilnosti aplikacij med njima
• Čedalje pogostejše zahteve po HA in DR postavitvah zaradi vključenosti analitičnih sistemov v operativne procese
• Virtualizacija zakriva kompleksnost ter poenostavlja dostop do podatkov, saj omogoča dostopanje do več repozitorijev istočasno preko ene SQL poizvedbe
• Obvezna visoka stopnja integracije s platformo za analitiko ter podatkovno integracijo
Analytical Data
Lake Storage
Data
Access
Self-service
Data
virtualization
Data
federation
Open APIs
Object store
and cache
Databases,
Deep analytics,
data modeling,
data marts, and data
warehousing
Enterprise
content store
Landing zone,
exploration, history,
logs and archive
Sand boxes
#
2. Skrbništvo nad podatki in integracija podatkov
• Načrtovanje integracije podatkov je odvisno od vrste podatkov, pogostosti zajema podatkov ter izvora in ponora podatkov
• Več vrst integracije podatkov:
– ETL/ELT postopki (batch)
– Replikacija podatkov v realnem času (Change Data Capture)
– Obdelava podatkov v času prenosa podatkov (Streaming)
• Za mesto obdelave podatkov so vse pogosteje izkoriščajo viri na repozitorijih podatkov (npr. hadoop, analitični pospeševalniki, itd.)
• Podpora za pregled izvornih sistemov (Data Profiling), podpora za zagotavljanje kakovosti podatkov (Data Quality)
Information Management & Governance Data lifecycle
management
Master and
entity data
Reference
data Data catalog Data models Data quality
Ingestion &
Integration
Extract,
transform
and load
Change data
capture
Document
capture
Streaming
2. Skrbništvo nad podatki in integracija podatkov
• Zaupanje v pomen podatkov je ključno za pravilno rabo podatkov v poslovnih analizah
• Zaupanje v podatke povečujemo z vzpostavitvijo:
– Centraliziranega sistema upravljanja
– Skupnega poslovnega besednjaka
– Podatkovne sledi
– Skrbnikov podatkov
• Predstavlja podlago za nadaljnje projekte integracije in upravljanja podatkov:
– Upravljanje glavnih podatkov (Master Data Management)
– Upravljanje z življenjskim ciklom podatkov (Data Lifecycle)
– Inicative s področja varnosti in zasebnosti (GDPR, maskiranje)
Information Management & Governance Data lifecycle
management
Master and
entity data
Reference
data Data catalog Data models Data quality
Ingestion &
Integration
Extract,
transform
and load
Change data
capture
Document
capture
Streaming
3. Poslovna analitika in podatkovna znanost
Pridobivanje globjega
vpogleda za razumevanje
vplivov na poslovanje
Poročanje in analiza podatkov
za nazaj
Priprava načrtov, proračuna in
napovedi
Razvoj, uvedba in
upravljanje prediktivnih
modelov
Optimizacija poslovnih odločitev
Kakšen je naš načrt?
Kaj se je zgodilo?
Zakaj se je zgodilo?
Kaj se bo zgodilo?
Kaj moramo narediti?
Actionable
Insight
Enhanced
Applications
Discovery & Exploration
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics
Data science Federated
search
3. Poslovna analitika in podatkovna znanost
Kakšen je naš načrt?
Actionable
Insight
Enhanced
Applications
Discovery & Exploration
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics
Data science Federated
search
• Priprava natančnejših načrtov, proračuna in napovedi
• Zahteva po:
– Agilnosti
– Odzivnosti na spremembe
– Učinkovitosti pri iskanju trendov, modeliranju scenarijev in izvajanju „kaj-če“ analiz
– Avtomatizaciji postopkov
– Sodelovanju, saj postopek planiranja zajema več oddelkov, podjetij,
Planiranje - Priprava načrtov, proračuna in napovedi
3. Poslovna analitika in podatkovna znanost
Kaj se je zgodilo?
Actionable
Insight
Enhanced
Applications
Discovery & Exploration
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics
Data science Federated
search
• Delitev na:
– Operativno poslovno poročanje
– Samostojno izvajanje analiz
• Potreba po celovitem upravljanju obeh načinov analiz za zaupanje v rezultate le-teh
• Potreba po interaktivnosti in enostavnosti uporabe
Poročanje - Poročanje in analiza podatkov za nazaj
Zakaj se je
zgodilo?
Analiza - Pridobivanje globjega vpogleda za razumevanje vplivov na poslovanje
3. Poslovna analitika in podatkovna znanost
Kaj se bo zgodilo?
Actionable
Insight
Enhanced
Applications
Discovery & Exploration
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics
Data science Federated
search
• Uporaba statističnih metod in metod strojnega učenja
• Ključne lastnosti platforme za podatkovno analitiko:
– Raznolikost orodij na enem mestu, ki naslavljajo različne tipe uporabnikov
– Upravljanje z analitičnimi sredstvi, modeli in podatki
– Sodelovanje med analitiki
– Povezovanje s skupnostjo podatkovnih znanstvenikov
– Uvedba modelov v procese organizacije
• Izvajanje obdelav na mestu, kjer so podatki
• Peskovniki
• Virtualiziran dostop do podatkov
Napovedovanje - Razvoj, uvedba in upravljanje prediktivnih modelov
3. Poslovna analitika in podatkovna znanost
Kaj moramo narediti?
Actionable
Insight
Enhanced
Applications
Discovery & Exploration
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics
Data science Federated
search
• Podaja odgovor na vprašanje kakšne odločitve naj sprejmemo, da bodo najbolj optimalne
• Ključno je prepletanje z rešitvami za podatkovno znanost, npr.
– Integracija s planiranjem
– Integracija z napovedovanjem
• Ena platforma za podatkovno znanost in optimizacijo odločitev
Optimizacija – Optimizacija poslovnih odločitev
Analytical Data
Lake Storage
Security
Platform
Information Management & Governance
Actionable
Insight
Analytics In-Motion
Enhanced
Applications
Discovery & Exploration
Analytics Operating System
Ingestion &
Integration
Data
Access Machine &
sensor data
Image & video
Enterprise content
Social data
Weather data
Commercial data sets
New Data sources
Traditional
sources
Third-party data
Transactional data
System of record data
Data
acquis
itio
n &
applic
ation a
ccess
Internet data sets
Application data
Extract,
transform
and load
Change data
capture
Self-service
Data
virtualization
Data
federation
Open APIs
Object store
and cache
Databases,
Deep analytics,
data modeling,
data marts, and data
warehousing
Enterprise
content store
Landing zone,
exploration, history,
logs and archive
Sand boxes
#
Visualization and
storyboarding
Reporting, analysis
and content
analytics
Decision
management
Predictive analytics
and modeling
Insight as
a service
Cognitive
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics Streaming analytics Complex event processing Data enrichment
In-memory processing Simple programming paradigm
Data lifecycle
management
Master and
entity data
Reference
data Data catalog Data models Data quality
Data encryption Data masking and redaction Data protection Security intelligence
Managed service Traditional PaaS SaaS Hybrid
Data science Federated search
Real-time ingestion
Document
capture
Sodobna analitična arhitektura
Analytical Data
Lake Storage
Security
Platform
Information Management & Governance
Actionable
Insight
Analytics In-Motion
Enhanced
Applications
Discovery & Exploration
Analytics Operating System
Ingestion &
Integration
Data
Access Machine &
sensor data
Image & video
Enterprise content
Social data
Weather data
Commercial data sets
New Data sources
Traditional
sources
Third-party data
Transactional data
System of record data
Data
acquis
itio
n &
applic
ation a
ccess
Internet data sets
Application data
DataStage,
IDAA Loader,
DataWorks
Change data
capture & Data
Replication
Big SQL
Fluid Query,
Services
Director
Federation
Server
Open APIs
Cleversafe,
REDIS
IBM Integrated
Analytics System,
IBM Db2 Analytics
Accelerator,
Db2 Warehouse,
Db2
Box,
Content Manager,
Filenet
Hortonworks
Sand boxes
#
Watson Analytics
Cognos Analytics
Watson Content
Analytics
SPSS Decision
management
SPSS
Weather Insight
Twitter Insight
Watson APIs
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics Streams Complex event processing Data enrichment
Spark
Optim,
StoredIQ
Master Data
Management
Reference
data Mgmt.
Governance
Catalog Data models
Information
Server
Guardium Data
Encryption Optim Data Privacy
Guardium Activity
Monitoring QRadar
Managed service Traditional PaaS SaaS Hybrid
Data science Experience Watson Explorer
Real-time ingestion
DataCap
Sodobna analitična arhitektura – IBM rešitve
• Zajemanje, shranjevanje in analiziranje strukturiranih podatkov iz relacijskih baz (rešitve: DataStage, Db2 Warehouse Local, Cognos Analytics, Data Science Experience),
• Zajemanje, shranjevanje in analiziranje nestrukturiranih podatkov (dokumenti tipa .doc, .pdf, .txt, ipd.). Dokumenti lahko prispejo elektronsko ali po pošti (skeniranje in OCR), (rešitve: DataCap, FileNet, Hortonworks, BigSQL, Watson Explorer)
• Iskanje informacij po spletnih straneh (crawling) in shranjevanje informacij v najbolj stroškovno učinkovit repozitorij (rešitve: Watson Explorer + Hortonworks)
• Strukturirani podatki naj bodo shranjeni v relacijski bazi (rešitve: Db2 Warehouse Local)
• Dokumenti naj bodo shranjeni v dokumentnem sistemu (rešitve: FileNet)
• Nad vsemi podatki v podjetju mora biti vzpostavljeno iskanje ter sistem obogatenje podatkov (Watson Explorer, Data Science Experience).
• Zahteva se vzpostavitev t.i. Chat Bot-a (Watson Assistant, Watson Services and Watson APIs)
Primer iz prakse – poslovne zahteve
Analytical Data
Lake Storage
Security
Platform
Information Management & Governance
Actionable
Insight
Analytics In-Motion
Enhanced
Applications
Discovery & Exploration
Analytics Operating System
Ingestion &
Integration
Data
Access Machine &
sensor data
Image & video
Enterprise content
Social data
Weather data
Commercial data sets
New Data sources
Traditional
sources
Third-party data
Transactional data
System of record data
Data
acquis
itio
n &
applic
ation a
ccess
Internet data sets
Application data
DataStage
Change data
capture & Data
Replication
Big SQL
Fluid Query,
Services
Director
Federation
Server
Open APIs
Cleversafe,
REDIS
IBM Integrated
Analytics System,
IBM Db2 Analytics
Accelerator,
Db2
Content Manager,
Filenet
Hortonworks
Sand boxes
#
Watson Analytics
Cognos Analytics
SPSS Decision
management
SPSS
Weather Insight
Twitter Insight
Watson APIs
Customer
experience
New
business models
Financial
performance
Risk
Fraud and
operations
IT
economics Streams Complex event processing Data enrichment
Spark
Optim,
StoredIQ
Master Data
Management
Reference
data Mgmt.
Governance
Catalog Data models
Information
Server
Guardium Data
Encryption Optim Data Privacy
Guardium Activity
Monitoring QRadar
Managed service Traditional PaaS SaaS Hybrid
Data science Experience Watson Explorer
Real-time ingestion
DataCap
Db2 Warehouse
Primer iz prakse – mapiranje na arhitekturo
Data Sources
Unstructured Data
RDBMS
Flat Files
Big Data Platform
Enterprise Data
Warehouse
Data Lake
Data Science Platform Data Scientists
Business Users
PREDICTIVE MODELING
MACHINE LEARNING
Reporting
ETL
Data Integration
DEPLOYMENT
CAPTURE
OCR Document Management
System
Websites
Data Explorers
ENTERPRISE SEARCH
Data Exploration Chatbot & Cognitive Services
SEARCH
Crawler
Knowledge Workers Document Search
Discovery
Analysis
Analytics
Machine
Learning
AI AI
Data
IBM DataStage
IBM Cognos Analytics
IBM Db2 Warehouse
Hortonworks Data Platform
IBM Datacap
IBM Filenet
IBM Data Science Experience
IBM Content Navigator
IBM Watson Assistant IBM Watson Services
IBM Watson Explorer 3
4
7
6
5
2
1
8
IBM Watson Explorer
9
10
9
Primer iz prakse – sodobna analitična arhitektura
mag. Boštjan Kos, MBA
Direktor tehnične prodaje,
Analytics Technical Leader, Central and Eastern Europe
M: +386 40 456 681
LinkedIn: https://www.linkedin.com/in/bostjankos/