View
1.185
Download
0
Category
Tags:
Preview:
DESCRIPTION
Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.
Citation preview
09 September 2014
Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG
Na0onal Research University Higher School of Economics
Big Data und intelligente Datenanalyse “ Pak Poisk”
Impulsvortrag BDK-Fachforum 09.09.2014
Täglich werden 2.5 Trillionen Bytes an Daten produziert
Daten und Analyse
2
Structured data sources like CSV, XLS, RDBMS
Unstructured text document sources like HTML
Smart Data Integration based on Linked Data
Data storages
RDBMS
BI, Reporting, Analisys
TextMining
RDF Store
3
Herausforderungen
Herausforderungen (Auszug) • Data Crawling (web, deep
web…) • Aggregation • Daten verstehen, extrahieren • Daten integrieren • Daten speichern (flexibel) • Daten auswerten, analysieren
Semantic Knowledge Base
Datenanalyse Web, Deep Web (External)
(Semi-) Strukturierte und unstrukturierte Daten
Wissen aus Text generieren
4
Läsungsansätze – NLP/HLT 1. Manuelles Annotieren
Mittels Vokabular (Taxonomie/Ontologie) 2. Extraktion mittels Hintergrundwissen
Dictionary, LOD, etc Bsp.: DBpedia Spotlight
3. Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA
4. Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos
5. Kombination 1-4
Triplifizierung, No-‐SQL / RDF Store
5
No-SQL / RDF Vorteile • Flexibilität (Schema less) • Standard -> RDF / SPARQL • Semantische Suche • Triplifizierung RDBMS nach RDF
Nachteil(e) • Performance (Noch) • (Noch) Keine Out-of-the-box BI
Tools
RDF Store
Datenintegra0on / Linking and Fusion
6
Entity “A” Entity “B”
Pro
perti
es o
f A
Pro
perti
es o
f B
Das Gleiche ? Ein Beispiel…
7
Scores: Best Match „0.89“ vs Worst Match „0.138“
Fuzzy string comparison methods
VSM – TFIDF = 0.92 Vector Space Model
PAK POISK Praxisbeispiel “Special Troops, Russland”
9
Pak Poisk -‐ Portal
10
Pak Poisk -‐ Visualisierungen
Pak Poisk -‐ Timeline Analyse
11
12
Ausblick -‐ LiDaKrA
Danke
13
Research Interest Linked (Open) Data for Government & Enterprises NLP, Seman0c Web, Business Impact of Linked Data Linked Data and Value Chain Ac3vi3es Ontos: Forschung EU FP7 – GeoKnow, Forschung KTI-‐DoW (SAKE, LiDaKrA) NRU/HSE: LOD Russia, RIA Novos0, LOD for City of Moscow KESW 2012 (Lecture Linked Enterprise Data), KESW’13 (Co-‐Chair) PC member at ISWC/WoLE (2012, 2013), MLW Rome (2013) W3C Russia office hosted by NRU HSE
NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: dhladky@hse.ru E: dhladky@w3c.org.ru E: daniel.hladky@ontos.com http://www.hse.ru/org/hse/iit/semant/
Daniel Hladky
14
Recommended