Vorstellung des Streamkonzepts Datenbanken und Informationssysteme Technische Universität...

Vorstellung des StreamkonzeptsVorstellung des Streamkonzepts

Datenbanken und Informationssysteme

Technische Universität KaiserslauternLehrgebiet Datenverwaltungssysteme

Sommersemester 2005

Benjamin Mock

Inhalt

• Anwendungsgebiete von Datenströmen

• Eigenschaften von Datenströmen

• Anfragen an Datenströme

• Sliding Windows

• Datenstrom-Management-Systeme (DSMS)– STREAM, AURORA, SPEX

• Load Shedding

Anwendungsgebiete

• Nachrichtenüberwachung– Presse– Börse– Meteorologie

• Multimediaströme

• Netzwerkverwaltung

• Verkehrsüberwachung

Datenströme

• potentiell unendlich• Ankunftsraten

– unvorhersagbar– unbeeinflussbar

• benötigen Echtzeit-Verarbeitung• Unterscheidung zwischen

– Punkt- / Tupelströme

– XML-Ströme

Speicherung nureingeschränkt möglich!

Datenströme II

• push-Kommunikation• Daten durch mehrere externe Quellen

(Sensoren, …)• Ergebnisse ebenfalls als Datenstrom• Information des Benutzers

– zu bestimmten Zeitpunkten– bei anormalen Werten– bei jedem Tupel

• DBMS-Active, Human-Passive = DAHP

DSMS DBMS

persistent

transient

beliebig

transient

persistent

nur hinzufügen

Anfragen

Evtl. angenähert

Einpass-Verfahren

Anfragen

Änderungen

Indizierung

Ergebnisse

Datenzugriff

Anfragen

• einmalige Anfragen– wird aktiv vom Benutzer einmalig gestellt– Schnappschuss des Zustands zu einem Zeitpunkt

• kontinuierliche Anfragen– befindet sich im System und wird kontinuierlich an

neu ankommende Daten gestellt– Auswertung über einen Zeitraum

Anfragen II

• Ad-hoc-Anfrage– zu beliebigem Zeitpunkt gestellt– frühere Daten?

• ignorieren• Zusammenfassungen speichern

• vordefinierte Anfrage– bekannt, bevor Daten ankommen– kontinuierliche oder geplante einmalige Anfrage

Sliding Windows

• Problem: blockierende Operationen – join, avg, max, min …

• Lösung: Sliding Windows– zeitbasiert– tupelbasiert– partitioniert

Sliding Windows II

• selbstbeschreibende Technik• deterministisch: Anfrage über die selben

Daten bringt gleiches Ergebnis• nur neue Daten in Auswertung• Benutzer

– versteht die Erstellung des Ergebnisses– kann Qualität und Exaktheit in etwa abschätzen

• gute Möglichkeit angenäherte Ergebnisse zu produzieren

DSMS: STREAM

• STanford stREam datA Manager – Anfragesprache: CQL continuous query language

– Bearbeitung kontinuierlicher Anfragen über Datenströme und Relationen

• Anfrageplan aus 3 Komponenten– Anfrage-Operatoren– Inter-Operator-Warteschlangen– Synopsen

• Beispiel:

SELECT *FROM R, SWHERE R.name = S.name

DSMS: STREAM-Komponenten

• Operatoren– ähneln denen in DBMS– lesen Eingabeströme– erstellen Ausgabestrom

• Warteschlangen– verbinden Operatoren untereinander

• Synopsen– Zusammenfassung bisheriger Daten– Trade-off zwischen Präzision und Speicher– Sliding Windows als Synopsen

DSMS: STREAM III

• Zusammenspiel der Operatoren

DSMS: AURORA

• Kollaboration von Brandeis University, Brown University, MIT

• unterstützt kontinuierliche / Ad-hoc-Anfragen, Sichten

• Anfragesprache: SQuAl für Stream Query Algebra – Box-and-Arrow-Modell– sieben Operatoren

• filter, map, union, bsort, aggregate, join, resample

DSMS: AURORA II

• Box-and-Arrow-Modell

• Adressierung von Teilen eines XML-Dokuments mittels Pfad-Notation

<journal> <title>databases</title> <editor>anna</editor> <authors> <name>anna</name> <name>bob</name> </authors> <price /></journal>

Kontextknoten: journalLokalisierungspfad: child::*

title, editor, authors, price16

XPATH Achsensymmetrie

Vorwärtsachsen Rückwärtsachsen

child parent

descendant ancestor

following-sibling preceding-sibling

following preceding

descendant-or-self ancestor-or-self

XML-Parser: DOM vs. SAX

• DOM = Document Object Model

• SAX = Simple API for XML

• programmiersprachenunabhängiger Zugriff auf XML-Dokumente

- hoher Bedarf an Hauptspeicher

+ beliebiger Zugriff

nicht geeignet für Datenströme geeignet

+ geringerer Bedarf an Hauptspeicher

- nur sequentieller Zugriff

XML-Parser: SAX Beispiel

• Jedes XML-Token ist SAX-Ereignis– öffnende Markierung <impressum>– Text– schließende Markierung </impressum>

• entsprechender Eventhandler für jedes Ereignis

<impressum> Version 1.0 of the Simple API for XML (SAX) </impressum>

DSMS: SPEX

• Streamed and Progressive Emulator for XPATH

• wertet vorwärtsgerichtete XPATH-Anfragen gegen XML-Ströme aus

• überführt diese Anfragen in Automatennetzwerke

• Auswertung in 4 Schritten

XPATHAnfrage

Forward XPATHAnfrage

logischerAnfrageplan

physischerAnfrageplan

Ausgabe-strom

DSMS: SPEX Anfrageplan

• Jedes Token des Eingabestroms entspricht SAX Ereignis

• Automaten– nutzen Stack um Position der

XML-Elemente zu bestimmen– führen genau einen

Lokalisierungsschritt durch– annotieren Strom um

Kontextknoten zu markieren, oder leiten unverändert weiter

/descedant::a[child::b[descendant::d or child::e]]following-sibing::c

Load Shedding

• Problem: CPU zu langsam, Hauptspeicher zu klein für ankommenden Datenstrom = Überlast

• Lösung: kontrolliertes Verwerfen von Daten ohne hohen Genauigkeitsverlust = Load Shedding

• am Beispiel Aurora: Daten verwerfen, aber

– wann– wo im Anfrageplan– wie viel

• zufällig• semantisch mit QoS Graphen

– Latency-Graph

– Loss-Tolerance-Graph

– Value-Based-Graph

Zusammenfassung

bekannte Techniken aus traditionellen DBMS nicht einfach übertragbar

• keine Speicherung vor Verarbeitung möglich• push-Kommunikation• Einpass-Verfahren, weil nur einmaliger

sequentieller Zugriff auf Daten• Echtzeitverarbeitung• exakte Anfrageauswertung nicht möglich bei

– Ad-hoc-Anfragen bezüglich vergangener Daten– Überlast– aggregierenden oder sortierenden Operationen

Vorstellung des Streamkonzepts Datenbanken und Informationssysteme Technische Universität...

Documents

Komplexe Informationssysteme Seminararbeit · Universit ¨at Hamburg Fachbereich Informatik Verteilte Systeme und Informationssysteme Komplexe Informationssysteme Seminararbeit Deduplikation:

Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Reiner Hartenstein * Kaiserslautern University of Technology (TU Kaiserslautern)

Technische Universität Kaiserslautern - WELT · 2014-07-04 · Kaiserslautern Technische Universität Kaiserslautern Banking 3.0 - zwischen Digitalisierung und Mensch. Theoretische

Universität Regensburg Lehrgebiet mündliche Kommunikation und Sprecherziehung

Management, Marketing & Informationssysteme - Organisationale Routinen und Informationssysteme

Reiner Hartenstein, University of Kaiserslautern, Germany ... · Reiner Hartenstein, University of Kaiserslautern, Germany ... Reiner Hartenstein, University of Kaiserslautern,

Kaiserslautern American

Data Streams Thema: Operatoren auf Data Streams Ou Yi o_yi@informatik.uni-kl.de Technische Universität Kaiserslautern Lehrgebiet Datenverwaltungssysteme

Fotokatalog Poelzig - TU Kaiserslautern · 2008. 4. 10. · Lehrgebiet gta, TU Kaiserslautern Bildgrößen: 1) 72 dpi, 16 ... 06-001.JPG 06-002.JPG 06-003.JPG 06-004.JPG 06-007.JPG

SOPRA EDV -Informationssysteme GmbH Unternehmensprofil … · 2010. 4. 22. · SOPRA EDV-Informationssysteme GmbH: 2010 1 SOPRA EDV -Informationssysteme GmbH Unternehmensprofil (Auszug)

Geographische Informationssysteme Anwendungsgebiete

Informationssysteme / Datenbankabfragen

Orientierungseinheit Informatik Lehrgebiet Eingebettete Systeme und Robotik Bernd Schürmann Lehrgebietsberater Ziel des Vortrags: Überblick über das Lehrgebiet

Informationssysteme - TU Kaiserslautern€¦ · 0 - 3 Betriebliche Informationssysteme1 Betriebliche Informationssysteme spiegeln die Geschäftsmodelle von Unternehmen wider und dienen

ARIS Architektur integrierter Informationssysteme

SMART CITY HACKATHON - TU Kaiserslautern · 2018-04-20 · SMART CITY HACKATHON 8.-9. Mai 2018 Kaiserslautern. In Kooperation mit TU Kaiserslautern, DFKI Kaiserslautern, Hochschule

Transaktionale Informationssysteme 1. DB-Grundbegriffe und ... · Transaktionale Informationssysteme-1. DB-Grundbegriffe und TA-Konzept Norbert Ritter Datenbanken und Informationssysteme

FernUniversität in Hagen, Lehrgebiet Geschichte Europas in ... · FernUniversität in Hagen, Lehrgebiet Geschichte Europas in der Welt , Sept./Okt. 2018 . Pizarro, Poeppig und Patatas:

Das Lehrgebiet Industrial Ecology am Umwelt-Campus …...Lehrgebiet Industrial Ecology: Die Kernthemen 1. Ökologische Systeme und Betriebliche Metabolismen 2. Analysemethoden 3. Kreislaufwirtschaftsmodelle