Daten- und Prozessmanagement - Datenmodellierung -

Daten- und Prozessmanagement- Datenmodellierung -

© Prof. T. Kudraß, HTWK Leipzig

Rahmenmodell des IM (Krcmar)

Management der

Informationswirtschaft

Management der

Informationssysteme

Angebot

Nachfrage

Verwendung

Daten

Prozesse

Anwendungs-lebenszyklus

Verarbeitung

Speicherung

Kommunikation

Führungsaufgaben

des Informations-

managements

IT-Governance

Strategie

IT-Personal

IT-Controlling

Management der

Informations- und

Kommunikations-

technik Technikbündel

IT-Prozesse


Aufgaben für das IS-Management Datenmanagement

– Umgang mit Referenzmodellen– Erstellung eines unternehmensweiten Datenmodells– Auswahl einer geeigneten Datenarchitektur– Sicherstellung der Datenkonsistenz

Prozessmanagement– Identifizieren von Geschäftsprozessen– Modellierung und Gestaltung von Prozessen– Wiederverwendung von Prozessmodellen– Standardisierung– Ökonomische Beurteilung von Prozessen


Datenmanagement Ziel:

– Optimale Nutzung der Daten im Unternehmen: Verbesserung der Informationsqualität + produktive Anwendungsentwicklung durch Einsatz von Datenbanken

Aufgaben:– Datenmodellierung– Datenadministration– Datentechnik– Datensicherheit & Datenschutz– Datenkonsistenz und Datenqualität (siehe Vorlesung)– Sicherung von Daten (z.B. Backup)– datenbezogene Benutzerservices


Datenmodellierung Formale Beschreibung der Unternehmensdaten

in einem sogenannten Datenmodell– Entity-Relationship-Modell (ERM) für Fakten– Objektorientierte Datenmodellierung– Dokumentenmodelle (XML, schemalos)– Modellierung unscharfer Daten– verschiedene IR-Modelle für Texte– integrierte Modelle für die Text-Fakten-Kombination– Modelle für multimediale Information– Data Dictionary


Unternehmensmodelle

Ebenen

A

B

C

Informations-technik

Unternehmensmodell = Unternehmensdatenmodell + Unternehmensfunktionsmodell

ABC-Klassifizierung nach Krcmar


Entity-Relationship-Modell (ERM) Ziele:

– Beschreibung der Daten und ihrer Beziehungen untereinander aus fachlogischer Sicht

– Erstellung eines konzeptionellen Modells Elemente

– Entitäten– Entitätsmengen– Attribute (beschreibend und identifizierend)– Schlüssel– Beziehungen / Relationen und Beziehungsmengen– Kardinalitäten– Aggregationen


Entitäten sind Individuell und eindeutig identifizierbar

– jeweilige Sachlage bestimmt, was als Entität zu sehen ist (z.B. Schulklasse oder einzelner Schüler)

darstellbar aufgrund eines Schlüsselwertes über Eigenschaften charakterisierbar zu Entitätsmengen mit gleichen Eigenschaften

zusammenfassbar


Beispiele für EntitätenEine Entität kann sein

Ein Individuum Einwohner Mitarbeiter Student Dozent

Ein Objekt Maschine Gebäude Produkt Roboter

Ein abstraktes Konzept

FG Informatik Vorlesung IM-I Verhandlung

Ein Ereignis Immatrikulation Buchungs-vorgang

Anmeldung


Attribute (Eigenschaft, property) Beschreiben die fachlichen Eigenschaften, die

allen Entitäten einer Entitätsmenge gemeinsam sind

Attribut hat Namen und Wertebereich– Name soll seiner fachlichen Bedeutung entsprechen– Wertebereich gibt die Menge aller möglichen bzw.

zugelassenen Werte für ein Attribut an


Beschreibende und identifizierende Attribute (Schlüssel)

Beschreibende Attribute beinhalten die anwendungsrelevanten Eigenschaften

Identifizierende Attribute stellen die Schlüssel zur eindeutigen Identifikation einer Entität dar

Schlüssel kann aus einem oder mehreren Attributen zusammengesetzt sein (Minimalitätseigenschaft)

falls mehrere Schlüssel möglich sind, wird einer als Primärschlüssel festgelegt


Beziehungen Beziehungen stellen Wechselwirkungen und

Abhängigkeiten zwischen Entitäten dar gleichartige Beziehungen zwischen Entitäten

werden zu Beziehungsmengen (relationship sets) zusammengefasst, auch als Assoziationen bezeichnet

Kardinalität von Beziehungen– Die Kardinalität gibt an, mit wieviel anderen Entitäten eine

Entität in einer konkreten Beziehung stehen muss bzw. kann.– Prinzipiell drei Möglichkeiten:

1:1 1:M M:N


Kardinalität - Beispiele 1:1-Assoziation

– Zwei Entitätsmengen A und B stehen zueinander in einer 1:1-Assoziation, wenn jede Entität aus A mit genau einer Entität aus B verbunden ist und umgekehrt.

– Beispiel: Ehe ist 1:1-Beziehung (westlicher Kulturkreis)

1:M-Assoziation (auch 1:N) – Zwei Entitätsmengen A und B stehen zueinander in einer 1:M-

Assoziation, wenn es zu jeder Entität aus A eine oder mehrere Entitäten in B gibt, zu jeder Entität aus B aber genau eine Entität in A existiert.

M:N-Assoziation – Es gibt zu einer Entität aus A eine oder mehrere Entitäten in B

und umgekehrt


Konditionelle Beziehungen

Zwischen zwei Entitäten MUSS keine, aber KANN eine Beziehung bestehen.– 1:C Ein PKW kann einen Tempomat haben– C:MC Bei einer Tagung kann ein Teilnehmer

Mitglied einer Firma sein oder als Privatperson teilnehmen. Die

Firma kann keinen, einen oder mehrere Teilnehmer zur Tagung schicken

– N:MC ein Kurs wird von mindestens einem (maximal N) Dozenten durchgeführt.

Ein Dozent führt 0 oder M Kurse durch.


Notation für ERM (Beispiel)

Dozent Kursführt durchN MC


Schritte bei der ER-Modellierung Festlegung der Entitäten (Synonym: Objekt) Festlegung von Eigenschaften (Attributen) und

Eigenschaftswerten Zuordnung von von Eigenschaften und

Eigenschaftswerten zu Entitäten Herstellung von Beziehungen zwischen

Entitäten

© Prof. T. Kudraß, HTWK LeipzigStammdatenmanagement (Master Data Management, MDM)

Stammdaten = Grunddaten / Referenzdaten (master data)

abgrenzbar gegenüber Bewegungsdaten (transaction data)

Kriterien zur Definition– existentielle Abhängigkeit von Bewegungsdaten– unverändert (d.h. relativ statisch) über einen

längeren Zeitraum– zustandsorientiert zur Identifikation, Klassifikation

und Charakterisierung von Sachverhalten MDM gewann neue Relevanz in SOA (data

service)


Stamm- vs. Bewegungsdaten

Stammdaten Bewegungsdaten Bestandsdaten

zeitlich invariant, ohne Zeitbezug

zeitlich variant, zumeist mit Zeitbezug

dynamisch, zeitlich variant

von mehreren Unternehmensbereichen und Anwendungen genutzt

von wenigen Anwendungen genutzt

mögliche Dimension bei OLAP

liefern Fakten bei analytischen Auswertungen, mögliche Fakten bei OLAP

liefern Fakten bei analytischen Auswertungen, mögliche Fakten

langfristige Speicherung kurz- oder mittelfristige Speicherung

langfristige Speicherung

Beispiele: Artikeldaten, Kundendaten, Stücklisten, Arbeitspläne

Beispiele: Bestellungen, Aufträge, Lieferungen

Beispiele: Lagerbestand, Kontostand


Objektorientierung Objektorientierung stellt neue Konzepte für die

Modellierung und Entwicklung von Software-Systemen zur Verfügung

– OO-Grundkonzepte Objekt ● Botschaft Klasse ● Vererbung Attribut ● Polymorphismus Operation/Methode

Vorteile:– neue Modellierungskonzepte – vereinigt Daten- und Funktionssicht– enge Verbindung zu OO Sprachen– Integrationsansatz für heterogene Systeme (distributed objects)


Objektorientierung

Objekt: Haus 2673

Haustyp:Besitzer:Adresse:Wohnfläche:Anz. der BäderSchwimmbad:Baujahr:Verkaufspreis:qm-PreisWegbeschreibung

LandhausOtto KaiserKönigsfeld400 qm3ja19952,4 Mio €

KapselungAttributeMethoden


67

Vererbung

Immobilie

BesitzerAdresseBJPreis

Einfamilienhaus

Besitzer Wohnfl.Adresse BäderBJ Gartenfl.Preis

Geschäftshaus

Besitzer BürosAdresse Parkpl.BJ AufzugPreis TG


Polymorphismus dieselbe Botschaft an Objekte verschiedener

Klassen wird unterschiedlich interpretiert

Drucken

Drucken

ObjektEFH

ObjektGH

Außenansicht

Grundriß

© Prof. T. Kudraß, HTWK LeipzigAnsätze zu Objektorientierung in Datenbanken

Objektorientierte DBMS– Entstanden durch Verbreitung von OO Programmiersprachen– Verschiedene Persistenzkonzepte– Geringe Bedeutung in der Praxis

Objektrelationale DBMS– Kombination der relationalen und OO Eigenschaften im

Datenmodell → Verwaltung komplexer Datenstrukturen (Geodaten, Biodaten)

– Basis für viele multimediale Informationssysteme

Objektrelationales Mapping– OO Sprachen (z.B. Java) mit Abstraktionsebene auf Basis

relationaler Datenbanken– Persistenz-Frameworks (Hibernate, JDO, Java Persistence

API)


Objektrelationales Mapping

Objektorientierter Zugriff auf persistente Daten Transparentes Laden und Speichern persistenter Daten Performanceverbesserung durch Objektpuffer im Hauptspeicher

DB-Anwendung

OO-DB-Mapping Spezifikation

OO-DB-Mapping-Schicht

DB-Zugriffsschicht

OO Anwendung

Datenbank

Generator

Architektur

Ziele


Dokumentendatenmodelle: XML

<..>

physische

EbeneEbene

Dokument-verarbeitung

DokumentenEntwurf von XML-

Konzeptueller

</..></..>

logischeEbene

<..>

konzeptuelle

</..><..>XML

Datenbanken

Klettke / Meyer “XML-Datenbanken“


XML und Datenbanken Speicherung von Dokumenten mit und ohne Schema

(XML Schema) Arten von Dokumenten:

– Datenorientiert (z.B. Bestellung)– Dokumentenorientiert (z.B. – Semistrukturiert (z.B. Patientenakten)

Speicherung von XML– relationale Speicherung

inhaltsorientiert (Dokumentenstruktur → DB-Struktur) Strukturorientiert (generisch mit festem DB-Schema)

– opak (CLOB)– nativ (XML-Datenbanksystem)

XML-orientierte Abfragen (XQuery)

© Prof. T. Kudraß, HTWK LeipzigDokumentendatenbankenAlternative DB-Architekturen (NoSQL)

SQL CouchDB

Festes Schema Dynamisches Schema

Tabellen von Daten, Menge, Zeilen Sammlung von Dokumenten variabler Struktur (JSON), Multisets

normalisiert denormalisiert

Objekte über mehrere Tabellen verteilt Dokumente beschreiben sich selbst

Zum Verarbeiten der Objekte muss Schema bekannt sein

Zum Verarbeiten muss nur Dokumentenname bekannt sein

Dynamische Abfragen mit statischem Schema

Statische Abfragen mit dynamischem Schema

CouchDB als Beispiel einer schemafreien Datenbank


Datenbanken in der Cloud

Cloud Storage als Ressource des Cloud Computing,

verschiedene Kategorien BLOB Storage: Virtuelles Dateisystem

– Speicherung von Text- und Binärdaten in der Cloud– Zugriff über APIs, SOAP, REST

Table Storage: BigTable-Ansatz, NoSQL-Datenbank– BigTable-Konzept (eine riesige Tabelle ohne feste Struktur)– Zugriff über SOAP & REST, APIs

(echter) DB-Server– „virtueller“ Datenbankserver zur eigenen Verwendung– übliche APIs


Ursachen für unscharfes Wissen Unwissenheit

– Fakten zwar nicht bekannt, aber ‚Normalfall‘ bekannt (Default Reasoning)

– Häufigkeitsverteilung der möglichen Werte bekannt (Stochastik)– Häufigkeitsverteilung der möglichen Werte ist nicht bekannt

(Evidenztheorie)

Ungenauigkeit, z.B. Messungenauigkeit– Intervallarithmetik zur Behandlung von Rundungsungenauigkeit

Vagheit der Begriffe– Fuzzy-Logik: Quantifizierung mit vagen oder unscharfen

Begriffen der natürlichen Sprache und Schlussfolgern über Aussagen mit diesen Begriffen


Unscharfes Wissen Impräzision:

Wissen besteht aus mehreren präzisen Alternativen

Beispiel: Herr Müller ist zwischen 30 und 40 Jahre alt. Unsicherheit (objektive Unschärfe):

Die Wahrheit einer Aussage ist nicht klar.Sowohl präzise als auch unpräzise Aussagen können unsicher sein.

Beispiel: Leipzig liegt (exakt) 113 m u. NN Vagheit (subjektive Unschärfe):

Die Aussage ist eher qualitativ.

Beispiel: Das Büro Z130 ist groß.


Beispiel für unscharfes Wissen

0 10 20 30 40 50 60 70 80 90 100 Preise

günstig mittel teuer1


Grundmodell: Information Retrieval

Autoren

Texte

Match

Anfrage

Analyse

Ergebnis

1.Dok.6 2.Dok.8 3.Dok. 78 4.Dok.99

Repräsentationen

term1, term2, term3, term4...

Repräsentation

text text text text text text text text text text text text text text text

Anwender

Anwendung undBewertung,ggf. Modifikation


Textmodellierung

Bei der strukturbezogenen Systembetrachtung sind die den Input in den Output überführenden Mechanismen zu be-stimmen und in geeigneter Form zu visualisieren.

bestimmen

Form

geeignet

Input

Mechanismus

Output

strukturbezogen

Systembetrachtung

überführen

visualisieren

Transforma-tionen

Stoppwörter


Das Matching-Paradigma des klassischen Information Retrieval (IR)

klassisches Boolesches Retrieval (mengentheoretisches Modell)

Benutzer drücken ihr Suchproblem in einer exakten Retrievalsprache aus

Verbindung von Termen und Boolescher Logik: AND, OR, NOT

Term1

Term2

Term3


Nachteile der Booleschen Systeme disjunkte Unterteilung in relevant und nicht-

relevant erwünschter Umfang schwer kontrollierbar

(keine Sortierung nach Relevanz) Benutzer haben Probleme mit der Booleschen

Logik Visualisierbarkeit


Ranking-Systeme Prinzip: Anordnung des Ergebnisses in einer

nach Relevanz (!) sortierten Reihenfolge notwendige Voraussetzung: gewichtete

Indexierung Grundlage: Vektorraummodell auf Basis von

Textstatistik Vorteile

– Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge

– Benutzer bestimmt den Abbruch (cut-off) selbst, d.h. keine Mengenprobleme

– Experimente zeigen bessere Retrievalqualität (bereits für sehr einfache Verfahren)


Grundprinzip Ranking

Einfacher Match Gewichteter Match Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1) Dok. 1 (1 1 0 1 0 1 0) Dok. 1 (2 3 0 5 0 3 0) (1 1 0 1 0 1 0)=4 (2 3 0 5 0 3 0)=13 Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1) Dok. 2 (1 0 1 1 0 0 1) Dok. 2 (2 0 4 5 0 0 1) (1 0 0 1 0 0 1)=3 (2 0 0 5 0 0 1)=8 Anfrage (1 1 0 1 0 1 1) Anfrage (1 1 0 1 0 1 1) Dok. 3 (1 0 0 0 1 0 1) Dok. 3 (2 0 0 0 2 0 1) (1 0 0 0 0 0 1)=2 (2 0 0 0 0 0 1)=3

human factors in information re-trieval systems (1 1 0 1 0 1 1)

factors information help human operation retrieval systems

Index

Anfrage

human, factors, information, retrieval (1 1 0 1 0 1 0)

human, factors, help, systems (1 0 1 1 0 0 1)

Dok. 2

factors, operation, systems (1 0 0 0 1 0 1)

Dok. 3

Dok. 1


Systemunterschiede beim IR

Retrievalmodelle (Boolesches M., Textstatistik, Linktopologisches M., Netzwerk-M., Nutzer-M.)

Indexierungsmodelle– Indexierungsvokabular: Wortindex / Phrasenindex– Informationen über Position und Dokumentstruktur

Struktur von Textdokumenten– strukturiert (z.B. CSV, XML-Output)– schwach strukturiert (Überschriften, Paragraphen)– nicht strukturiert (eher selten)

Ähnlichkeitsmaße / Abstandsfunktionen Outputform: Ranking, Relevance Feedback


Multimedia-Retrieval-Systeme Zeitungsarchive (Texte, Bilder, Fotos,

Graphiken) Rundfunkarchive (Audioarchive) Videodatenbanken chemische Strukturen Fakten diverse Mischformen (oft Ergebnis von

Integration unterschiedlicher Quellen) spezielle Ansätze, z.B. Content-Based Image

Retrieval (vgl. Bildverarbeitung)


Datenadministration Verwaltung der Daten und Funktionen unter

Berücksichtigung von Standards und internationalen Normen

Einsatz von Data-Dictionary-Systemen (Datenkatalogsystemen), um eine konsistente Verwendung von Datenobjekten zu gewährleisten

Weiterentwicklung zu Repository-Systemen


Data-Dictionary-Systeme DDS bestehen aus einem Data Dictionary und einem

Software-System– Primär: wenn explizit auf Datenkatalog-Verwaltung ausgerichtet– Sekundär: Datenkatalog-Funktionen nur Teil eines anderen

Softwaresystems

DDS ist:– Abhängig: Verwaltungsfunktionen werden von einem

bestimmten DBMS übernommen– Unabhängig: Eigene Management-Software und über

Schnittstellen zu anderen DBMS

Sie enthalten Metainformation über die in den DBS enthaltenen Daten und Anwendungsprogramme


Aufgaben und Bedeutung von DDS DDS dienen zur Konsistenzüberwachung eines

Datenbestandes Analysen ermöglichen:

– verschiedenartige Übersichten über die Datenstrukturen– Überprüfung auf Redundanz- und Widerspruchsfreiheit

Data Dictionaries entstehen in der Definitions-phase einer Anwendung und werden während des Entwurfs und der Implementierung ständig ergänzt und verfeinert.

Auswahl einer bestimmten Notation: Beschreibung der Datenstrukturen und - elemente


Beispiel: „Kunde“ in BNF

Kundendatei = {Kundeneintrag}Kundeneintrag = Personal-Nr. + Name + Adresse +

(Geburtsdatum) + (Funktion) + Umsatz

Name = Anrede + (Titel) + Vorname + Nachname

Adresse = [Straße + Haus-Nr. | Postfach-Nr.] + (Länder-Kennzeichen) + PLZ + Ort + (Telefon) + (Fax)


Beispiel „Kunde“ (Forts)

Die Kundendatei besteht aus keinem, einem oder beliebigvielen Kundeneinträgen

Ein Kundeneintrag besteht aus der Personal-Nr., dem Namen,der Adresse und dem Umsatz (Muss-Angaben). Optional sindGeburtsdatum und die Funktion (Kann-Angaben).

Bei der Adresse wird entweder die Straße und die Haus-Nr. oder die Postfach-Nr. angegeben, gefolgt von PLZ und Ort. Optional sind Länderkennzeichen, Telefon- und Fax-Nummer.


Repository-Systeme Anwendungen

– Systementwicklung und Software-Reengineering– Content-Management– Service-Repository / Registry / Directory– IT-Infrastrukturmanagement

(Konfigurationsdatenbank, ITIL)

Systeme– Artifactory Maven Enterprise Repository (für

firmenweite Repositories) – CentraSite (SOA Repository der Software AG)

Documents

Daten- und Prozessmanagement - Datenmodellierung -