36
Institut für Angewandte Trainingswissenschaft Leipzig ein Institut des Trägervereins IAT / FES des DOSB e.V. Dr Dirk Meusel [email protected] Die Analyse großer Datensätze mittels freier Datenbanksysteme

Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.

Dr Dirk [email protected]

Die Analyse großer Datensätzemittels freier Datenbanksysteme

Page 2: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Autor: Titel Vortragstitel, Gliederungspunkt, Helvetica 12 1.12.2005

mySQL:

Die Analyse empirischer Daten ist ein wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften. Datenbanksysteme sind ein wichtiges Mittel zur redundanzfreien Darstellung und Verwaltung empirischer Daten.

Ferner sind Datenbanksysteme eine Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. in der Epidemiologie oder Demografie). In der Lehrveranstaltung werden die folgenden Datenbankkonzepte vorgestellt: relationale Datenmodellierung, Datenverknüpfung mittels strukturierter Abfragen (SQL), Datenauswertungen, Datenimport/-export (bspw. in Statistikprogramme).

Diese Konzepte werden am Beispiel frei verfügbarer Datenbanksysteme illustriert (MySQL, MS SQL Server Express 2005).

Page 3: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Populationsbezogene Messung körperlicher Aktivität – das ALPHA Projekt 12. Juni 2007

Gliederung

• Datenbanken/Datenbanksysteme allgemein

• SQL

• MySQL vs. Microsoft SQL Express– Installation– mögliche FrontEnds

• Beispiele an Daten

• Datenexport

Page 4: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken?

• Was ist eine Datenbank?

Patienten Scheine

Rezepte

Diagnosen ICDkatalog

Rezept-posten

ATCkatalog

Page 5: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken?

• Redundanzfreie Darstellung der Daten• Relationale Bezüge von Daten untereinander• Unterschiedliche Sichten • Große Datenmengen

• Datensicherungsstrategien• Datenintegrität (Transaktion und Rollback)

• Viele Nutzer– Daten lesen– Daten schreiben/ändern[- Daten löschen]

Page 6: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Warum Datenbanken in den Sozialwissenschaften?

• Analyse empirischer Daten = wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften

• redundanzfreien Darstellung und Verwaltung empirischer Daten (zwischen Eingabe und statistischer Auswertung)

• Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. Vollerhebungen in der Epidemiologie oder Demografie)

Page 7: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Datenbank

Warum Datenbanken in den Sozialwissenschaften?

Frontend

(OpenOffice, MS Access)

Dateneingabe, Datenmanagement, Benutzerverwaltung

Datennutzer

(Statistikprogramm R, SPSS, MS Access, MS Excel, )

Datenanalyse

Page 8: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

SQL – Structured Querying Language

• Strukturierte Abfragesprache– Alle Aspekte der Datenbankverwaltung

• Hauptkomponenten: – Data Definition Language

– Data Manipulation Language– Administration

• Verschiedene Dialekte– T-SQL, Jet-SQL (VisualBasic orientiert)– MySQL– …

Page 9: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Vergleich MySQL Server und MS SQL Server

MySQL Server

+ auf den meisten Plattformen verfügbar (per ODBC)

+ voll ausgereiftes Datenbanksystem ohne Limitationen (kann große Datenmengen bedienen)

+ wird von vielen OpenSource Systemen verwendet (PHP Websitesysteme, Open Office

+ große Entwicklergemeinde

-/+ eigene Benutzerverwaltung

- langwierigere Installation- weniger gut ausgereifte

Entwicklerwerkzeuge = langsamere Entwicklung

MS SQL Server

+ nutzt WINDOWS Authentifizierung+ schnell installiert (auf WINDOWS

Rechnern)+ einfach und schnell bedienbar

+ umfangreiches und mächtiges Verwaltungswerkzeug

+ kostenfreie Entwicklerwerkzeuge (VisualBasic.NET, Webdeveloper.NET…)

+ frei weitervertreibbar

+ mit MS ACCESS steuerbar

- begrenzt auf WINDOWS Welt

- nicht Quelltextoffen, nur kostenlos- limitiert auf 1 CPU mit max. 1GB RAM,

mit 4 GB maximaler Datenbankgröße

Page 10: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS SQL Server Express 2005 • http://www.microsoft.com/germany/msdn/vstudio/products/express/sql/default.mspx• http://www.microsoft.com/germany/msdn/vstudio/products/express/download.mspx

• Installation:– SQL Server 2005 Express– Benutzer mit lokalen Administrationsrechten

Page 11: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS SQL Server Oberflächenkonfiguration

Page 12: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

• http://www.microsoft.com/downloads/details.aspx?FamilyID=c243a5ae-4bd1-4e3d-94b8-5a0f62bf7796&DisplayLang=de

• Installation:– Microsoft SQL Server Management Studio Express

Microsoft SQL Server Management Studio Express

Page 13: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Microsoft SQL Server Management Studio Express

Page 14: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Microsoft SQL Server Management Studio Express

Page 15: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS Access als FrontEnd

Page 16: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MS Access als FrontEnd

Page 17: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Server

• http://dev.mysql.com/downloads/• Installation:

– MySQL Community Server– Konfiguration des Servers (Wizard)

• Standardeinstellungen

• TCP/IP 3306• root – Passwort (superuser)

– Kommandozeilenunterstützung

Page 18: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Server GUI Tools

• http://dev.mysql.com/downloads/gui-tools/5.0.html

• Installation (Wizard)• MySQL Administrator• MySQL Query Browser

Page 19: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator

• Verbindung einrichten

Page 20: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator

Page 21: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Benutzer anlegen

Page 22: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Datenbank erstellen

Page 23: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Administrator – Tabelle erstellen

Page 24: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Connectors

• http://dev.mysql.com/downloads/connector/

• ODBC Treiber– Open DataBase Connectivity– Installation (Wizard)

Page 25: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Connection with OpenOffice Base

Page 26: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Setup einer ODBC Datenquelle

Page 27: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Setup einer ODBC Datenquelle

Page 28: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Page 29: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Page 30: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Auswahl der ODBC Datenquelle

Page 31: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL OpenOffice Base Tabellendesigner

Page 32: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

MySQL Dokumentation

• http://downloads.mysql.com/docs/refman-4.1-en.a4.pdf

Page 33: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele an Daten

• Datendefinition

• Dateneingabe

• Datensichten

• Datenexport

• Datenzusammenfassungen

Page 34: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele Datenexport

• Datenabfrage von R nach MySQL• Systemsteuerung>Verwaltung>ODBC Datenquellen• Neue DSN erstellen• In R package RODBC verwenden

RMySQLODBC

SPSS

Page 35: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Beispiele Datenexport

Script in R ausführen:

library(RODBC)

con = odbcConnect("PharmEpi auf MySQL“)daten = sqlFetch(con,"Patienten")ls()datenSummary(daten)

ScheinePatienten = sqlQuery(con,"Select * From patienten INNER JOIN scheine ON …(patienten.VersichertenNummer = scheine.Versichertennummer)")

ls()ScheinePatientensummary(ScheinePatienten)

RMySQLODBC

SPSS

Page 36: Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

Institut für Angewandte Trainingswissenschaft Leipzigein Institut des Trägervereins IAT / FES des DOSB e.V.

Dr Dirk Meusel

Institut für Angewandte TrainingswissenschaftFachbereich Forschungstechnologie

Telefon: +49 341 4945 143E-Mail: [email protected]: http://www.iat.uni-leipzig.de/

Vielen Dank für Ihre Aufmerksamkeit!