131
Fachbereich 4: Informatik Data Mining im Fußball Masterarbeit zur Erlangung des Grades einer Master of Science (M.Sc.) im Studiengang Informatik vorgelegt von Christoph Maiwald Erstgutachter: Prof. Dr. Ulrich Furbach Universit¨ at Koblenz-Landau Zweitgutachter: Dipl.-Inform. Markus Maron Universit¨ at Koblenz-Landau Koblenz, im September 2013

Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

  • Upload
    lykhue

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Fachbereich 4: Informatik

Data Mining im Fußball

Masterarbeitzur Erlangung des Grades einer Master of Science (M.Sc.)

im Studiengang Informatik

vorgelegt von

Christoph Maiwald

Erstgutachter: Prof. Dr. Ulrich FurbachUniversitat Koblenz-Landau

Zweitgutachter: Dipl.-Inform. Markus MaronUniversitat Koblenz-Landau

Koblenz, im September 2013

Page 2: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Erklarung

Ich versichere, dass ich die vorliegende Arbeit selbstandig verfasst und keine anderenals die angegebenen Quellen und Hilfsmittel benutzt habe.

Ja Nein

Mit der Einstellung der Arbeit in die Bibliothek bin ich einverstanden. � �

Der Veroffentlichung dieser Arbeit im Internet stimme ich zu. � �

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .(Ort, Datum) (Unterschrift)

ii

Page 3: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Zusammenfassung

Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-matisch aus einer großen Menge von Daten zu extrahieren. Im Fußball werden seit derSaison 2011/2012 umfangreiche Daten der Spiele der 1. und 2. Bundesliga aufgenom-men und gespeichert. Hierbei werden bis zu 2000 Ereignisse pro Spiel aufgenommen.

Es stellt sich die Frage, ob Fußballvereine mithilfe von Data Mining nutzliches Wis-sen aus diesen umfangreichen Daten extrahieren konnen.

In der vorliegenden Arbeit wird Data Mining auf die Daten der 1. Fußballbundesli-ga angewendet, um den Wert bzw. die Wichtigkeit einzelner Fußballspieler fur ihrenVerein zu quantifizieren. Hierzu wird der derzeitige Stand der Forschung sowie diezur Verfugung stehenden Daten beschrieben. Im Weiteren werden die Klassifikation,die Regressionsanalyse sowie das Clustering auf die vorhandenen Daten angewendet.Hierbei wird auf Qualitatsmerkmale von Spielern, wie die Nominierung eines Spie-lers fur die Nationalmannschaft oder die Note, welche Spieler fur ihre Leistungen inSpielen erhalten eingegangen. Außerdem werden die Spielweisen der zur Verfugungstehenden Spieler betrachtet und die Moglichkeit der Vorhersage einer Saison mithilfevon Data Mining uberpruft. Der Wert einzelner Spieler wird mithilfe der Regressions-analyse sowie einer Kombination aus Cluster- und Regressionsanalyse ermittelt.

Obwohl nicht in allen Anwendungen ausreichende Ergebnisse erzielt werdenkonnen zeigt sich, dass Data Mining sinnvolle Anwendungsmoglichkeiten im Fußballbietet. Der Wert einzelner Spieler kann mithilfe der zwei Ansatze gemessen werdenund bietet eine einfache Visualisierung der Wichtigkeit eines Spielers fur seinenVerein.

Schlagworter: Datenanalyse, Sport, Klassifikation, Clustering, Regression

iii

Page 4: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abstract

The term Data Mining is used to describe applications that can be applied to extractuseful information from large datasets. Since the 2011/2012 season of the german soc-cer league, extensive data from the first and second Bundesliga have been recordedand stored. Up to 2000 events are recorded for each game.

The question arises, whether it is possible to use Data Mining to extract patternsfrom this extensive data which could be useful to soccer clubs.

In this thesis, Data Mining is applied to the data of the first Bundesliga to mea-sure the value of individual soccer players for their club. For this purpose, the stateof the art and the available data are described. Furthermore, classification, regressionanalysis and clustering are applied to the available data. This thesis focuses on qua-litative characteristics of soccer players like the nomination for the national squad orthe marks players get for their playing performance. Additionally this thesis considersthe playing style of the available players and examines if it is possible to make predic-tions for upcoming seasons. The value of individual players is determined by usingregression analysis and a combination of cluster analysis and regression analysis.

Even though not all applications can achieve sufficient results, this thesis showsthat Data Mining has the potential to be applied to soccer data. The value of a playercan be measured with the help of the two approaches, allowing simple visualizationof the importance of a player for his club.

Keywords: Data analysis, Sports, Classification, Clustering, Regression

iv

Page 5: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Inhaltsverzeichnis

Abbildungsverzeichnis vii

Tabellenverzeichnis viii

Abkurzungsverzeichnis ix

1 Einleitung 1

2 Grundlagen des Data Mining 32.1 Der KDD-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Data Mining Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Klassifikation und Regression . . . . . . . . . . . . . . . . . . . . . 52.2.1.1 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . 52.2.1.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.1.3 Qualitat der Vorhersage messen . . . . . . . . . . . . . . 8

2.2.2 Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Weitere Data Mining Verfahren . . . . . . . . . . . . . . . . . . . . 10

2.3 Verwendete Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Stand der Forschung 123.1 Anwendungen der Datenanalyse im Fußball . . . . . . . . . . . . . . . . 133.2 Differenzierung der Spielweisen von Fußballmannschaften . . . . . . . . 153.3 Clusteranalyse zur Kategorisierung von Spielern . . . . . . . . . . . . . . 173.4 Der beste Zeitpunkt fur eine Einwechslung . . . . . . . . . . . . . . . . . 193.5 Vorhersage von Spielausgangen . . . . . . . . . . . . . . . . . . . . . . . . 213.6 Kombination aus Cluster- und Regressionsanalyse . . . . . . . . . . . . . 24

4 Datengrundlage 28

5 Anwendungen des Data Mining im Fußball 365.1 Wer wird der nachste Nationalspieler? . . . . . . . . . . . . . . . . . . . . 36

5.1.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.2 Klassifikation von Nationalspielern . . . . . . . . . . . . . . . . . 415.1.3 Einsatz und Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . 47

5.2 Die Notenvergabe im Fußball . . . . . . . . . . . . . . . . . . . . . . . . . 505.2.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2.2 Aufstellung des Regressionsmodells . . . . . . . . . . . . . . . . . 535.2.3 Implikationen fur den realen Einsatz . . . . . . . . . . . . . . . . . 59

5.3 Einteilung von Teams und Spielern in homogene Gruppen . . . . . . . . 615.3.1 Clusteranalyse von Mannschaften . . . . . . . . . . . . . . . . . . 62

5.3.1.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . 625.3.1.2 Durchfuhrung der Clusteranalyse . . . . . . . . . . . . . 63

5.3.2 Clusteranalyse von Spielern . . . . . . . . . . . . . . . . . . . . . . 695.3.2.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . 695.3.2.2 Durchfuhrung der Clusteranalyse . . . . . . . . . . . . . 71

5.3.3 Implikationen fur den realen Einsatz . . . . . . . . . . . . . . . . . 775.4 Vorhersage der nachsten Saison . . . . . . . . . . . . . . . . . . . . . . . . 78

5.4.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.4.2 Durchfuhrung der Prognose . . . . . . . . . . . . . . . . . . . . . 81

5.4.2.1 Punkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.4.2.2 Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

v

Page 6: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

5.4.3 Einschatzung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . 90

6 Die Wichtigkeit eines Spielers messen 926.1 Verwendung der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . 926.2 Kombination aus Clustering und Regression . . . . . . . . . . . . . . . . 946.3 Wie wichtig ist ein Spieler? . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7 Die Zukunft des Data Mining im Fußball 105

Anhang 107

Literaturverzeichnis 118

vi

Page 7: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildungsverzeichnis

1 Der KDD-Prozess [41, S. 3] . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Beispiel eines Entscheidungsbaums . . . . . . . . . . . . . . . . . . . . . 63 Schema eines neuronalen Netzes in Anlehnung an [51, S.17] . . . . . . . 84 Beispiel Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Opta Attribute [48, S. 6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Wechselstrategie von Myers in Anlehnung an [45, S. 11] . . . . . . . . . . 207 Einfluss der Attribute auf den Spielausgang [32, S. 178] . . . . . . . . . . 228 Beispiel 6 Basketballspiele [38, S. 3] . . . . . . . . . . . . . . . . . . . . . . 239 Spielstatistik fussballdaten.de . . . . . . . . . . . . . . . . . . . . . . . . . 3110 ETL-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3211 Nationalspieler fussballdaten.de . . . . . . . . . . . . . . . . . . . . . . . 3512 Datenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3513 Pseudocode Ballkontakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3814 Pseudocode Zweikampf . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3815 SQL Nationalspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3816 Datengrundlage SpielerProSaison . . . . . . . . . . . . . . . . . . . . . . . 3917 Verteilung der Noten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5218 Datengrundlage Noten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5319 Pseudocode Aggregation von Vereinen . . . . . . . . . . . . . . . . . . . 6320 Pseudocode Spielerattribute . . . . . . . . . . . . . . . . . . . . . . . . . . 7021 Pseudocode Aggregation von Vereinen mit Gewicht . . . . . . . . . . . . 8022 Kopie der Tabelle Fakten mit Transfers . . . . . . . . . . . . . . . . . . . . 8123 SQL SpielerProSaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10824 SQL Spielernoten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11025 SQL Verein pro Runde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11026 SQL Spieler pro Runde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11227 SQL Verein pro Runde gewichtet . . . . . . . . . . . . . . . . . . . . . . . 11428 SQL Clusteredspieler pro Verein . . . . . . . . . . . . . . . . . . . . . . . 116

vii

Page 8: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabellenverzeichnis

1 Durchschnittliche Klassifikatonsraten in Anlehnung an [38, S. 13] . . . . 242 Ergebnisse der Kombination in Anlehnung an [7, S. 138] . . . . . . . . . 273 Beispiel IMPIRE AG Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 Statistik Fakten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Statistik SpielerProSaison . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 Statistik Nationalspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 Wahrheitsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 Datensatz 1: Ergebnisse Tests . . . . . . . . . . . . . . . . . . . . . . . . . 449 Datensatz 1: Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4510 Datensatz 2: Ergebnisse Tests . . . . . . . . . . . . . . . . . . . . . . . . . 4611 Datensatz 2: Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4712 Klassifizierte Spieler in der Abwehr . . . . . . . . . . . . . . . . . . . . . 4813 Klassifizierte Spieler im Mittelfeld . . . . . . . . . . . . . . . . . . . . . . 4914 Klassifizierte Spieler im Angriff . . . . . . . . . . . . . . . . . . . . . . . . 4915 Ergebnisse Note . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5416 Attribute fur die Abwehr gegenubergestellt . . . . . . . . . . . . . . . . . 5517 Attribute fur das Mittelfeld gegenubergestellt . . . . . . . . . . . . . . . . 5618 Attribute fur den Angriff gegenubergestellt . . . . . . . . . . . . . . . . . 5719 Spieler mit den besten Noten der Saison 2011 . . . . . . . . . . . . . . . . 6020 Matrix Cluster Mannschaften . . . . . . . . . . . . . . . . . . . . . . . . . 6421 Cluster Mannschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6522 Matrix Cluster Abwehr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6623 Tabelle Cluster Abwehr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6724 Matrix Cluster Mittelfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6725 Tabelle Cluster Mittelfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . 6826 Matrix Cluster Angriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6827 Tabelle Cluster Angriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6928 Cluster Abwehrspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7229 Zuordnung der Cluster der Abwehrspieler . . . . . . . . . . . . . . . . . 7330 Cluster Mittelfeldspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7431 Zuordnung der Cluster der Mittelfeldspieler . . . . . . . . . . . . . . . . 7432 Cluster Angreifer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7633 Zuordnung der Cluster der Angreifer . . . . . . . . . . . . . . . . . . . . 7634 RSME der Regressionsanalyse fur die Prognose . . . . . . . . . . . . . . . 8235 Ergebnisse der Prognose der Punkte ohne Spieler . . . . . . . . . . . . . 8336 Lineare Regression: Prognose der Punkte fur die Saison 2011 . . . . . . . 8637 SMOreg: Prognose der Punkte fur die Saison 2011 . . . . . . . . . . . . . 8638 Klassifikationsraten fur das Training der Prognose . . . . . . . . . . . . . 8739 Klassifikationsraten der Prognose . . . . . . . . . . . . . . . . . . . . . . . 8740 Prognosen der Klassifikation aller Methoden . . . . . . . . . . . . . . . . 8841 Prognose der Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . 8942 Spielercluster Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9443 Die Zehn besten Punktelieferanten 2010 . . . . . . . . . . . . . . . . . . . 9744 Die Zehn besten Punktelieferanten 2011 . . . . . . . . . . . . . . . . . . . 9745 Zusammenfassung der Mannschaft der Saison 2010 . . . . . . . . . . . . 10046 Zusammenfassung der Mannschaft der Saison 2011 . . . . . . . . . . . . 10147 Uberdurchschnittliche Spieler der Saison 2010 . . . . . . . . . . . . . . . 10248 Uberdurchschnittliche Spieler der Saison 2011 . . . . . . . . . . . . . . . 103

viii

Page 9: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abkurzungsverzeichnis

EM Expectation-Maximization

KDD Knowledge Discovery in Databases

RMSE Root Mean Squared Error

SQL Structured Query Language

VDV Vereinigung der Vertragsfußballspieler

Weka Waikato Environment for Knowledge Analysis

ix

Page 10: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

1 Einleitung

Bereits 1982 schrieb der Zukunftsforscher John Naisbitt in seinem Buch ”Megatrends”:

”We are drowning in information and starved for knowledge” [46]. Ein Satz der in derheutigen Zeit noch mehr an Bedeutung gewinnt. In der Epoche des Informationszeit-alters fallen immer mehr Daten an. Im Jahr 2010 ist das weltweite Datenvolumen auf1,2 Zettabyte gestiegen [19, S. 1]. Dies entspricht rund 1.2 Billionen Gigabyte. Lauteiner Studie verdoppelt sich dieses Datenvolumen bis zum Jahr 2020 etwa alle zweiJahre [20, S. 1]. Wir ertrinken in der derzeitigen Datenmenge und stehen vor der Auf-gabe aus diesen Daten nutzliches Wissen zu extrahieren. Ein Ansatz zum Wissens-gewinn aus einer großen Menge von Daten stellt die Anwendung von Data Miningdar. Data Mining ist die Auswahl geeigneter Verfahren und Algorithmen sowie derenAnwendung auf große Datenmengen, um Wissen automatisch aus diesen Daten zuextrahieren.

Seit der Saison 2011/2012 werden die Spieler der Fußballbundesliga mithilfe mehre-rer im Stadion angebrachter Kameras verfolgt und ihr Laufverhalten statistisch erfasst.Wahrend eines Spiels werden dem Fernsehzuschauer so beispielsweise die gelaufe-nen Kilometer eines Spielers prasentiert. Zur Saison 2011/2012 gab es von der DFL ei-ne Ausschreibung zur offiziellen Erhebung aller Spielaktionen, wie Zweikampfe oderBallkontakte der 1. und 2. Bundesliga. Seit dieser Saison werden die Daten offiziellvon einer externen Firma erfasst und bereitgestellt. In einem Spiel werden dabei biszu 2000 Ereignisse aufgenommen [29]. Der enorme Anstieg des Datenvolumens haltsomit auch im deutschen Fußball seinen Einzug. Statistiken uber einzelne Elemen-te des Fußballs werden jetzt schon den Trainern, Spielern oder Fans von Vereinenprasentiert. So wird etwa der Ballbesitz oder die Anzahl an Ecken bzw. Torschussender Gegner eines Spiels gegenubergestellt. Durch eine großere Datenmenge wird inZukunft auch das Bedurfnis der automatischen Extraktion von Wissen aus diesen Da-ten gerade von Verantwortlichen der Vereine steigen.

In der Saison 2011/2012 wurden von den Bundesligavereinen insgesamt rund 296Millionen Euro in Spielertransfers investiert, was einem Anteil von 14,61 % allerAusgaben entspricht [14]. Damit wird ein großer Teil der Gelder von Vereinen inneue Spieler investiert. Spieler werden von Vereinen verpflichtet, um die Leistungder Mannschaft zu steigern. Je hoher die Ablose und das Gehalt eines Spielers, de-sto mehr verspricht sich der Verein eine Leistungssteigerung der Mannschaft. DieHohe der Ablosesumme eines Spielers sowie sein Gehalt spiegeln demnach den Wertdes Spielers fur einen Verein wieder. Da viele Parteien an Verhandlungen uber dieAblosesummen beteiligt sind, kann anhand der Hohe dieser Summen nicht direkt aufden Wert eines Spielers geschlossen werden. Doch wie kann ein solcher Wert einesSpielers gemessen werden? Lasst sich mithilfe umfangreicher Daten von Spielern un-ter Zuhilfenahme komplexer Datenanalyse, wie dem Data Mining der Wert bzw. dieWichtigkeit eines Spielers fur seinen Verein quantifizieren? Dieser Frage soll im Laufedieser Arbeit nachgegangen werden.

Der Wert eines Spielers fur einen Verein kann aus verschiedenen Blickpunkten er-folgen. So spielt unter anderem die Sympathie eines Spielers eine wichtige Rolle.Ein Spieler, der eine gewisse Ausstrahlungskraft besitzt, kann Sponsoren oder Fansfur einen Verein motivieren, sich diesem anzuschließen. Somit hat ein Spieler, ne-ben seiner fußballerischen Qualitat auch einen wirtschaftlichen Wert fur einen Ver-ein. Der wirtschaftliche Wert soll in dieser Arbeit jedoch nicht betrachtet werden. Essoll nur die reine physische Leistung eines Spielers innerhalb den Bundesligaspielenberucksichtigt werden.

In dieser Arbeit soll der Fokus auf den offensichtlichsten Wert eines Spielers fur eine

1

Page 11: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Mannschaft gelegt werden, namlich den von ihm erspielten Punkten. Das heißt, dieseArbeit orientiert sich daran die Punkte zu erfassen, die ein einzelner Spieler zu derGesamtpunktzahl seiner Mannschaft innerhalb einer Saison beitragt. Da der Erfolgeiner Mannschaft am Ende der Saison von den erspielten Punkten der Mannschaftabhangt, kann von einer Aussage uber die Punkte, die ein einzelner Spieler zu derGesamtleistung der Mannschaft beitragt auf seine Wichtigkeit fur den entsprechendenVerein geschlossen werden.

Neben dieser Kennzahl, konnen die Nominierung zum Nationalspieler oder die vonexternen Beobachtern vergebene Note fur die Leistung in einem Spiel weitere Qua-litatsmerkmale eines Spielers sein. Außerdem kann entscheidend sein, wie sich dieSpielweise eines Spieler in das vorhandene Potential einer Mannschaft einfugt. Inner-halb dieser Arbeit wird auch auf solche Merkmale eines Spielers geachtet.

Um den Wert der Spieler zu messen, liegen dieser Arbeit Daten uber zwei Saisonsder 1. Fußballbundesliga vor. Unter dem ausgewahlten Einsatz von Data Mining Ver-fahren soll versucht werden mittels mehrerer beispielhafter Anwendungen die Wich-tigkeit einzelner Spieler zu messen.

Nach dieser Einleitung wird in Kapitel 2 auf die Grundlagen des Data Minings ein-gegangen sowie der Prozess zur Wissensfindung in Daten beschrieben.

Einen Einblick in den derzeitige Forschungsstand der komplexen Datenanalyse imSport und vor allem im Fußball wird in Kapitel 3 gewahrt. Hierzu wird zunachst derStand der Analysen im Fußball sowie der Stand der Forschung in anderen Sportartengegenubergestellt. Anschließend werden einzelne ausgewahlte Artikel zusammenge-fasst, um dem Leser eine Vorstellung uber den derzeitigen Forschungsstand zu geben.

Kapitel 4 stellt die Daten vor, auf denen die Analysen in dieser Arbeit basieren.Hierzu liegen die Daten uber die Saison 2010/2011 sowie 2011/2012 vor. Es wird da-bei grundlegend auf die Aufnahme von Daten im Fußball und deren Verfugbarkeiteingegangen. Zusatzlich werden die hier zur Verfugung stehenden Daten beschrie-ben. Zum Abschluss dieses Kapitels wird die Struktur der endgultigen Datenbasisdargestellt.

In Kapitel 5 werden ausgewahlte Data Mining Verfahren auf die beschriebenen Da-ten angewendet. Hierzu wird in Kapitel 5.1 ein Versuch unternommen, Nationalspie-ler vorherzusagen. Der Fokus liegt hier auf der Entdeckung von Spielern, die Natio-nalspielerniveau besitzen, jedoch von Nationaltrainern bei der Nominierung des Na-tionalkaders nicht berucksichtigt werden. Kapitel 5.2 beschaftigt sich mit der Vergabevon Noten fur die Leistung von Spielern in einzelnen Spielen. Hier wird Data Miningzur Beschreibung der Beziehungen zwischen den Spielaktionen von Spielern und dererhaltenen Note benutzt. Kapitel 5.3 nutzt Data Mining um die Spieler in homogeneGruppen zu unterteilen und so die Spielweise einzelner Spieler zu beschreiben. DerEinsatz von Data Mining zur Vorhersage einer zukunftigen Saison mittels Data Mi-ning wird in Kapitel 5.4 uberpruft.

Kapitel 6 geht gezielt auf die Eingangsfrage ein. Hier werden die erhaltenen Er-kenntnisse aus dem vorangegangen Kapitel zur Messung der Qualitat einzelner Spie-ler herangezogen und eine Kombination zweier Data Mining Verfahren verwendet,um den Anteil der erspielten Punkte einzelner Spieler zur Gesamtpunktzahl ihrerMannschaft zu ermitteln.

Die Arbeit endet mit Kapitel 7. Hier wird dargestellt, welche Ergebnisse hinsichtlichder aufgeworfenen Frage erzielt worden sind und wie diese erreicht wurden. Es wirderortert, ob die Anwendung von Data Mining Methoden im Fußball den Verantwort-lichen von Vereinen im Allgemeinen helfen kann und im Besonderen, ob die Messungder Wichtigkeit einzelner Spieler sinnvoll umgesetzt werden kann.

2

Page 12: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

2 Grundlagen des Data Mining

Das folgende Kapitel soll die Grundlagen beschreiben, auf denen die in dieser Arbeitverwendeten Data Mining Verfahren basieren. Hierbei werden zunachst die Begrif-fe Data Mining, Knowledge Discovery in Databases (KDD) und Machine Learningthematisiert. Anschließend werden einzelne Data Mining Verfahren, wie die Klassifi-kation, die Regression und das Clustering beschrieben.

Data Mining ist der Kernschritt des in Abschnitt 2.1 beschriebenen KDD Prozesses[41, S. 1]. Als Data Mining wird der automatisierte bzw. semi-automatisierte Prozessbezeichnet, welcher nutzliche Muster in Daten findet. Laut Fayyad, Piatetsky-Shapiround Uthurusamy [16] ist Data Mining die reine Anwendung von Algorithmen, umMuster aus Daten zu extrahieren, wahrend KDD den gesamten Prozess bezeichnet,um nutzliches Wissen in Daten zu identifizieren. Die Autoren definieren in dem Ar-tikel KDD als den nicht-trivialen Prozess um valide, neue, potentiell nutzliche undverstandliche Muster in Daten zu finden [16, S.6]. Haufig wird in der Literatur KDDund Data Mining als Synonym verwendet.

Ein weiterer Begriff, der in diesem Zusammenhang haufig auftritt ist der Term Ma-chine Learning. Machine Learning ist ein Computer System, welches seine Leistungsteigert, indem es aus Erfahrungen lernt [44, S. 2]. Dabei basieren die Data MiningMethoden u.a. auf den Konzepten des Machine Learnings [16, S. 12]. Oft werden Da-ta Mining und Machine Learning jedoch als Synonyme verwendet. In dieser Arbeitwird im Folgenden zur Vereinfachung nur der Begriff Data Mining verwendet undder Begriff Machine Learning ausgelassen.

Data Mining wird in dieser Arbeit als Begriff fur die Schritte 5 bis 7 des im nachfol-genden Abschnittes vorgestellten KDD-Prozesses verstanden. Dies sind die Schritte,welche die Auswahl der Data Mining Verfahren, die Auswahl der verwendeten DataMining Methoden bzw. Algorithmen und die Anwendung der Algorithmen auf dieDaten beinhalten.

2.1 Der KDD-Prozess

Der KDD-Prozess ist der organisierte Prozess um valide, neue, nutzliche undverstandliche Muster aus großen und komplexen Datensatzen zu finden [41, S. 1].Er besteht aus neun aufeinanderfolgenden Schritten. Der Prozess ist in Abbildung 1dargestellt.

Eine detaillierte Beschreibung des KDD-Prozesses und der Schritte geben Maimonund Rokach [41]. Nachfolgend sollen die Schritte des Prozesses kurz beschrieben wer-den.

Der Prozess startet mit der Vorbereitung auf die nachfolgenden Schritte. Hier solldie Domane bzw. der Bereich verstanden werden in dem der Prozess ablaufen sollsowie die Ziele des gesamten Prozesses definiert werden.

Der zweite Schritt beinhaltet die Sammlung der Daten. Hier soll herausgefundenwerden, welche Daten zum Erreichen des Ziels benotigt werden und mit welchenzusatzlichen Daten diese Basis erweitert werden kann. Es sollen somit alle Daten ge-sammelt werden, die fur den Prozess wichtig sind.

Schritt 3 beinhaltet die Vorbereitung sowie die Bereinigung der Daten. Das bedeu-tet, die Daten werden untersucht und zum Beispiel fehlende Werte erganzt. SofernRauschen in der Datenbasis zu finden ist, also Daten welche die vorhandene Basisverfalschen, soll dieses entfernt werden.

Schritt 4 ist zur Datentransformation notig. Hier werden die Daten fur das Data Mi-ning vorbereitet, wie die Auswahl geeigneter Eigenschaften (features) oder die Um-wandlung der Attribute, wie die Standardisierung oder Normalisierung.

3

Page 13: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 1: Der KDD-Prozess [41, S. 3]

Wie in Abbildung 1 erkennbar ist, beinhalten die Schritte 5, 6 und 7 das eigentlicheData Mining. Entsprechend der definierten Ziele, wie die Vorhersage von Dingen oderdie Identifikation unbekannter Strukturen, wird in Schritt 5 das geeignete Data MiningVerfahren ausgewahlt. Dabei handelt es sich beispielsweise um die Klassifikation, dieRegression oder das Clustering.

In Schritt 6 wird der Data Mining Algorithmus ausgesucht, welcher zum Einsatzkommen soll. Dabei gibt es mehrere spezifische Algorithmen, die eingesetzt werdenkonnen. Zum Beispiel kann innerhalb der Klassifikation das neuronale Netzwerk oderEntscheidungsbaume wie der J48graft Algorithmus zum Einsatz kommen. Beim letz-ten Schritt innerhalb des Data Minings wird der Algorithmus auf die Daten angewen-det. Hier wird der Algorithmus meist mehrmals mit verschiedenen Parametereinstel-lungen durchgefuhrt bis ein zufriedenstellendes Ergebnis erreicht ist.

Schritt 8 beinhaltet die Evaluation der erkannten Muster im Hinblick auf die defi-nierten Ziele. Es wird erortert, ob die Ergebnisse nutzlich und nachvollziehbar sind.Um den Prozess abzuschließen wird im letzten Schritt das erhaltene Wissen benutzt,um das definierte Ziel zu erreichen. Beispielsweise kann das Wissen fur Handlungenin der Zukunft bereitgestellt werden.

Innerhalb der Schritte kann jederzeit zu einem vorangegangenen Schrittzuruckgesprungen werden. Dies ist dann notig, wenn beispielsweise zusatzliche Da-ten zur Losung des Problems notwendig sind oder eine veranderte Transformationfur die Anwendung notig ist.

Nach dem KDD-Prozess orientieren sich die Anwendungen zur Wissensfindung,die in dieser Arbeit vorgestellt werden. Dabei wird die Sammlung der Daten in Ka-pitel 4 beschrieben. In den Abschnitten des Kapitels 5 wird jeweils auf die Problem-stellungen eingegangen, die Datenvorbereitung und -transformation beschrieben, dasgeeignete Data Mining Verfahren ausgewahlt sowie geeignete Algorithmen selektiertund angewendet. Zum Abschluss jeden Abschnitts werden die Ergebnisse evaluiertund das Potenzial fur einen Einsatz in der Realitat eingeschatzt.

4

Page 14: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

2.2 Data Mining Verfahren

Nachdem Data Mining im Allgemeinen und der KDD-Prozess im Speziellen beschrie-ben wurden, sollen nun die in dieser Arbeit verwendeten Data Mining Verfahren vor-gestellt werden.

Insgesamt unterscheidet man beim Data Mining zwei Typen von Anwendungen.Einerseits ist dies die Anwendung, welche sich auf die Vorhersage von Werten kon-zentriert und andererseits die Anwendung, welche auf die Beschreibung von unbe-kannten Mustern in den Daten fokussiert ist. Eine zweite Einteilung der Anwendun-gen, die mit dieser Einteilung eng verwandt ist, ist die Einteilung in supervised undunsupervised learning. Beim supervised learning handelt es sich um die Methode,die Beziehungen zwischen einer oder mehreren Eingangsgroßen und einem Zielwertidentifiziert [41, S. 7]. Der Zielwert ist dabei bekannt, weshalb die Anwendung alssupervised bezeichnet wird. Oft wird mithilfe der Beschreibung der Beziehungen ver-sucht Zielwerte von Daten deren Eingangsgroßen bekannt sind aber die Ausgangs-große unbekannt ist zu ermitteln. Data Mining kann hier jedoch auch zur Identifikati-on von Mustern innerhalb der Daten hergenommen werden.

Beim unsupervised learning ist ein solcher Zielwert unbekannt. Hier geht es aus-schließlich um das Auffinden von unbekanntem Wissen in den Daten. Ziel ist es in-nerhalb der Eingangsgroßen nutzliche Strukturen bzw. Muster aufzudecken.

Die in den nachsten Abschnitten beschriebene Klassifikation und Regressiongehoren zur Klasse des supervised learnings, wahrend die Clusteranalyse aus Ab-schnitt 2.2.2 unter das unsupervised learning fallt.

2.2.1 Klassifikation und Regression

Die Klassifikation und die Regressionsanalyse gehoren zur Klasse der supervised Da-ta Mining Verfahren. Hier wird anhand einer oder mehrerer unabhangiger Variablen(Eingangsgroßen) versucht die abhangige Variable (Ausgangsgroße) zu beschreiben.Die Einganggroßen sowie die Ausgangsgroße sind in diesem Fall bekannt. Beim su-pervised learning ist es typisch, dass ein Trainingsdatensatz zur Verfugung steht mitdem eine Beschreibung gefunden werden soll, welche imstande ist den Zielwert vonungesehenen Daten vorherzusagen [42, S. 150]. Ein Trainingsdatensatz besteht da-bei aus einer Menge von Tupeln, hier auch Instanzen genannt, welche aus mehrerenAttributen und ihrem Wertbereich bestehen und zusatzlich einen Zielwert besitzen.Formal ausgedruckt ist dies die Menge von Tupeln B(A ∪ y) mit den n AttributenA = {a1, .., ai, .., an} und dem Zielwert y [42, S. 150].

2.2.1.1 Klassifikation

Bei der Klassifikation wird der Zielwert y auch als Klasse c bezeichnet. Die Klassi-fikation lernt eine Funktion, welche eine Dateninstanz einer oder mehrerer vorde-finierten Klassen zuordnet [16, S. 13]. Ein prominentes Beispiel fur die Klassifikati-on kommt aus dem Bankenwesen. Ziel hierbei ist es, Personen anhand ihrer Eigen-schaften, wie beispielsweise dem Alter und dem Einkommen in eine der Klassen{Kreditwurdig, Nicht Kreditwurdig} einzuordnen. Anhand der gesammelten Datenaus der Vergangenheit kann erlernt werden, ab welchem Alter und welchem Ein-kommen eine Person als kreditwurdig eingestuft wird. Ein Auszug aus einem erlern-ten Modell kann beispielsweise die Regel sein: WENN Alter > 24 UND Einkommen> 29.000 DANN ”Kreditwurdig” SONST ”Nicht Kreditwurdig”. Anhand dieser Regelkonnen zukunftige Kunden aufgrund ihres Alters und Einkommens in eine der zweiKlassen eingeteilt werden.

5

Page 15: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 2: Beispiel eines Entscheidungsbaums

Alter?

Einkommen?Nicht Kreditwürdig

Nicht Kreditwürdig

<= 24 > 24

> 29000

Kreditwürdig

<= 29000

Innerhalb der Klassifikation gibt es mehrere Typen, die zur Anwendung kommenkonnen. Bei dem gegebenen Bankenbeispiel handelt es sich um die regelbasierte Klas-sifikation. In dieser Arbeit kommen Algorithmen aus den folgenden Klassifikations-arten zum Einsatz:• Entscheidungsbaume• Regelbasierte Klassifikation• Neuronale Netzwerke• Naive-Bayes und Support Vektor Klassifikation

Nachfolgend werden die einzelnen Arten grob beschrieben. In dieser Arbeit sollnicht auf die detaillierte Betrachtung der Algorithmen eingegangen werden. Im Buchvon Witten, Frank und Hall [67] sind mehr Informationen uber die Algorithmen zufinden. In dem Buch liegt der Fokus auf den Algorithmen, welche in der Data MiningSoftware Weka (Waikato Environment for Knowledge Analysis) implementiert sind.Diese Software kommt in der vorliegenden Arbeit zum Einsatz.

Entscheidungsbaume

Bei Entscheidungsbaumen wird fur die Klassifikation ein gerichteter Baum aufge-spannt. Die Knoten eines Entscheidungsbaumes beinhalten jeweils einen Test auf denWert eines Attributs des Datensatzes. Die Blatter des Baumes beinhalten die Klassen,in welche die behandelten Dateninstanzen eingeteilt werden. Abbildung 2 zeigt einenaufgestellten Baum aus dem erwahnten Beispiel der Kreditwurdigkeit von Bankkun-den. Jede ungesehene Dateninstanz folgt anhand der Werte der Attribute einem Pfadbis zu einem Blatt. Das Blatt, bei dem die Instanz landet, ist die entsprechende kal-kulierte Klasse fur diese Instanz. Beispielsweise wird eine 27-jahrige Person, die einEinkommen von 45000 Euro hat, als ”Kreditwurdig” klassifiziert. Da die Person alterals 24 ist, lauft sie in den rechten Pfad des Baumes. Bei dem Knoten ”Einkommen?”nimmt sie wiederum den rechten Pfad, da das Einkommen hoher als 29000 Euro ist.Somit landet die Instanz bei dem Blatt ”Kreditwurdig”. Die Person wird somit lautdem Entscheidungsbaum als ”Kreditwurdig” klassifiziert.

Es gibt eine Vielzahl von Algorithmen die einen Entscheidungsbaum aufstellen.Bei der hier verwendeten Software Weka in der Version 3.6 sind insgesamt 16Entscheidungsbaum-Algorithmen implementiert.

6

Page 16: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Regelbasierte Klassifikation

Nah verwandt zu den Entscheidungsbaumen sind die Algorithmen der regelba-sierten Klassifikation. Regeln sind lediglich eine andere Darstellung fur Entschei-dungsbaume. Bei den regelbasierten Klassifikationsmethoden werden Regeln meistin Form von ”WENN ... DANN” Regeln erstellt. Ein Beispiel fur eine Regel ist:

(Alter > 24) and (Einkommen > 29000) => Klasse = Kreditwurdig

=> Klasse = Nicht Kreditwurdig(1)

Weka stellt insgesamt 11 verschiedene Implementierungen der regelbasiertenKlassifikation bereit.

Neuronale Netzwerke

Die Implementierung neuronaler Netze in der Informatik orientiert sich an der Ar-beitsweise der Gehirne von Menschen bzw. Tieren. Neuronale Netze sind informati-onsverarbeitende Systeme, dessen Neuronen sich Informationen uber gerichtete Ver-bindungen zusenden [68, S. 23]. Verbundende Neuronen kommunizieren uber denGrad ihrer Aktivierung. Es werden somit keine komplexen Datenstrukturen uber dieVerbindungen gesendet.

Neurone werden auch als Zellen, Units, Knoten oder Einheiten bezeichnet. Es gibtdrei verschiedene Arten von Neuronen [51, S. 17]. Dies sind die Input-Units, welchevon der Außenwelt Signale erhalten, die Hidden-Units die sich zwischen den anderenbeiden Units befinden und die Ouput-Units, welche Signale an die Außenwelt aus-geben. Die Verbindungen der Units erfolgen durch gewichtete Kanten. Ein positivesGewicht bedeutet, dass ein Neuron auf das andere einen erregenden Einfluss besitzt.Ein negatives Gewicht signalisiert einen hemmenden Einfluss und ein Gewicht vonNull ubt keine Wirkung aus [51, S.18].

In der Lernphase werden dem neuronalen Netz die Trainingsdaten zur Verfugunggestellt. Mithilfe dieser Trainingsdaten werden die Gewichte der Verbindungen an-gepasst. Die Units selbst nehmen die einzelnen Inputwerte an, bilden daraus einenNetzinput, ordnen dem Netzinput ein Aktivitatslevel zu und erzeugen daraus einenOutput [51, S.19].

Eine erweiterte Einfuhrung in die neuronalen Netze geben Rey und Wender [51]. InWeka reprasentiert der MultilayerPereptron Algorithmus ein neuronales Netzwerk.Die MulitayerPerceptron Methode kann sowohl zur Klassifikation als auch zur Re-gression (Abschnitt 2.2.1.2) benutzt werden.

Naive-Bayes und Support Vektor Klassifikation

Die Naive-Bayes und Support Vektor Klassifikation sollen zur Vollstandigkeit kurzerwahnt werden. Naives-Bayes ist eine Bayes-basierte Klassifikationsmethode. DieseArt der Methoden gehort zu den Probabilistisch Graphischen Modellen, welche eineKombination aus der Graphentheorie und der Wahrscheinlichkeitstheorie bilden [55,S. 193f]. Die Naive-Bayes Methode basiert auf den Bayes’ Regeln und nimmt naiver-weise an, dass die Attribute voneinander unabhangig sind [67, S.93]. Obwohl dieseAnnahme in der Realitat selten wahr ist, kann die Naive-Bayes Klassifikation oft guteResultate erzielen. Weitere Informationen zur Bayes-Klassifikation geben Sebastiani,Abad und Ramoni [55].

7

Page 17: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 3: Schema eines neuronalen Netzes in Anlehnung an [51, S.17]

Input-Units Hidden-Units Output-Units

Weka stellt 13 Bayes-basierte Klassifkationsmethoden bereit. In dieser Arbeitkommt lediglich die Implementierung des Naives-Bayes Algorithmus zum Einsatz.

Die in Weka implementierte Support Vektor Klassifikation basiert auf dem ”sequen-tial minimal optimization algorithm” von John C. Platt. Eine Beschreibung des Al-gorithmus gibt Platt [50]. Bei der Support Vektor Klassifikation wird jedes Objekt ineinem Vektorraum reprasentiert. Ziel des Support Vektor Klassifizierers ist es eine Hy-perbene zu finden, die diese Objekte in unterschiedliche Klassen trennt. Eine allgemei-ne Beschreibung der Support Vektor Klassifizierer liefert Shmilovici [56].

2.2.1.2 Regression

Ziel der Regressionsanalyse ist es eine Funktion zu lernen, welche die Eingangsgroßenauf einen realen Wert abbilden. Die Regression soll die Beziehung zwischen einer odermehreren unabhangigen Variablen und einer abhangigen Variable beschreiben.

In dieser Arbeit wird unter anderem die lineare Regression genutzt, dessen Funkti-on die Form

Y = β0 + β1 ∗X1 + β2 ∗X2 + ...βn ∗Xn (2)

mit dem abhangigen Zielwert Y , den unabhangigen Eingangsgroßen X1, X2, ...Xn

und den zu ermittelnden Koeffizienten β0, β1, ...βn hat. Durch die einfache Darstel-lung bietet sich die lineare Regression neben der Prognose des Zielwertes auch zurBeschreibung der Beziehungen zwischen mehreren Eingangsgroßen und einer Aus-gangsgroße an.

Neben der linearen Regression kommt außerdem die von Weka implementierteSMOreg-Methode zum Einsatz. Dies ist die Implementierung der Support Vektor Ma-schine fur die Regression. Ausfuhrlicher beschreiben die SMOreg Methode Smola undBernhard [57].

2.2.1.3 Qualitat der Vorhersage messen

Innerhalb des supervised Data Mining wird typischerweise zuerst anhand derverfugbaren Daten eine Modell erlernt, welches anschließend auf ungesehene Da-ten angewendet wird. Um die Qualitat der Vorhersage eines erlernten Modells ab-zuschatzen, wird der verfugbare Datensatz in zwei Teile geteilt. Dies ist einerseits ein

8

Page 18: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Trainingsdatensatz, auf dem ein Algorithmus angewendet wird und ein Modell er-lernt wird. Andererseits wird ein Testdatensatz erstellt, mit dem abgeschatzt werdensoll, wie gut das Modell ungesehene Daten prognostiziert. Dies geschieht indem daserlernte Modell auf den Testdatensatz angewendet wird und die vorhergesagten Ziel-werte bzw. Klassen mit den tatsachlichen Werten der Testmenge verglichen werden.So wird eine Fehlerrate fur das erlernte Modell berechnet.

Bei der Unterteilung in Trainings- und Testdatensatz gibt es mehrere Moglichkeiten.Wenn genugend Daten zur Verfugung stehen kann ein bestimmter Prozentsatz derzur Verfugung stehenden Daten zum Training und ein bestimmter Prozentsatz zumTesten verwendet werden. Dabei ist der Trainingsdatensatz in der Regel großer alsder Testdatensatz. Eine weitere Moglichkeit, die vor allem dann zum Einsatz kommtwenn nur wenige Daten zur Verfugung stehen, ist die sogenannte Methode der Cross-validation. Hier wird der Datensatz in mehrere gleichgroße Teile, auch folds genannt,geteilt. Jede Teilmenge wird dabei einmal zum Testen genutzt und die restlichen Tei-le dienen dem Training des Modells. Dies wird fur jede Teilmenge wiederholt. Legtman beispielsweise fest, dass zehn Teilmengen gebildet werden sollen, so wird derDatensatz in zehn Teile geteilt. Anschließend wird jeder Teil einmal als Testdatensatzgenutzt und die restlichen Teile jeweils zum Training. Fur jeden Testdatensatz wirdder Fehler der Vorhersage berechnet. Die Fehlerraten der zehn Durchlaufe werdenanschließend gemittelt um eine Einschatzung der Qualitat des erlernten Modells zuermitteln [67, S. 153]. Das finale Modell wird mit dem gesamten Datensatz erlernt.

2.2.2 Clusteranalyse

Die Clusteranalyse gehort zum unsupervised Data Mining. Der Zielwert ist im Gegen-satz zur Klassifikation oder Regression unbekannt. Dies bedeutet, dass bei der Cluster-analyse die Beschreibung der Daten im Vordergrund steht. Ziel der Clusteranalyse istes die Objekte bzw. Instanzen in homogene Gruppen zu teilen. Dabei sollen ahnlicheObjekte den gleichen Gruppen bzw. Clustern zugeordnet werden und unahnliche Ob-jekte in verschiedene Cluster eingeteilt werden. Bei der Clusteranalyse ist man an derAufteilung der Objekte interessiert und damit an den identifizierten Gruppen.

Stellt man sich die Objekte in einen Vektorraum vor, so nutzen viele ClusteringMethoden die Distanz der Objekte um ahnliche bzw. unahnliche Objekte zu identi-fizieren. So sind Objekte mit einer geringen Distanz zueinander ahnlich. Je weiter dieObjekte auseinander liegen, desto unahnlicher sind sie sich. Abbildung 4 zeigt diesesBeispiel in einem zweidimensionalen Raum. Hier werden drei Cluster identifiziert,die sich in ihren Eigenschaften ahneln. Dabei konnen je nach Methode die Objektenur zu einem oder zu mehreren Clustern gehoren.

Die Clusteranalyse wird oft im Marketing zur Marktsegmentierung eingesetzt. Zielist es beispielsweise mehrere Kundensegmente durch die Analyse des Kaufverhaltensder Kunden zu identifizieren, um so Gruppen von Kunden anhand ihrer Vorliebengezielt anzusprechen.

Es gibt eine Vielzahl von Algorithmen fur das Clustering, die sich in ihren Ei-genschaften unterscheiden. So mussen bei manchen Methoden die Anzahl an Clus-tern, in denen die Objekte eingeteilt werden sollen, im Vorhinein angegeben werden.Der Clusteralgorithmus der in dieser Arbeit verwendet wird ist der EM-Algorithmus(Expectation-Maximization-Algorithmus), bei dem die Clusteranzahl nicht vordefi-niert sein muss. Der EM-Algorithmus ist eine Implementierung des probabilistischenClusterings.

Neben dem EM-Algorithmus hat Weka zusatzliche 15 Clusteralgorithmen imple-mentiert. Weitere Beschreibungen zur Clusteranalyse geben Maimon und Rokach [40]sowie Witten, Frank und Hall [67].

9

Page 19: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 4: Beispiel Clusteranalyse

Alter

Einkommen

2.2.3 Weitere Data Mining Verfahren

Weitere Data Mining Verfahren beinhalten unter anderem die Assoziationsanalyseoder die soziale Netzwerkanalyse, welche in dieser Arbeit nicht zum Einsatz kom-men. Bei der Assoziationsanalyse wird nach Zusammenhangen in den Daten gesucht.Beispielsweise kann anhand einer Warenkorbanalyse ermittelt werden, welche Arti-kel oft zusammen in einem Warenkorb auftauchen. Mithilfe dieses Wissens lassen sichKaufempfehlungen fur Kunden kreieren oder die Platzierung von Artikeln im Handelbeeinflussen.

Die soziale Netzwerkanalyse findet Anwendung in der Analyse von Beziehungenvon Individuen. Beispielsweise konnen soziale Netzwerke analysiert werden, um In-dividuen zu identifizieren, welche eine hohe Autoritat in einem Netzwerk innehaben.Ein verwandtes Feld ist die Link Analyse, bei denen die ein- und ausgehenden Linkseiner Webseite analysiert werden. So kann beispielsweise die Linkstruktur des Websabgebildet werden. Eine Art der Link Analyse nutzt der Suchalgorithmus von Google.Der Algorithmus nutzt die Linkstruktur des Webs um die Resultatliste von Suchan-fragen zu ordnen.

2.3 Verwendete Software

Fur die Anwendung von Data Mining wird in dieser Arbeit die Software ”Weka 3:Data Mining Software in Java” benutzt. Weka ist eine open source Software und bietetverschiedene Data Mining Algorithmen zur Anwendung an. Weka stellt Werkzeugezur Datenvorbereitung, Klassifikation, Regression, Clusteranalyse, Assoziationsana-lyse und zur Visualisierung bereit. Die Software Webseite ist unter cs.waikato.ac.nz/ml/weka/ zu finden.

Weka steht fur ”Waikato Environment for Knowledge Analysis” und wurde vonder Universitat von Waikato in der Programmiersprache Java entwickelt. Die Softwa-re kann einerseits mithilfe einer grafischen Benutzeroberflache benutzt werden oderdurch eigenen Java Code aufgerufen werden. In dieser Arbeit wird ausschließlich mitder grafischen Benutzeroberflache gearbeitet. Die hier verwendete Version von Wekaist die Version 3.6.8.

Neben der Data Mining Software wird in dieser Arbeit das open source relatio-nale Datenbankverwaltungssysteme MySQL zur Datenhaltung genutzt. Weka bietet

10

Page 20: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

die Moglichkeit durch eine Schnittstelle auf die Datenbank zuzugreifen. Mithilfe desOracle SQL Developers in der Version 3.2.10.09 wird die Datenbank verwaltet. Mittelsdieser Software werden u.a. Tabellen angelegt, Daten restrukturiert und eigene ein-fache Analysen durchgefuhrt. Die Sammlung der Daten aus dem Internet wird mitdem HTTrack Website Copier in der Version 3.46 und der Programmiersprache Py-thon (Version 3.2) verwirklicht. Nahere Informationen hierzu finden sich in Kapitel4.

11

Page 21: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

3 Stand der Forschung

In diesem Kapitel wird der Stand der Forschung in der Analyse von Sportdaten dar-gestellt. Bei der Suche nach geeigneter Literatur fallt auf, dass im deutschsprachigenRaum wenige bis keine Veroffentlichungen uber die Analyse von Sportdaten, beson-ders unter der Berucksichtigung des Bereichs Data Mining vorhanden sind. Die Da-tenanalyse innerhalb des Sports ist vor allem in Amerika weit verbreitet. Ein Grunddafur ist das Aufkommen einer neuen Ara der Statistiken in der von Amerikanern be-gehrten Sportart Baseball. Statt die reinen Zahlen, wie die Anzahl geschlagener odergefangener Balle zu analysieren, wurden diese Statistiken von dem amerikanischenHistoriker und Statistiker Bill James hinterfragt und neue Analysen erfunden. Diese

”Revolution” ist unter dem Namen Sabermetrics bekannt und werden von Schuma-ker, Solieman und Chen [54, S. 36] als der Wandel von traditionellen Statistiken hinzum Wissensmanagement (knowledge management) beschrieben. Bill James hat diereine Aufstellung der Zahlen in Frage gestellt und neue Maßzahlen erfunden, welchedie Spieler objektiver bewerten sollten. Statt nur Teilaspekte, wie die Trefferquote zubetrachten, wird bei Sabermetrics versucht Maßzahlen zu erfinden, welche die Ge-samtleistung eines Spielers bewerten.

Nachdem Bill James 1977 die ersten Analysen veroffentlicht hat, haben die Sport-fans die Ideen aufgenommen und eigene Maßzahlen zu Sabermetrics beigesteuert.Vorerst haben die Maßzahlen nur wenig Anwendung bei Vereinen gefunden bis derManager des Proficlubs Oakland A’s Billy Bean im Jahr 2002 die Maßzahlen von Sa-bermetrics genutzt hat, um neue Spieler fur seine Mannschaft auszuwahlen. Ergebniswar, dass der Club fur seine Verhaltnisse sehr großen Erfolg durch die Adaption derMaßzahlen erfahren hat. Inspiriert von diesem Erfolg, konnten die Boston Red Soxmit der Hilfe von Sabermetrics ihre Mannschaft sogar so stark verstarken, dass sie2004 und 2007 die Meisterschaft gewannen. [54, S. 36]

Ebenso wie bei der Sabermetrics Revolution, startete 1980 der Statistiker Dean Oli-ver eine Revolution in der Sportart Basketball. Dean Oliver stellte ebenfalls die altenMesswerte zur Beurteilung der Leistung von Spielern in Frage und erfand neue Maß-zahlen. Mithilfe der Beratung von Dean Oliver konnten die Seattle Supersonics 2005die Basketball Division der USA gewinnen [54, S. 36].

Ein Grund, warum diese beiden Sportarten und andere amerikanische Sportar-ten, wie z.B. Football einen großen Analysehintergrund haben, liegt in der besserenMoglichkeit die Spiele dieser Sportarten zu quantifizieren. Beim Baseball beispiels-weise werden die Spielaktionen hintereinander ausgefuhrt und konnen gut in einzel-ne Teile zerlegt werden. Dadurch lassen sich die Aktionen dieser Sportart leichter ma-nuell aufnehmen. Beim Basketball ist ein Spiel nicht in seine Einzelteile zerlegbar. Je-doch sind aufgrund der vielen Ereignisse im Basketball, die aufgenommen Daten sehrgehaltvoll. Im Basketball werden in einem Spiel bis zu 100 Punkte pro Mannschaft er-zielt, Spieler werfen sehr haufig auf den Korb oder die Mannschaftsaufstellung wech-selt standig wahrend des Spiels. Somit sind hier mehr Daten manuell aufnehmbar, alses im Fußball der Fall ist.

Im Gegensatz dazu ist ein Fußballspiel ereignisarm. Mithilfe neuer technologischerMoglichkeiten und der Professionalisierung der Datenaufnahme, kann der Fußball je-doch mit der Aufnahme von Werten wie beispielsweise der Laufleistung inzwischenauch eine große Anzahl an Daten aufbereiten. Die Grundlage fur eine statistische Re-volution im Fußball ist inzwischen gelegt.

Ein Ansatz fur die Einbindung von Fußballfans und Analytikern in die Analysevon Fußballdaten wurde von dem englischen Premier League Club Manchester Cityverfolgt. Diese haben in Zusammenarbeit mit der Firma Opta, welche Sportdaten pro-

12

Page 22: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

fessionell aufnimmt und verkauft, die Daten der Premier League Saison 2011/2012frei im Internet zur Verfugung gestellt. Die Hoffnung war, dass die Nutzer der Da-ten neue Maßzahlen oder Analyseansatze veroffentlichen, die fur Vereine oder Fanshilfreich sein konnen. Dabei wurden zahlreiche Analysen der Daten in verschiedenenBlogs uber Fußball und deren Taktiken veroffentlicht.

Innerhalb des Fußballs gibt es inzwischen verschiedene Indexe, die Fußballspie-lern anhand der aufgenommenen Daten, wie Tore, Vorlagen oder der Zweikampfquo-te einen Wert zuteilen. Solche Indexe sollen die Qualitat der Spieler messen. Es gibtdabei unter anderem den vom fruheren englischen und jetzigen russischen National-trainers Fabio Capello erstellten Capello Index 1, das Castrol EDGE Ranking 2 oderder Opta Index der auch von der Webseite bundesliga.de genutzt wird [5]. Die ge-naue Berechnung dieser Indexe ist nicht bekannt. Beim Capello Index handelt es sichbeispielsweise um einen per Hand erstellten Index. Solche Indexe sind kritisch zu be-trachten, da den subjektiv als wichtig empfundenen Ereignissen in einem Spiel, wiebeispielsweise den geschossenen Toren die hochste Aufmerksamkeit bei der Berech-nung solcher Indexe beigemessen werden und andere Spielaktionen nahezu ignoriertwerden.

Im Weiteren werden verschiedene ausgewahlte Veroffentlichungen vorgestellt, umeinen Einblick in den Stand der Forschung zu gewahren. Dabei wird besonderer Fo-kus auf Data Mining Verfahren gelegt. Außerdem werden Analysen berucksichtigt,die spielspezifische Attribute von Spielern bzw. Mannschaften in ihre Analysen auf-nehmen. Dabei ist dies keine vollstandige Liste der veroffentlichten Artikel. Schuma-ker, Solieman und Chen [54] stellen einen ausfuhrlicheren Einblick in den derzeitigenStand der komplexen Datenanalyse im Sport zur Verfugung.

Einige Anwendungen der einfachen und komplexen Datenanalyse im Fußball wer-den im folgenden Abschnitt 3.1 beschrieben, die nicht mit den Analysen der vorlie-genden Arbeit in Verbindung stehen, aber zur Vollstandigkeit erwahnt werden. In denvorgestellten Forschungen wird nicht auf die spielspezifischen Attribute von Spielerneingegangen.

In den weiteren Abschnitten werden Veroffentlichungen vorgestellt, die Methodendes Data Mining nutzen, um Daten im Sport zu analysieren. Dabei nutzt der Artikelaus Abschnitt 3.2 die Regressionsanalyse, um die Erfolgsfaktoren einer Saison bzw. Li-ga zu ermitteln sowie die Varianzanalyse um die Top-Teams von den restlichen Teamszu unterscheiden. Abschnitt 3.3 beschaftigt sich mit einem Artikel, der die Clusterana-lyse nutzt, um Eishockeyspieler in Kategorien einzuteilen. Der Artikel aus Abschnitt3.4 beschreibt einen Ansatz, der Trainern bei der Entscheidung fur die perfekten Zeit-punkte bei Ein- und Auswechslungen unterstutzen soll. Dazu nutzt der Autor einenEntscheidungsbaum. Neuronale Netzwerke kommen in den Artikeln aus Abschnitt3.5 zum Einsatz. Hier sollen die Ausgange von Basketballspielen mithilfe der spiels-pezifischen Attribute der Mannschaften prognostiziert werden. Der Artikel aus Ab-schnitt 3.6 kombiniert die Cluster- und Regressionsanalyse, um den Wert einzelnerEishockeyspieler zu messen.

3.1 Anwendungen der Datenanalyse im Fußball

Eine vielversprechende Anwendung von Data Mining im Sport findet bei dem italie-nischen Serie A Verein AC Mailand statt. Hier werden neuronale Netzwerke in dermedizinischen Abteilung des Vereins eingesetzt [43]. Wie Kuper [36] beschreibt wur-de aufgrund einer Verletzung eines fur 30 Millionen Euro eingekauften Spielers von

1www.capelloindex.com2www.castrolfootball.com/rankings

13

Page 23: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

AC Mailand, das sogenannte Milan Lab eingefuhrt, welches mithilfe modernster Me-thoden versucht, die Verletzungen von Spielern zu vermeiden. Idee ist es moglicheVerletzungen vorherzusagen, um so die Spieler vor dem Eintritt einer Schadigung zuwarnen. Laut dem Artikel von Flinders [18] konnte das eingesetzte System im Jahr2002 in uber 70 % der Falle Verletzungen aus der Vergangenheit vorhersagen. Kuper[36] beschreibt, dass alleine anhand von Sprunganalysen, die medizinische Abteilung70 % der Verletzungen prognostizieren kann. Mithilfe mehrerer Daten konnten dienichttraumatischen Verletzungen, also Verletzungen ohne Außeneinwirkung, im Jahr2008 zu den Jahren zuvor um 90 % reduziert werden.

Auch bei Neuverpflichtungen werden die Mitarbeiter des Milan Labs konsultiert.So studieren sie die Bewegungsablaufe eines Spielers, um vorherzusagen wie verlet-zungsanfallig er ist. Damit kann eine Entscheidung zum Einkauf des Spielers maß-geblich beeinflusst werden. Inzwischen werden die Analysen auch zur Verbesserungder physischen Verfassung der Sportler genutzt. Dabei nutzen die Fitnesstrainer desVereins die Daten, um die Spieler gezielt zu verbessern. Eine genaue Beschreibung derAnalysen ist nicht veroffentlicht.

Bei der WM 2006 in Deutschland zog ein Zettel die Aufmerksamkeit der Fußball-fans auf sich. Dieser wurde dem deutschen Torhuter Jens Lehmann vor dem Elfme-terschießen gegen Argentinien im Viertelfinale ausgehandigt. Darauf sollen die Elf-meterschutzen der Argentinier und ihre bevorzugte Ecke, in welche sie den Elfmeterschießen, aufgelistet gewesen sein [58]. In dem Buch von Kuper und Szymanski [37],welches sich mit Statistiken aus dem Bereich Fußball beschaftigt, gibt es ein Kapitelwelches sich ausschließlich mit der Statistik von Elfmeterschießen beschaftigt. In demKapitel ”The Economist’s Fear of the Penalty Kick” wird das Elfmeterschießen ausSicht der Spieltheorie erortert. Es wird hinterfragt, ob eine Handlungsempfehlung furSchutzen oder Torhuter gegeben werden kann. Die Ergebnisse, die in dem Kapitel vor-gestellt werden zeigen, dass die Analyse von Elfmeterschießen sinnvoll angewendetwerden kann. Beispielsweise wird in dem Kapitel das Elfmeterschießen des Champi-ons League Finales 2008 zwischen dem FC Chelsea und Manchester United untersuchtund interessante Erkenntnisse gewonnen. Eine Analyse mithilfe von Data Mining Ver-fahren konnte an diese Analysen angeschlossen werden.

Im Gegensatz zu den Artikeln aus Abschnitt 3.5, welche die spielspezifischen At-tribute von Spielern zur Vorhersage nutzen, verwenden Rotshtein, Posner und Raki-tyanskaya [52], Awerbuch [1] oder Dyte und Clarke [15] nur die reinen Ergebnisseund andere leicht zur Verfugung stehenden Daten zur Prognose von Fußballspielen.

Rotshtein, Posner und Rakityanskaya [52] nutzen zur Vorhersage eines Spiels dieErgebnisse der letzten funf Spiele einer Mannschaft und des Gegners sowie die Re-sultate der letzten zwei Spiele, bei denen die Mannschaften gegeneinander angetretensind. Als Zielwert soll das Vorhersagemodell, welches auf der Fuzzylogik basiert, dieHohe des Sieges oder der Niederlage ausgeben. Dabei bezeichnen die Autoren einenhohen Sieg bzw. Niederlage als ein Spiel, bei dem die Tordifferenz mindestens dreiTore betragt. Ein weniger hoher Sieg oder Niederlage liegt vor, wenn die Tordifferenzbeider Mannschaften zwischen eins und zwei liegt. Außerdem soll das Modell in derLage sein ein Unentschieden vorherzusagen.

Es werden ein genetischer Algorithmus sowie ein neuronales Netzwerk zur Losungdes aufgestellten nicht-linearen Optimierungsproblems genutzt [52, S. 623]. Als Trai-ningsdatensatz liegen 1056 Spiele der Jahre 1994 bis 2011 aus der finnischen Liga vor.Wie gut die Spiele vorhergesagt werden konnen, wird mithilfe von Spielen aus denJahren 1991 bis 1993 ermittelt. Dies sind 350 Spiele.

Laut Rotshtein, Posner und Rakityanskaya werden mithilfe des neuronalen Netz-werks 304 Spiele richtig vorhergesagt. Dies bedeutet eine Klassifikationsrate von 87 %,

14

Page 24: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

was eine sehr hohe Trefferquote darstellt. Damit kann dieses Modell bessere Werte er-zielen als die Artikel aus Abschnitt 3.5 uber die Sportart Basketball. Ob eine solchhohe Klassifikationsrate tatsachlich zu erreichen ist, konnen weitere Forschung mitdem vorgestellten Ansatz offenlegen.

Die Autoren sehen den Einsatz fur richtige Vorhersagen jedoch kritisch, da das Mo-dell weder Verletzungen von Spielern noch die Anzahl an Spielern auf dem Feld undauf der Ersatzbank einschließt. Außerdem werden die Objektivitat des Schiedsrichtersund die Wetterbedingungen in der Analyse nicht betrachtet. [52, S. 628]

Es gibt weitere Analysen im Fußball, die einfache Daten, wie das reine Ergebnisoder die Anzahl an geschossenen Tore betrachten. So versuchen Van Calster, Tim undVan Huffel [60] mithilfe des Anteils von Unentschieden gespielten Spielen, geschosse-nen und erhaltenen Toren pro Spiel, Anzahl aller Tore pro Spiel und erhaltene Punktepro Spiel zu erklaren, wie torlose Unentschieden im Fußball zustande kommen. Dabeiist offensichtlich, dass die Anzahl aller Tore pro Spiel mit den torlosen Unentschiedenstark verknupft sind. Außerdem stehen die erhaltenen Punkte pro Spiel mit den Un-entschieden in Verbindung.

Weitere Analysen von Sportdaten beschreiben Schumaker, Solieman und Chen [54].

3.2 Differenzierung der Spielweisen von Fußballmannschaften

Oberstone [47, 48] nutzt die lineare Regression zur Beschreibung der Zusammenhangezwischen verschiedenen spielspezifischen Attributen und der erspielten Punktzahl ei-ner Mannschaft. Daneben wird die Varianzanalyse (ANOVA von analysis of variance)genutzt, um Unterschiede in den Spielweisen von Mannschaften und Ligen zu erfor-schen.

Oberstone [48] beschaftigt sich mit der Analyse der englischen Premier League Sai-son 2007/2008. Einerseits versucht der Autor mithilfe der Regressionsanalyse die At-tribute herauszufinden, welche maßgeblich zum Erfolg eines Teams in der Saison bei-getragen haben. Andererseits wird mithilfe der Varianzanalyse versucht, die Unter-schiede der Spielweisen von erfolgreichen Vereinen zu den Spielweisen der anderenMannschaften zu ermitteln.

Fur die Analysen liegen dem Autor die Mannschaftsdaten der Saison 2007/2008zur Verfugung. Dabei handelt es sich um die in Abbildung 5 dargestellten Attribute,welche von der Firma Opta bereitgestellt werden.

Die Daten werden dabei vom Autor Oberstone in funf verschieden Kategorien ein-geteilt, namlich in Torversuche (Goal Attempts), Passspiel (Passing), Flanken (Cros-sing), und Verteidigung (Defending). Insgesamt besteht der Datensatz aus 24 Attri-buten, wobei sieben dieser Attribute redundante Informationen speichern und vomAutor aus der Analyse ausgeschlossen werden. Anschließend werden von diesen 17Attributen, sukzessive Attribute entfernt bis der Datensatz fur die Regression aus-schließlich aus statistisch signifikanten Attributen besteht. Dadurch werden die 17Attribute auf folgende sechs Attribute reduziert [48, S. 7]:• X5 : Erfolgreiche Torschussquote in Prozent (% goals to shots)• X7 : Tore außerhalb des Strafraums in Prozent (% goals scored outside of box)• X11 : Verhaltnis kurzer zu langer Passe (ratio of short/long passes)• X15 : Anzahl an Flanken (total crosses)• X18 : Durchschnittliche Anzahl an zugelassenen Toren pro Spiel (average goals

conceded per game)• X23 : Anzahl gelber Karten (yellow cards)

Mithilfe dieser Werte als Eingangsgroßen und dem Zielwert, der erspielten Punkt-zahl der beobachteten Mannschaft am Ende der Saison 2007/2008, wird in dem Arti-kel eine Regressionsanalyse durchgefuhrt, um die Beziehungen zwischen den Werten

15

Page 25: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 5: Opta Attribute [48, S. 6]

und der Punktzahl zu ermitteln. Die resultierende Formel der Regression lautet [48,S.10]:

Y =30, 999 + 99, 231X5 + 80, 159X7 + 4, 471X11

+ 0, 029X15 − 31, 708X18 − 0, 161X23(3)

Anhand der Koeffizienten der unabhangigen Variablen, kann eine Aussage uber dieErfolgsfaktoren einer Mannschaft getroffen werden.

Die Ergebnisse zeigen, dass eine gute Torquote, viele erzielte Treffer von außerhalbdes Strafraums, ein hoher Anteil kurzer zu langer Passe und viele Flanken die Punkt-zahl einer Mannschaft positiv beeinflussen. Zusatzlich sollten Mannschaften versu-chen moglichst wenige Tore zuzulassen. Ebenfalls sollten sie eine faire Spielweise be-vorzugen, da so gelbe Karten verhindert werden konnen.

In einem weiteren Artikel fuhrt Oberstone [47] die gleichen Regressionsanalysen furdie Saison 2008/2009 in den Ligen der englischen Premier League, der spanischen LaLiga und der italienischen Serie A durch. Dabei wird fur jede Liga eine eigene Regres-sion durchgefuhrt. Die Ergebnisse zeigen, dass die Erfolgsfaktoren in den einzelnenLigen variieren. Außerdem unterscheidet sich die erlernte Formel aus der PremierLeague Saison 2008/2009 wesentlich zu der oben genannten Formel aus der Saison2007/2008.

Zur Analyse der Unterschiede in den Spielweisen erfolgreicher Mannschaften zuden restlichen Teams der Liga, nutzt der Autor die Varianzanalyse. Die Anwendungdieser Analyse fur die vorliegenden Daten ist kritisch zu betrachten, da die Varianz-analyse eine Varianzhomogenitat und eine Normalverteilung voraussetzt [53, S. 381].Ob dies in den Daten des Artikels der Fall ist, wird vom Autor nicht erwahnt. In denDaten der hier vorliegenden zwei Bundesligasaisons ist eine Normalverteilung nicht

16

Page 26: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

gegeben.Um die Varianzanalyse anzuwenden, werden alle 24 Attribute des Datensatzes ge-

nutzt. Als Top-Teams definiert der Autor die vier bestplatzierten Mannschaften, alsschlechteste Teams die vier letzten Teams der Tabelle und die restlichen zwolf Mann-schaften als mittelmaßige Teams. Mithilfe der Varianzanalyse versucht der Autor her-auszufinden, ob sich die Werte der verschiedenen Attribute der drei Gruppen signifi-kant unterscheiden.

Die Analyse findet heraus, dass sich die Mannschaften in 13 Attributen statistischsignifikant unterscheiden. Die detaillierten Ergebnisse stellt Oberstone [48, S. 16] dar.Hier zeigt sich vor allem, dass die Top-Teams:• mehr Torchancen kreieren• ofter und praziser Passen• weniger lange Passe favorisieren• langer im Ballbesitz sind• mehr erfolgreiche Zweikampfe fuhren• weniger Fouls begehen.

In dem zweiten Artikel von Oberstone, vergleicht der Autor mithilfe derselben Me-thode die Unterschiede in den drei Ligen aus England, Spanien und Italien. Dabeiergeben sich Unterschiede u.a. in der Anzahl an Torschussen, in der Torquote, in derPassgenauigkeit, im Zweikampfverhalten, bei den Fouls und in der Anzahl an gelbenund roten Karten. Eine Aufbereitung der Ergebnisse gibt Oberstone [47, S. 11f].

Die Ergebnisse der beiden Artikel unter Zuhilfenahme der gleichen Methoden ge-ben eine interessante Beschreibung der Spielweisen der einzelnen Mannschaften undLigen wieder. Inwiefern die dargestellten Erkenntnisse Vereine helfen konnen bleibtvom Autor unbeantwortet. Bei den ermittelten Formeln handelt es sich um Formeln,die sehr angepasst (overfitted) an die gegebenen Daten sind. Das bedeutet, dass dieFormeln lediglich die vorgestellten Saisons sehr gut beschreiben, andere Saisons je-doch nur gering reprasentieren. Zu einer Vorhersage sind die Formeln demnach un-geeignet. Ob sich Handlungsempfehlungen fur Vereine aus den extrahierten Musterngenerieren lassen ist demnach kritisch zu betrachten.

Die Resultate bei der Unterscheidung von Top-Teams und den Ligen mithilfe derVarianzanalyse zeigen, wie sich die Spielweisen der besten Mannschaften von de-nen der restlichen Mannschaften abheben. Dadurch konnen Vereine ihre Spielweisekritisch untersuchen und gegebenenfalls ihren Spielstil in die Richtung erfolgreicherMannschaften justieren. Unter Zuhilfenahme weiterer Saisons und Attribute konnteeine solche Art von Analyse weitere und detaillierte Ergebnisse hervorbringen. In Ka-pitel 5.3 wird ein Versuch der Differenzierung der Bundesligavereine unter Zuhilfe-nahme eines weiteren Data Mining Verfahrens unternommen. Hier wird die Cluster-analyse benutzt, um die Spielweisen der Teams zu unterscheiden und eine Kategori-sierung vorzunehmen. Die Ergebnisse des Clusterings werden mit den Tabellenplat-zierungen der Mannschaften in Beziehung gesetzt, um zu testen, ob sich die Spielwei-sen erfolgreicher Teams ahneln und sich zu den restlichen Teams abgrenzen.

3.3 Clusteranalyse zur Kategorisierung von Spielern

Vincent und Eastman [61] nutzen die Clusteranalyse, um Eishockeyspieler der Natio-nal Hockey League (NHL) anhand ihrer Spielweisen zu kategorisieren. Die Idee hinterder Analyse ist es die Kategorien, welche von Fans und Kommentatoren anhand ihrersubjektiven Wahrnehmung definiert werden, mithilfe des Clusterings von Spielernzu hinterfragen. Beispielsweise teilt die Offentlichkeit die Spieler unter anderem indie Kategorien ”Grinder” und ”Enforcer” ein. Dabei weisen ”Grinder” eher defensiveQualitaten auf. Spieler der Kategorie ”Enforcer” halten die Gegner mit Korpereinsatz

17

Page 27: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

von den eigenen Angreifern fern, damit diese frei zum Torabschluss kommen konnen[61, S. 1]. Ob sich eine solche Einteilung mit den objektiv erhobenen Daten deckt, wirdvon Vincent und Eastman [61] uberpruft.

Den Autoren stehen dabei insgesamt Daten von 625 Spielern zur Verfugung. Dabeiwerden die folgenden Attribute behandelt [61, S. 3ff]:• Punkte pro Spiel• Strafminuten pro Spiel• Plus-Minus Statistik pro Spiel• Gewicht

Die Autoren betrachten nicht nur die ”pro Spiel” Statistik, sondern fuhren auch ei-ne Analyse fur die Attribute ”pro Minute” aus. Die Plus-Minus Statistik ist die Diffe-renz von geschossenen und erhaltenen Toren der Mannschaft eines Spielers, wahrendder entsprechende Spieler gespielt hat. Tore und Gegentore wahrend Strafminutenwerden nicht mitgerechnet. Das Gewicht wird vom Autor hinzugefugt, da die physi-schen Eigenschaften beim Eishockey eine wichtige Rolle spielen, um Gegenspieler zuschwachen und das eigene Spiel positiv zu beeinflussen. Außerdem werden nur Spie-ler betrachtet, die mindestens zehn Spiele in der NHL gespielt haben und fur welcheInformationen uber das Gehalt zur Verfugung stehen.

Um die Clusteranalyse durchzufuhren nutzen die Autoren die K-Means Metho-de. Als Ahnlichkeitsmaß wird die euklidische Distanz gewahlt. Da bei K-Means dieAnzahl an Cluster voreingestellt werden muss, wird mithilfe des Calinski-Harabszpseudo-F Indexes, welcher den Anteil der Quadratsummen zwischen den Clusternund die Quadratsummen innerhalb der Cluster berechnet, die optimale Clusteranzahlausgewahlt. Dabei soll der Wert des pseudo Indexes maximiert werden. Außerdemwerden die Werte der Spieler standardisiert, damit kein Attribut beim Clustering do-miniert. Zusatzlich werden Extremwerte aus den Daten geloscht. [61, S. 3ff] Es werdenjeweils separate Analysen fur die offensiven und defensiven Spieler durchgefuhrt.

Innerhalb der Clusteranalyse fur die Offensive, werden jeweils drei Cluster identi-fiziert. Die Cluster werden von den Autoren als ”Scorer”, ”Enforcer” und ”Grinder”kategorisiert. Bei der ”pro Spiel” Analyse zeigt sich in den Mittelwerten der einzel-nen Cluster, dass die Spieler der Kategorie ”Scorer” am meisten Tore schießen unddie hochste Plus-Minus Statistik aufweisen. Am aggressivsten agieren die Spieler derKategorie ”Enforcer”, welche auch die Spieler mit dem hochsten Gewicht sind. Diedritte Kategorie sind die ”Grinder”, welche am leichtesten sind, wenige Strafminutenerhalten und mittlere Werte in der Anzahl an Toren und in der Plus-Minus Statistikaufweisen. Weitere Analysen zeigen, dass die ”Scorer” im Schnitt die hochste Einsatz-zeit haben, die ”Grinder” am zweitmeisten und die ”Enforcer” am wenigsten. Die

”Scorer” verdienen mit 3,9 Millionen Dollar pro Jahr wesentlich mehr als die ”Grin-der” und ”Enforcer”, welche im Schnitt 1 Millionen Dollar pro Jahr verdienen. DieUnterschiede zur Analyse des ”pro Minute” Datensatzes sind sehr gering und wer-den im Folgenden nicht weiter betrachtet.

Die Clusteranalyse der defensiven Spieler ermittelt zwei Cluster. Einerseits sinddies die ”Scorer”, welche viele Tore schießen und eine hohere Plus-Minus Statistikbesitzen. Andererseits wird die Spielerkategorie ”Agressors” identifiziert. Die Spie-ler dieses Clusters besitzen eine hohere Anzahl an Strafminuten und sind schwerer.Auch hier sind die beiden Analysen der zwei Datensatze sehr ahnlich. Ein ”Scorer”der Defensive verdient mit 2,2 Millionen Dollar pro Jahr fast doppelt so viel wie ein

”Agressor”.Die Analyse des Artikels zeigt, dass Spieler in der Offensive in drei Kategorien und

in der Defensive in zwei Kategorien eingeteilt werden. Dabei zeigt sich, dass dieseKategorien mit den Kategorien, die subjektiv Wahrgenommen werden im Allgemei-

18

Page 28: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

nen ubereinstimmen. Da die Autoren die Spielerkategorien mit dem Gehalt in Bezie-hung setzen, kann die Analyse Verantwortlichen von Vereinen als Uberprufung desGehaltsgefuge der eigenen Mannschaft dienen.

Kritisch zu betrachten ist, dass nur wenige Attribute fur die Analyse zur Verfugungstehen. So konnen detaillierte Informationen, zu genaueren Spielerkategorien fuhren.In Kapitel 5.3 dieser Arbeit wird eine Clusteranalyse mit den Spielern der Bundesligadurchgefuhrt. Dabei sind mehr Attribute vorhanden, als dies in diesem Artikel derFall ist. Die Analyse zeigt eine hohere Differenzierung der Spielweisen. Solche Ana-lysen konnen sehr gut zum Scouting genutzt werden, da es beim Scouting meist vonInteresse ist Spieler zu kaufen, welche abgegebene Spieler optimal ersetzen. Durch dieClusteranalyse lassen sich leicht Spieler aus gleichen Spielerkategorien identifizieren.Ein weiterer Artikel, der die Clusteranalyse nutzt ist in Abschnitt 3.6 beschrieben.

3.4 Der beste Zeitpunkt fur eine Einwechslung

Ein interessanter Ansatz zur Anwendung von Data Mining im Fußball bietet Myers[45]. In diesem Artikel werden zwar keine spielspezifischen Attribute von Spielernbzw. Mannschaften behandelt, da hier jedoch die Entscheidungsbaume als Data Mi-ning Methode eingesetzt werden, soll der Artikel zur Vollstandigkeit trotzdem be-schrieben werden. Unter Verwendung der Klassifikation wird in dieser Analyse eineStrategie ermittelt, welche den Trainern helfen kann die Zeitpunkte zu erfahren, wanneine Ein- bzw. Auswechslung eines Spielers sinnvoll ist.

Innerhalb der Regeln des Weltfußballverbands FIFA (Federation Internationale deFootball Association) sind bei einem Spiel maximal drei Wechsel pro Mannschaft er-laubt. Eine erneute Einwechslung eines bereits ausgewechselten Spielers ist dagegenausgeschlossen. Durch diese Regeln kann ein Trainer durch passende Wechsel nurbeschrankt auf den Spielverlauf einwirken. Ziel des Autors ist es eine effektive Wech-selstrategie zu entwickeln, welche die Wahrscheinlichkeit erhoht das Spiel positiv zubeeinflussen [45, S. 1].

Dem Autor Myers stehen fur die Analyse 485 Spiele zu Verfugung, bei denen dieTordifferenz vor und nach jedem Spielerwechsel gemessen wurden. Außerdem liegtder Fakt vor, ob eine Mannschaft zu Hause spielte oder auswarts. Die aufgenomme-nen Spiele stammen aus der englischen Premier League (155 Instanzen), der spani-schen Liga La Liga (158) und der Serie A aus Italien (172).

Bevor der Autor mit der Anwendung der Klassifikation beginnt, beschreibt er dasVerhalten der Ein- und Auswechslungen der Trainer in den zur Verfugung stehen-den Daten. So ist es ublich, dass die Trainer in uber 80 % der Falle alle drei Wech-selmoglichkeiten nutzen und in keinem der 485 Spiele ein Trainer gar keinen Wechselvornimmt. Der erste Wechsel wird im Schnitt in der 56. Minuten vorgenommen, derzweite Wechsel in der 70. Minute und die letzte Einwechslung passiert im Mittel inder 80. Minute. [45, S. 4]

Weitere Analysen der Daten zeigen, dass sich die Zeitpunkte der Einwechslungenunterscheiden, sofern eine Mannschaft fuhrt, zuruckliegt oder der Spielstand unent-schieden ist. So nehmen die Trainer bei einem Unentschieden oder einer bevorste-hende Niederlage die Wechsel fruher vor. Sofern der Verein vorne liegt, vertraut derTrainer dem Team und lasst die Spieler langer spielen. [45, S. 7]

Zusatzlich untersucht der Autor, ob sich die Wechselzeitpunkte unterscheiden, so-fern eine Mannschaft zu Hause spielt oder nicht. Der Autor kann hier jedoch keinestatistische Signifikanz bezuglich der Zeitpunkte feststellen.

Innerhalb der Ligen vollziehen die Trainer der italienischen Liga ihre erste Ein-wechslung fruher als die spanische und englische Liga. In der zweiten und drittenEinwechslung liegt keine statistische Signifikanz fur eine Unterscheidung vor.

19

Page 29: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 6: Wechselstrategie von Myers in Anlehnung an [45, S. 11]

• Wenn Mannschaft zuruckliegt:– Wechsle zum ersten Mal vor der 58. Minute– Wechsle zum zweiten Mal vor der 73. Minute– Wechsle zum dritten Mal vor der 79. Minute

• Sonst:– Wechsle nach belieben

Um eine statistische Signifikanz festzustellen, nutzt der Autor, wie auch in dem Ar-tikel aus Abschnitt 3.2, die Varianzanalyse und zusatzlich den Zweistichproben-t-Test.Bei der Varianzanalyse gelten allgemein die Varianzhomogenitat und die Normalver-teilung des Stichprobenumfangs als Voraussetzung [53, S. 381]. Der Zweistichproben-t-Test setzt ebenfalls die Normalverteilung voraus. Eine Erklarung, ob diese Voraus-setzungen gegeben sind, bleibt der Autor schuldig. Ob eine Anwendung der Varianz-analyse oder dem t-Test sinnvoll ist bleibt somit fraglich.

Bei der Anwendung von Data Mining wahlt der Autor die Entscheidungsbaumeals geeignete Klassifikationsmethode. Ein Entscheidungsbaum ist leicht darstellbarund da es Ziel ist, den Trainern eine Strategie vorzulegen, welche sie einfach nutzenkonnen, wird diese Methode in dem Artikel gewahlt. Als Trainingsdaten werden die485 Spiele eingesetzt. In Abbildung 6 ist die Strategie in einer Regel dargestellt, welchevon der Klassifikation erlernt wird.

Zusatzlich zu der entstandenen Regel gibt der Autor an, dass Mannschaften, wel-che vor dem ersten kritischen Punkt in Minute 58 hinten lagen und sich an die Regelhielten in 41 % der Falle ihre Lage verbesserten. Sofern ein Trainer nicht vor der 58.Minuten gewechselt hat, konnten in 18 % der Spiele das Ergebnis verbessert werden.Zu 30 % konnten Mannschaften ihre Situation verbessern, wenn sie vor der 73. Mi-nuten hinten lagen und ihre zweite Einwechslung vor diesem Punkt getatigt haben.Sofern sie dies nicht taten, trat eine Verbesserung in nur 6 % der Spiele ein. Sobald ei-ne Mannschaft bis zur 79. Minute hinten lag und der Trainer bis zu diesem Zeitpunkteinen Spieler ausgewechselt hat, brachte dies in 24 % der Falle eine Verbesserung. 7 %der Spiele konnten gedreht werden, falls die Trainer sich nicht an diese Regel hielten.

Fur Mannschaften die vorne liegen oder bei Spielen bei denen es Unentschiedensteht, konnen keine Empfehlungen fur die Wechsel ermittelt werden. Ebenfalls giltdie Regel nicht fur Wechsel, die auf eine Verletzung folgen oder wenn Spieler einerote Karten erhalten. [45, S.10]

Um die Regel zu validieren, nutzt der Autor weitere 1283 Spiele aus verschiedenenLigen, u.a. aus der Bundesligasaison 2009/2010 und der Weltmeisterschaft 2010, beidenen die Regel angewendet werden konnen. Die Instanzen aus den Trainingsdatensind ebenfalls im Validierungsdatensatz enthalten.

Die Validierung zeigt, dass in 34,29 % der Falle die Trainer nach der Regel gewech-selt haben. In diesen 440 Spielen war die Regel in 42,27 % der Falle erfolgreich. Vonden 843 Spielen bei denen die Regel nicht befolgt wurde, konnten nur 20,52 % der Ver-eine ihr Ergebnis verbessern. Somit kann ausgesagt werden, dass bei einer Befolgungder Regel die Chance auf eine Ergebnisverbesserung fast verdoppelt werden kann.[45, S. 13]

Der vorgestellte Artikel bietet einen interessanten Ansatz zur Anwendung von Da-ta Mining im Fußball. Hierbei sollen die Trainer in ihren Entscheidungen unterstutzt

20

Page 30: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

werden, zu welchem Zeitpunkt ein Wechsel stattfinden soll. Wie der Autor in seinemFazit schreibt, ist es schwer eine exakte Regel zu ermitteln, da ein Spielausgang vonvielen verschiedenen Faktoren abhangt. Der Autor erwahnt ebenfalls, dass zukunftigeForschungen in diesem Bereich mehrere Faktoren in Betracht ziehen sollten. Beispiels-weise fehlt in der Analyse welche Art von Spieler, wie Abwehrspieler oder Sturmer,eingewechselt werden soll. Außerdem wird die Qualitat der Einwechselspieler nichtbetrachtet. Weitere Analysen konnen auf dieser Analyse aufbauen und sie verfeinern.

3.5 Vorhersage von Spielausgangen

Viele Forschungen untersuchen die Moglichkeit mithilfe von Data Mining Sportereig-nisse vorauszusagen. Beispielsweise versuchen Rotshtein, Posner und Rakityanska-ya [52] mithilfe der Ergebnissen aus der Vergangenheit Spielausgange im Fußball zuprognostizieren. Chen et al. [10] wenden neuronale Netzwerke zur Vorhersage vonHunderennen an. Lyle [39] sowie West und Lamsal [66] beschaftigen sich mit der Vor-hersage von Prognosen im Baseball bzw. Football. Im Basketball werden von Beckler,Wang und Papamicheal [2], Loeffelholz, Bednar und Bauer [38] sowie Ivankovic et al.[32] versucht die Spielausgange vorherzusagen. Einen Uberblick uber den Einsatz vonData Mining zur Vorhersage im Basketball ist in der Masterthesis von Cao [6, S. 33ff]zu finden. Im Weiteren wird die Anwendung von neuronalen Netzwerken fur die Vor-hersage von Spielausgangen vorgestellt, wie sie von Ivankovic et al. [32] beschriebenwerden.

Ivankovic et al. [32] nutzen bei der Anwendung der neuronalen Netze die Daten derserbischen Basketballliga der Saisons 2005/2006 bis 2009/2010. Damit stehen den Au-toren Daten uber funf Saisons zur Verfugung, was insgesamt 890 Spielen entspricht.Als Attribute stehen unter anderem die Vorlagen (Assists), die offensiven und de-fensiven Rebounds (das Fangen von abgeprallten Ballen), die blockierten Wurfe oderdie Fouls zur Verfugung. Zusatzlich stehen detaillierte Informationen uber die Punk-tewurfe bereit. Beispielsweise steht die Position der zwei und drei Punktewurfe zurVerfugung. Das Spielfeld ist hierbei in sechs Positionen unterteilt. Fur diese sechs Zo-nen sind dabei die Anzahl an Wurfen sowie die Anzahl an Treffern gespeichert.

In einer ersten Anwendung des neuronalen Netzes werden nur diese Wurfdatenals Eingangsgroßen fur das neuronale Netz genutzt. Dabei wird fur jede Zone derAnteil an Treffern zu Wurfen pro Team und Spiel berechnet. Als Zielwerte werden dieKlassen ”Sieg” und ”Niederlage” definiert.

Die Autoren teilen die Daten in 75 Prozent Trainingsdaten und 25 Prozent Testdaten.Die Klassifikation erreicht dabei eine Klassifikationsrate von 66,4 % richtig vorherge-sagter Spiele [32, S. 176]. Um diese Rate zu verbessern, fuhren die Autoren eine zweiteKlassifikation unter Berucksichtigung aller verfugbaren Attribute durch. Hierbei wirdvernachlassigt, in welcher Zone die Wurfe abgegeben werden. Es werden lediglichdie Trefferquoten der 1-Punkte-, 2-Punkte- und 3-Punktewurfen im Allgemeinen be-trachtet. Zusatzlich liegen die Anzahl an offensiven und defensiven Rebounds, Vorla-gen, Steals (das Abnehmen des Balls vom Gegner), verlorenen Ballen und blockiertenWurfen vor.

In Abbildung 7 sind die Attribute und die Hohe ihres Einflusses auf den Ausgangdes Spiels visualisiert. Es zeigt sich, dass die Rebounds in der Defensive, sowie dieTrefferquoten der Zwei- und Dreipunktwurfe die wichtigsten Attribute darstellen.

Insgesamt werden von dem neuronalen Netzwerk unter Berucksichtigung des er-weiterten Datensatzes 1441 von 1780 Instanzen richtig klassifiziert. Das entspricht ei-ner Klassifikationsrate von 80,96 %. Dies ist eine sehr gute Vorhersage, welche jedochin dieser Weise zu keiner Prognose genutzt werden kann. Die Klassifikation ist gutdarin den Ausgang anhand der Werte vorherzusagen, welche im Spiel erreicht wor-

21

Page 31: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 7: Einfluss der Attribute auf den Spielausgang [32, S. 178]

den sind. Vor einem Spiel sind diese jedoch nicht bekannt. Ein noch nicht gespieltesSpiel konnte somit nicht prognostiziert werden. Eine Moglichkeit ware es, die An-nahme zu machen, dass eine Mannschaft im nachsten Spiel so spielt, wie sie in denPartien zuvor gespielt hat. Somit konnte man Durchschnittswerte der letzten Spieleberechnen und darauf eine Klassifikation anwenden. Jedoch wird bei einer solchenAnalyse die Starke des Gegners nicht berucksichtigt.

Durch die Visualisierung der Einflussstarke der einzelnen Attribute, kann man je-doch die wichtigsten Attribute fur einen Sieg ermitteln und diese als Information furdie eigene Taktik nutzen. Eine andere Moglichkeit ware es, statt eines neuronalenNetzwerks, einen Entscheidungsbaum als Methode zu nutzen. Mit einem Entschei-dungsbaum ist es moglich die Zusammenhange der Einflussgroßen zu visualisieren.Im Gegensatz dazu sind die Muster, die ein neuronales Netzwerk ermittelt fur denAnwender verborgen. Solche Methoden werden deshalb als Black-Box Methoden an-gesehen.

Loeffelholz, Bednar und Bauer [38] verwenden ebenso ein neuronales Netzwerk zurVorhersage von Spielausgangen im Basketball. Die Autoren dieses Artikels, nutzenim Gegensatz zum vorherigen Artikel, die Durchschnittswerte von Mannschaften zurPrognose von Spielen. Außerdem setzen sie die Werte der beiden Gegner gegenuber.Somit wird auch die Starke der gegnerischen Mannschaft betrachtet.

Bei der Analyse stehen folgende Attribute fur die Teams zur Verfugung [38, S. 3]:• Trefferquote der Zweipunktewurfe (Field Goal %)• Trefferquote der Dreipunktewurfe (Three Point %)• Trefferquote der Freiwurfe (Free Throw %)• Offensive Rebounds (Offensive Rebound)• Defensive Rebounds (Defensive Rebound)• Vorlagen (Assists)• Steals• Blockierte Wurfe (Blocks)• Ballverluste (Turnovers)• Fouls (Personal Fouls)• Punkte

Diese Werte sind jeweils fur die Heim- und Gastmannschaft gegenubergestellt.Zusatzlich ist aufgenommen, ob eine Mannschaft zuhause (1) oder auswarts (0) spielt.Als Klassen dienen die Werte {1} fur einen Heimsieg und {2} fur einen Auswartssieg.

22

Page 32: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 8: Beispiel 6 Basketballspiele [38, S. 3]

In Abbildung 8 sind die Daten fur sechs Spiele aufgelistet.Es liegen die Daten der Saison 2007/2008 vor. Dies entspricht 650 Instanzen. Die

Spiele werden so vorausgesagt, wie es auch in einer realen Anwendung eingesetztwerden konnte [38, S. 2]. Wie bereits erwahnt werden zur Prognose die Durchschnitts-werte der Mannschaften fur die gesamte Saison genutzt.

Statt nur ein neuronales Netzwerk zu nutzen, stellen die Autoren mehrere Arten derneuronalen Netze, wie das Feed Forward Neural Network oder Radial Basis Functionsgegenuber. Außerdem werden alle benutzten neuronale Netze mithilfe des BayesianBelief Networks und des Probalisitc Neural Network fusioniert. Idee ist es, alle Artender neuronalen Netze zu kombinieren und so eine bessere Klassifizierung zu erzielen[38, S. 8ff]. Um die erlernten Modelle zu testen, nutzen die Autoren insgesamt zehnTrainings- und Testdatensatze. Der erste Datensatz wird in 620 Trainingsdaten und 30Testdaten geteilt. Dabei sind die Trainingsinstanzen die ersten 620 Spiele und die Test-daten die 30 darauf folgenden Spiele. Die anderen neun Trainings- und Testdatensatzewerden wie bei der Cross-validation zufallig gewahlt [38, S. 10].

Die Autoren fuhren die neuronalen Netzwerke auf insgesamt vier verschiedene Da-tensatze aus. Der erste Datensatz betrachtet alle 22 Attribute. Fur den zweiten Da-tensatz wird die Feature Selection benutzt, welche die Attribute aus dem Datensatzermittelt, die den großten Einfluss auf den Zielwert haben. Dabei werden die Attri-bute Ballverluste und Punkte als wichtigste Attribute erkannt. Der dritte Datensatzbetrachtet alle offensiven Attribute, wie die Zweipunktetrefferquote, die Dreipunkte-trefferquote und die Trefferquote fur die Freiwurfe der beiden Teams. Der letzte Da-tensatz nutzt lediglich die offensiven Attribute der Dreipunktewurfe und Freiwurfeals Einflussgroßen.

Die durchschnittlichen Klassifikationsraten uber die zehn Testdatensatze sind in Ta-belle 1 dargestellt. Um einen Vergleich von Data Mining zu menschlichen Expertenvorzunehmen, sind zusatzlich die Klassifikationsraten der Experten der ZeitschriftUSA Today dargestellt. Die Experten der Zeitschrift versuchen vor den jeweiligenSpieltagen der Basketballliga die Spiele vorherzusagen.

Die Ergebnisse zeigen, dass Data Mining mehr Spiele vorhersagen kann, als es diemenschlichen Experten tun. Am besten lassen sich die Spieler anhand der Treffer-quoten der Dreipunktewurfe und Freiwurfe prognostizieren. Eine Fusionierung al-ler Netzwerke, fuhrt zu keinen besseren Ergebnissen. Mit 74,33 % durchschnittlicherKlassifikationsrate kann man sagen, dass eine gute Vorhersagbarkeit durch Data Mi-ning erreicht werden kann. Bei der Einteilung der ersten 620 Spiele der Saison alsTrainingsdatensatz und die nachfolgenden 30 Spiele als Testdaten, kann sogar eineKlassifikationsrate von 83,33 % erzielt werden [38, S.13f].

Die Resultate dieses Artikels zeigen, dass eine Vorhersage von Spielen sehr gutmoglich ist. Unter Zuhilfenahme mehrere Attribute oder mehreren Trainingsdaten

23

Page 33: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 1: Durchschnittliche Klassifikatonsraten in Anlehnung an [38, S. 13]

Netzwerk AlleAttribute

FeatureSelection

Offensive(6 Attr.)

Offensive(4 Attr.)

FFNN 71,67 70,67 72,67 74,33RBF 68,67 69,00 68,00 72,00PNN 71,33 69,00 72,33 73,34GRNN 71,33 69,00 72,33 73,34PNN Fusion 71,67 70,67 72,67 72,24Bayes Fusion 72,67 70,67 72,67 71,57Experten 68,67 68,67 68,67 68,67FFN: Feed Forward Neural Network, RBF: Radial Basis FunctionPNN: Probalistic Neural Network, GRNN: Generalized Neural Network

konnten sogar noch bessere Ergebnisse erzielt werden.

3.6 Kombination aus Cluster- und Regressionsanalyse

Chan, Cho und Novati [7] sowie Chan und Novati [8], kombinieren das Clusteringund die Regressionsanalyse, um den Punkteanteil eines Spielers an der Gesamtpunkt-zahl einer Mannschaft zu messen. Die Fragestellung, die hier beantwortet wird, ist diegleiche, die auch dieser Arbeit zu Grunde liegt. Der hier vorgestellte Idee zur Quanti-fizierung der Wichtigkeit eines Spielers, wird in dieser Arbeit in Kapitel 6 aufgenom-men und auf die Spieler der Bundesliga angewendet.

Die Artikel orientieren sich an der Clusteranalyse aus dem in Abschnitt 3.3 vorge-stellten Artikel, bei dem Eishockeyspieler in verschiedene Kategorien eingeteilt wer-den. Als erstes clustern die Autoren Chan, Cho und Novati, die ihnen zur Verfugungstehenden Eishockeyspieler anhand ihrer Spielweisen. In einem zweiten Schritt wirdmithilfe der Regression analysiert, in welchem Maß die einzelnen Spielercluster zuden erzielten Punkten einer Mannschaft beitragen. Der Einfluss eines Spielers auf dieGesamtpunktzahl, wird in Punkten angegeben. Je hoher diese Punktzahl ist, umsowichtiger war ein Spieler fur seinen Verein.

Chan, Cho und Novati [7, S. 134] liegen die Daten uber die Saisons 2005/2006 bis2009/2010 vor. Fur die Saison 2008/2009 sind dies beispielsweise 582 Offensivspieler,303 Defensivspieler und 89 Torhuter.

Fur die Clusteranalyse werden fur jede Position die oberen 75 % an Spielern aus-gewahlt, welche auf dieser Position am meisten Einsatzzeit hatten. Die unteren 25% werden aus dem Datensatz gefiltert. Dadurch umgehen die Autoren das Problem,dass Spieler im Datensatz enthalten sind, die nur wenig Einsatzzeit hatten und derenSpielweise durch diese geringen Einsatzminuten nur schlecht abgebildet werden [7,S. 134].

Folgende Attribute sind uber die Laufzeit einer Saison gesammelt [7, S. 133f]:• Offensive Spieler:

– Tore– Vorlagen– Plus-Minus Statistik– Anzahl an Korpereinsatzen gegenuber dem Gegner (Hits)– Blockierte Schusse– Strafminuten

24

Page 34: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

• Defensive Spieler:– Punkte (Tore + Vorlagen)– Plus-Minus Statistik– Anzahl an Korpereinsatzen gegenuber dem Gegner– Blockierte Schusse– Strafminuten

• Torhuter:– Gehaltene Schusse in %– Gegentorschnitt– Siege / Spiele in der Startaufstellung– Spiele ohne Gegentor / Spiele in der Startaufstellung

Dabei werden die einzelnen Attribute durch die Anzahl an Spielminuten eines Spie-lers geteilt. Die Plus-Minus Statistik beschreibt die Differenz von geschossenen underhaltenen Toren der Mannschaft eines Spielers, wahrend der entsprechende Spielerauf dem Eis stand. Als Siege gelten die Anzahl an Spielen bei denen der Torwart aufdem Eis stand und die Mannschaft das Siegtor geschossen hat. Der Gegentorschnittwird im Englischen auch als GGA (Goals Against Average) bezeichnet und beschreibtdie durchschnittliche Anzahl an Gegentreffern pro Spiel.

Fur die Clusteranalyse werden alle Attribute in den gleichen Wertbereich abgebil-det. Dazu werden die Werte fur Offensiv- und Defensivspieler anhand der Einsatzzeitnormalisiert. Zusatzlich werden die Werte standardisiert, indem der Mittelwert ab-gezogen wird und durch die Standardabweichung dividiert wird. Fur die Torhuterwerden die Werte durch die Anzahl an Spielen in der Startaufstellung normalisiertund anschließend standardisiert. Die Werte werden fur jeweils eine Saison betrachtet.Die Clusteranalyse wird separat fur jede Saison ausgefuhrt. [7, S. 134]

Wie bei der Clusteranalyse von Vincent und Eastman [61] aus Abschnitt 3.3, wirddie K-Means Clustermethode benutzt. Da hier die Zahl der zu identifizierenden Clus-ter im Vorhinein definiert werden muss, nutzen Chan, Cho und Novati den Clasinski-Harabasz pseudo-F Index und den Silhouette Value, um die optimale Clusteranzahlzu bestimmen. Diese Methoden messen die Dichte der Cluster. Beispielsweise berech-net der pseudo-F Index den Anteil der Quadratsummen zwischen den Clustern unddie Quadratsummen innerhalb der Cluster. Je hoher die beiden Werte der beiden Me-thoden sind, desto besser reprasentieren die Cluster die Daten. [7, S. 134]

Es zeigt sich, dass die optimale Clusteranzahl fur die einzelnen Positionen zwischenzwei und funf Clustern liegt. Die Autoren entscheiden sich fur die Clusteranzahl in-nerhalb dieses Bereichs, welche im Sinne des Eishockeys die aussagekraftigsten Clus-ter identifizieren. Fur die Offensivspieler sind dies vier Cluster, welche die Spielerals Top-Sturmreihe (Top Line), zweite Sturmreihe (Second Line), defensive Angreifer(Defensive) und korperbetont-spielende Angreifer (Physical) kategorisiert. Von derTop-Sturmreihe zu den korperbetont-spielenden Angreifern verringert sich die An-zahl an Toren, Vorlagen und die Plus-Minus Statistik, wahrend sich die Anzahl anKorpereinsatzen und Strafminuten erhoht. [7, S. 135]

In der Defensive werden ebenfalls vier Cluster identifiziert. Diese bestehen ausoffensiven (Offensive), defensiven (Defensive), durchschnittlichen (Average) undkorperbetont-spielenden (Physical) Defensivspielern. Dabei erzielen die offensi-ven Spieler die meisten Punkte. Die defensiv ausgerichteten Spieler erreichen diehochste Plus-Minus Statistik und die hochste Anzahl an blockierten Schussen. Diekorperbetont-spielenden Defensivspieler begehen die meisten Korpereinsatze und er-halten die meisten Strafminuten. Die durchschnittlichen Defensivspieler haben in denmeisten Attributen durchschnittliche Werte. [7, S. 135]

Bei den Torhutern liegt die optimale Clusteranzahl bei drei Clustern. Hier gibt es die

25

Page 35: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Elite-Torhuter (Elite), die durchschnittlichen Torhuter (Average) und die schlechterenTorhuter (Bottom). Dabei erzielen die Elite-Torhuter die besten Werte in allen Attri-buten und die schlechteren Torhuter die schlechtesten Werte. Die durchschnittlichenTorhuter liegen in der Mitte dieser beiden Spielerkategorien. [7, S. 135f]

Aufbauend auf der Clusteranalyse, nutzen die Autoren die Regressionsanalyse, umden Einfluss der einzelnen Spielertypen auf die erspielten Punkte zu messen. Um die-se Analyse durchzufuhren, wird fur jede Mannschaft ermittelt, wie lange die einzel-nen Spielertypen fur eine Mannschaft uber eine gesamte Saison gespielt haben. Hier-zu werden die gespielten Minute eines Spieler durch die Gesamtanzahl an gespiel-ten Minuten der gesamten Saison geteilt. Insgesamt kann ein Spieler 4967 Minutenfur eine Mannschaft spielen. Das entspricht den 82 Spielen einer Saison, welche 60Minuten dauern. Zusatzlich wird diese Zahl mit 47 addiert, welche die Anzahl anVerlangerungsminuten fur die Spiele einer gesamten Saison reprasentiert. Ein Spieldauert demnach im Schnitt 60,6 Minuten. Dies bedeutet, wenn ein Elite-Torwart 1500Minuten fur eine Mannschaft uber eine Saison gespielt hat, so werden die 1500 Minu-ten durch 4967 Minuten geteilt. Damit hatte dieser Torwart fur das Cluster der Elite-Torhuter seiner Mannschaft mit einem Anteil von etwa 0,3 beigetragen. [7, S. 137]

Fur die Regression werden diese Werte der Cluster einer Mannschaft als die un-abhangigen Variablen genommen, wahrend die Anzahl an erspielten Punkten uberdie Saison die abhangige Variable reprasentiert. Die Autoren fuhren zwei Regressi-onsanalysen durch. Eine Regression, welche nur die wichtigsten Cluster betrachtetund eine Regression, welche alle Cluster berucksichtigt. Dabei zeigt sich, dass dieRegression unter Berucksichtigung der wichtigsten Cluster als Eingangsgroßen dasbeste Ergebnis erzielt. Im Schnitt liegt die Prognose 10,2 Punkte neben der tatsachlicherreichten Punktzahl, sofern die Saison 2009/2010 als Testdatensatz dient und die rest-lichen Saisons als Trainingsdaten. Die finale Formel der Regression wird mithilfe allerSaisons als Trainingsdatensatz ermittelt. In Tabelle 2 sind die Ergebnisse der Regressi-on dargestellt. [7, S. 137]

Es zeigt sich, dass die Elite-Torhuter die meisten Punkte fur ihre Mannschafteinspielen. Danach sind die Top-Offensivspieler am wichtigsten. Die durchschnitt-lichen Torhuter und die zweite Sturmreihe haben etwa den gleichen Einfluss aufdie Punktzahl, welcher jedoch geringer ist als die der Elite-Torhuter und der Top-Sturmreihe. Die Defensivspieler haben von allen Clustern den geringsten Einfluss.Die korperbetont-spielenden Angreifer, die durchschnittlichen und korperbetont-spielenden Defensivspieler sowie die schlechteren Torhuter sind nicht statistisch si-gnifikant fur die Regression.

Im weiteren Verlauf des Artikels, setzen Chan, Cho und Novati den Einfluss derSpielerkategorien auf die Teampunkte mit dem Gehalt der Spieler in Beziehung. Da-bei zeigt sich, dass die defensiv-agierenden Angreifer zwar weniger als die Spieler derbesten- und zweiten Sturmreihe verdienen, verglichen mit dem Einfluss auf die Team-punkte jedoch eine gute Investition fur Vereine darstellen [7, S. 138f]. Laut der Analysesind die Top-Angreifer uberbezahlt, wahrend die Elite-Torhuter ebenfalls viel verdie-nen, dies jedoch mit der erbrachten Leistung im Gleichgewicht steht. Insgesamt sinddie Defensivspieler uberbezahlt, da sie nur wenig Einfluss auf die Punktzahl haben,jedoch etwa gleichviel wie die Offensivspieler verdienen.

Zum Abschluss ihres Artikels, stellen die Autoren ihr entwickeltes ”Trade Tool”vor, welches auf den vorgestellten Ergebnissen aufbaut. Dabei werden im Verlauf desArtikels verschiedene Transfers exemplarisch verglichen. Die genaue Analyse der Bei-spiele werden von Chan, Cho und Novati [7, S. 139-141] beschrieben.

Den Einsatz dieses Werkzeugs betrachten die Autoren als kritisch. So erklaren sie,dass das ”Trade Tool” zur Evaluation von vergangenen Transfers nutzlich ist, jedoch

26

Page 36: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 2: Ergebnisse der Kombination in Anlehnung an [7, S. 138]

Position Cluster Teampunkte

OffensivspielerTop 288Zweite Sturmreihe 199Defensiv 187Korperbetont-spielend –

DefensivspielerOffensiv 93Defensiv 37Durchschnitt –Korperbetont-spielend –

TorhuterElite 321Durchschnitt 212Schlecht –

der Einsatz fur eine Analyse von zukunftigen Transfers schwierig ist. So kann nichtermittelt werden wie viele Minuten ein gekaufter Spieler in Zukunft fur eine Mann-schaft auflauft, ob sich ein Spieler verletzt oder ob er seine bisherige Form halt [7, S.141].

Der vorgestellte Ansatz bietet eine Moglichkeit die Wichtigkeit einzelner Spieler-typen fur die Leistung einer Mannschaft zu ermitteln und diese mit dem Gehalt derSpieler zu vergleichen. So kann evaluiert werden, ob ein Spieler seinen erhaltenenLohn rechtfertigt. Verantwortliche konnen so das Gehaltsgefuge ihrer Mannschaft kri-tisch hinterfragen sowie den Mix ihrer Mannschaft aus verschiedenen Spielertypenuberprufen. Zusatzliche Daten konnen den Ansatz erweitern.

In dem fortfuhrenden Artikel von Chan und Novati [8] wird ein anderer Ansatzder Clusteranalyse durchgefuhrt. Hier wird ein Spieler nicht nur einer Kategoriezugeordnet, sondern wird durch eine Kombination der Cluster seiner Position re-prasentiert. Beispielsweise wird so ein Offensivspieler, der vorher in die Kategorie derTop-Angreifer eingeteilt wurde, nun als ein Spieler reprasentiert, der zu 40 % wie einTop-Angreifer, zu 25 % wie ein zweiter Sturmreihenspieler, zu 20 % wie ein defensiverAngreifer und zu 15 % wie ein korperbetont-spielender Angreifer spielt. Durch dieseDarstellung umgeht man das Problem in der vorangegangen Analyse, dass gleicheSpielertypen auch den gleichen Wert fur eine Mannschaft haben. Durch die detaillier-te Betrachtung der Spielweise kann die Quantifizierung der Wichtigkeit eines Spielersgenauer betrachtet werden. Ebenfalls werden so keine Spieler aus der Analyse ausge-schlossen. In der vorigen Regressionsanalyse hatten Spieler, die beispielsweise unterdie korperbetont-spielenden Angreifer fielen keinen Koeffizienten, da dieses Clusterals nicht signifikant eingestuft wurde [8, S. 1]. Im weiteren Verlauf konnen die Autorensomit einen individuellen Wert fur jeden Spieler der NHL ermitteln.

In beiden Analysen wurde mit den vorgestellten Attributen der Spieler gearbei-tet. Mit weiteren Attributen konnte das Clustering noch detailliertere Spielweisen be-trachten.

Die Idee aus diesem Artikel wird in dieser Arbeit in Kapitel 6 aufgenommen undmit den hier vorliegenden Daten durchgefuhrt. Dadurch soll ermittelt werden, in wel-chem Umfang einzelne Spieler der Bundesliga die Leistung einer Mannschaft beein-flussen.

27

Page 37: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

4 Datengrundlage

Bis vor wenigen Jahren wurden nur die offensichtlichsten Daten eines Fußballspielserhoben. So sind beispielsweise die Aufstellung der Mannschaften, die Vorlagengebereines Tores oder die Torschutzen uber Jahre hinweg aufgenommen worden und imInternet einsehbar. Erst seit wenigen Jahren werden gehaltvollere Daten aufgenom-men und Spielern, Trainern oder Fans prasentiert. Dabei sind z.B. auf der offiziel-len Seite der Bundesliga bundesliga.de seit der Saison 2009/2010 umfangreichereStatistiken uber die Teams einzusehen, wie beispielsweise die Anzahl an Ballkontak-ten der gesamten Mannschaft in einem Spiel. In den Spielstatistiken ab der Saison2011/2012 sind zusatzliche Statistiken, wie das Zweikampfverhalten, das Passspieloder die Laufdistanz fur einzelne Spieler bereitgestellt. Ab wann genau die erwei-terte Datenaufnahme begonnen hat ist nicht bekannt. Opta, eines der fuhrende Un-ternehmen, welches Daten im Sport und vor allem im Fußball aufnimmt und bereit-stellt, hat 2006 die Datensammlung um die Aufnahme der x/y Koordinaten des Spiel-felds erweitert. Außerdem werden seit diesem Jahr die Daten von jeweils zwei Spiel-beobachtern und einem Aufseher gesammelt [49]. In Deutschland sind die Stadiender ersten und zweiten Bundesliga seit der Saison 2011/12 mit dem Tracking-SystemVis.Track, einem Bildbearbeitungs-System ausgestattet [31]. Dieses ermoglicht Spieleaufzuzeichnen und teilweise automatisiert auszuwerten.

In anderen Sportarten wie Baseball, Basketball, Eishockey oder Football wer-den schon langer detaillierte Daten aufgenommen und ausgewertet. Gerade im Ba-seball, wo durch den Statistiker Bill James im Jahr 1977 eine Revolution in derStatistik von Baseball losgetreten wurde, gibt es große, frei zugangliche Datenba-sen zu finden. Beispielsweise sind auf seanlahman.com/baseball-archive/statistics/ Schlag- und Wurfstatistiken seit 1871 gesammelt. Wie man in derReadme-Datei der Datenbank sieht, sind hier eine Vielzahl von spielspezifischen At-tributen fur die einzelnen Spieler und Spiele gesammelt. Beim Basketball findet manunter anderem auf der Seite databasebasketball.com umfangreiche Statistikenvon Spielen der NBA seit der Saison 1946/47. Fur Football stehen beispielsweise unterpro-football-reference.com Daten bis zuruck zum Jahr 1920 zur Verfugung.

Der große Vorteil der Datenbanken dieser Sportarten ist, dass die Daten frei zumDownload verfugbar sind. Beim Fußball ist hier ein Defizit zu erkennen. So kannman Webseiten finden, welche beispielsweise alle Ergebnisse der Spiele oder dieTorschutzenlisten der Saisons zur Verfugung stellen. Es finden sich jedoch keine de-taillierten Informationen, wie beispielsweise uber die Zweikampfquoten oder uberdas Laufverhalten von Mannschaften oder Spielern. Einen Anfang zur Anderung die-ses Umstandes wurde in der Saison 2011/2012 gemacht. Detaillierte Daten fur die-se Saison der Premier League wurden vom Verein Manchester City und Opta freizur Verfugung gestellt. Derzeit existiert die Aktion nicht mehr, es konnte sich ubereinen bestimmten Zeitraum jedoch jede Person die umfangreichen Daten dieser Sai-son herunterladen und eigene Analysen kreieren. Inwiefern in Zukunft Daten frei zurVerfugung gestellt werden ist derzeit nicht absehbar.

Die Daten, welche in dieser Arbeit zum Einsatz kommen werden hauptsachlich vonder IMPIRE AG zur Verfugung gestellt. Die IMPIRE AG ist ein Dienstleister von Fuß-balldaten sowie den zugehorigen Services und Technologien [30]. Die Firma wurde1988 gegrundet und hat ihren Hauptsitz in Ismaning bei Munchen [27]. Ab der Saison2011/2012 ist die IMPIRE AG zur Erhebung der offiziellen Spieldaten der 1. sowie 2.Bundesliga berechtigt. Die Entscheidung zur offiziellen Vergabe der Datenerhebungdurch die DFL wurde aufgrund des Ziels zur Vereinheitlichung und Steigerung derDatenqualitat der Wettbewerbe des Ligaverbandes getroffen [4]. Die IMPIRE AG halt

28

Page 38: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

zusatzlich die Rechte fur die weltweit exklusive Vermarktung der Daten fur Medienund Sportwetten [28].

Die Erhebung der Daten erfolgt bei der IMPIRE AG in zwei Teilen. Einerseits gibt esdie Spielbeobachtung (Scouting) und andererseits das Tracking. Das Scouting nimmtdie Aktionen auf dem Spielfeld auf. Das Tracking speichert die physischen Daten,wie etwa die Laufleistung, mithilfe von zwei im Stadion installierten Kameras [59].Laut der IMPIRE AG erheben insgesamt sieben Personen die Daten eines Spiels. Da-bei sind vier dieser Personen die Spielbeobachter. Die restlichen drei Personen die-nen als Trackingoperatoren fur das Spiel. Zusatzlich werden die Daten im Nachganguberarbeitet und verfeinert [29]. Die IMPIRE AG nimmt pro Spiel uber 2000 Ereig-nisse auf und hat seit 1992 jedes Bundesligaspiel per Videoanalyse ausgewertet. Dieaufgenommenen Ereignisse beinhalten z.B. die Passe, Zweikampfe, Fouls, gelaufenenKilometer oder die Anzahl an Sprints [29].

Fur die hier vorliegende Arbeit wurden von der IMPIRE AG die Daten fur dieSaison 2010/2011 sowie 2011/2012 zur Verfugung gestellt. Zur Vereinfachung wirdim Folgenden die Saison 2010/2011 als Saison 2010 bezeichnet sowie die Saison2011/2012 als Saison 2011. Dabei konnten insgesamt sechs Ereignisse bzw. Attribu-te ausgewahlt werden, welche die IMPIRE AG pro Spieler freigibt. Dabei handelt essich um die folgenden spielspezifischen Attribute:• Gewonnene Zweikampfe in %• Anzahl an Ballkontakten• Anzahl an Passen• Erfolgreiche Passquote in %• Anzahl an Torschussen• Anzahl an Torschussvorlagen

Diese Ereignisse sind fur jeden Spieler in den Spielen gespeichert, an denen er teil-genommen hat. Zusatzlich sind in der von der IMPIRE AG zur Verfugung gestelltenExcel Tabelle die Saison, der Spieltag, das Datum des Spiels, die Heimmannschaft, dieGastmannschaft und der Verein sowie der Name des Spielers gelistet. Tabelle 3 zeigtdie Daten fur das Spiel zwischen dem 1. FC Koln und dem SV Werder Bremen des 19.Spieltags der Saison 2010, wie sie von der IMPIRE AG bereitgestellt werden.

Mithilfe dieser Daten sind weitere Attribute eines Spielers berechenbar. So kann die

”Prozentzahl der verlorenen Zweikampfe” mithilfe der ”gewonnenen Zweikampfein Prozent” ausgerechnet werden, indem man die Zahl von 100 abzieht. Die ”feh-lerhafte Passquote in %”, die ”Anzahl an erfolgreichen Passen” sowie die ”Anzahlan fehlerhaften Passen” lassen sich mithilfe der zwei Attribute ”Anzahl an Passen”und ”erfolgreiche Passquote in %” ausrechnen. Die ”fehlerhafte Passquote in %” er-gibt sich indem man von 100 die ”erfolgreiche Passquote in %” abzieht. Die ”Anzahlan Passen” multipliziert mit der ”Erfolgreichen Passquote in %” sowie geteilt durch100 ergibt die ”Anzahl an erfolgreichen Passen”. Die ”fehlerhaften Passe” ergeben sichwiederum aus der ”Anzahl an Passen” minus der ”Anzahl an erfolgreichen Passen”.

Als weitere Quelle fur Spielerdaten im Fußball dient in dieser Arbeit das Internet.Dabei gibt es mehrere Webseiten, welche die Ergebnisse von jedem Spiel der Bundes-liga in einem Spielbericht aufzeichnen. Zusatzlich zu dem reinen Ergebnis des Spiels,werden hier leicht aufzunehmende Ereignisse gelistet. So sind bei den meisten Seitendie Torschutzen, Vorlagengeber und auch das Erhalten einer gelben Karte aufgezeich-net.

In der vorliegenden Arbeit wird die Seite fussballdaten.de als weite-re Quelle genutzt, um die Daten der IMPIRE AG anzureichern. Auf der Seitefussballdaten.de sind vielfaltige Informationen zu den Bundesligen, zum DFB-Pokal, zu Landerspielen und auch zu auslandischen Ligen zu finden. In erster Linie

29

Page 39: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabe

lle

3:Be

ispi

elIM

PIR

EA

GD

aten

Sais

onSp

ielt

agD

atum

Hei

mG

ast

Vere

inSp

iele

rZ

KBK

PPQ

TSTV

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enM

arko

Arn

auto

vic

1518

1080

00

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enD

enni

Avd

ic30

133

66,6

72

020

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Phili

ppBa

rgfr

ede

47,6

272

3881

,58

00

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enTo

rste

nFr

ings

4872

4178

,05

01

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enC

lem

ens

Frit

z52

,63

8541

75,6

10

020

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Aar

onH

unt

38,4

650

3287

,51

220

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Felix

Kro

os35

,71

2215

800

020

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Mar

koM

arin

47,8

326

1687

,50

120

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Per

Mer

tesa

cker

69,5

769

4789

,36

00

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enPe

triP

asan

en62

,577

4210

01

020

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Cla

udio

Piza

rro

34,3

841

2382

,61

00

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enM

ikae

lSilv

estr

e48

,28

9658

75,8

60

020

1019

22.0

1.20

11K

oln

Brem

enBr

emen

Sand

roW

agne

r25

52

100

00

2010

1922

.01.

2011

Kol

nBr

emen

Brem

enTi

mW

iese

100

3915

53,3

30

020

1019

22.0

1.20

11K

oln

Brem

enK

oln

And

rezi

nho

6863

1266

,67

12

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nC

hris

tian

Cle

men

s46

,67

3713

92,3

11

120

1019

22.0

1.20

11K

oln

Brem

enK

oln

Fabr

ice

Ehre

t70

,83

6824

66,6

70

220

1019

22.0

1.20

11K

oln

Brem

enK

oln

Chr

isti

anEi

chne

r72

,73

296

83,3

30

020

1019

22.0

1.20

11K

oln

Brem

enK

oln

Pedr

oG

erom

el61

,11

283

100

00

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nM

arti

nLa

nig

48,7

256

2190

,48

21

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nA

dam

Mat

usch

yk65

,38

3917

82,3

52

020

1019

22.0

1.20

11K

oln

Brem

enK

oln

Kev

inM

cKen

na0

20

00

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nM

ilivo

jeN

ovak

ovic

42,8

635

1190

,91

20

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nSl

awom

irPe

szko

43,2

440

1794

,12

12

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nLu

kas

Podo

lski

54,5

558

2268

,18

24

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nM

icha

elR

ensi

ng21

560

00

2010

1922

.01.

2011

Kol

nBr

emen

Kol

nR

einh

old

Yabo

00

00

020

1019

22.0

1.20

11K

oln

Brem

enK

oln

Tane

rYa

lcin

02

110

01

0Z

K=

%Z

wei

kam

pfge

won

nen,

BK=

Ballk

onta

kte,

P=

Pass

e,PQ

=%

Pass

quot

e,TS

=To

rsch

usse

,TV

=To

rsch

ussv

orla

gen

30

Page 40: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 9: Spielstatistik fussballdaten.de

sind die Spielberichte der beiden Saisons 2010 und 2011 der 1. Bundesliga fur dieseArbeit von Bedeutung. Zusatzlich werden die Spielerstatistiken der Seite genutzt, umweitere Informationen, wie die Spielerposition aber auch die Anzahl an Landerspieleneines Spielers zu ermitteln.

Bei fussballdaten.de wird zu jedem Spiel ein kurzer Bericht geschrieben, wel-cher den Spielverlauf des Spiels zusammenfasst. Außerdem gibt es eine Statistikzu dem jeweiligen Spiel. Hier sind Informationen gespeichert, wie die Paarung desSpiels, das Ergebnis, der Spieltag, das Datum, die Aufstellungen, die Trainer, dieTorschutzen, die Vorbereiter der Tore, die Ein- und Auswechslungen sowie die Kar-ten, die einzelne Spieler erhalten haben. Abbildung 9 zeigt ein Beispiel einer solchenStatistik fur das Spiel des 1. FC Kolns gegen den SV Werder Bremen.

Neben den Spielberichten werden Daten aus den Statistiken der einzelnen Spielervon fussballdaten.de ausgelesen. In der Spielerstatistik sind Informationen, wiedas Geburtsdatum, die Nationalitat, die Position des Spielers sowie seine Große undsein Gewicht aufgelistet. Zusatzlich sind hier die Anzahl an Vereinsspielen aufgeteiltauf die einzelnen Saisons sowie die Spiele als Nationalspieler in der jeweiligen Saisongespeichert.

Um die entsprechenden Daten aus den HTML-Seiten von fussballdaten.deauszulesen werden die Spielberichte sowie die Spielerstatistiken in einem ersten

31

Page 41: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 10: ETL-Prozess

MySQL Datenbank

IMPIRE AG Daten in Excel Format

fusballdaten.de

Import

Lokal gespeicherte HTML-Seiten

Speichern mithilfe von HTTrack Python

(Auslesen + Speichern)

Schritt mittels der Software HTTrack automatisiert heruntergeladen und lokal gespei-chert. HTTrack ist ein frei verfugbarer offline Browser, welcher im Stande ist HTMLSeiten, Bilder und andere Dateien von einem Server herunterzuladen und diese lo-kal abzuspeichern [25]. Dabei kann HTTRack, je nach Einstellung zu Links verzwei-gen und die entsprechenden Seiten herunterladen oder nur spezielle Seiten oder Da-teien speichern. Mithilfe der Software ist es somit moglich, alle Spielerberichte derbeiden Saisons sowie die Spielerstatistiken der aufgestellten Spieler auf dem lokalenSystem abzuspeichern. Anschließend konnen die HTML-Seiten entsprechend ausge-wertet werden sowie deren Daten in einer geeigneten Form abgelegt werden.

Mithilfe der Programmiersprache Python werden die abgelegten HTML-Seiten aus-gewertet. Python unter Einsatz der Bibliothek ”lxml” ermoglicht es XML und HTMLSeiten weiterzuverarbeiten. Dadurch konnen die benotigten Informationen aus denHTML-Seiten ausgelesen, verarbeitet und gespeichert werden. Nahere Informationenzu Python finden sich unter python.org. Informationen zur Bibliothek lxml un-ter lxml.de. Die Daten werden mithilfe von Python unter der Unterstutzung vonMySQLdb (sourceforge.net/projects/mysql-python/) in einer MySQL Da-tenbank gespeichert. Eine Datenbank vereinfacht die Speicherung, Restrukturierungund Auswertung der Daten. Zudem kann der einfache Zugriff auf die Daten ausder hier benutzten Data Mining Software Weka automatisch geschehen. Entsprechendwerden die Daten aus der Excel-Datei der IMPIRE AG in eine geeignete Tabelle derMySQL Datenbank importiert. Das Extrahieren, Transformieren und Speichern wirdauch der ETL-Prozess genannt. ETL steht hierbei fur Extract, Transform und Load.Der ETL-Prozess wird in Abbildung 10 nochmals bildlich dargestellt.

Mithilfe von Python werden die folgenden Daten aus den Spielberichten gelesenund mit den Daten von der IMPIRE AG angereichert:• Anzahl an Toren• Anzahl an Vorlagen• Anzahl an gelben Karten• Minute der Einwechslung• Minute der Auswechslung• Ergebnis

32

Page 42: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Anhand dieser Werte und den Ereignissen der IMPIRE AG werden zusatzlich nochdie Werte• Vergebene Torschusse = Torschusse - Tore• Erfolgreiche Torschussquote = Tore / Torschusse• Fehlerhafte Torschussquote = 100 - Erfolgreiche Torschussquote• Pass pro Ballkontakt = Passe / Ballkontakte• Erfolgreicher Pass pro Ballkontakt = Erfolgreiche Passe / Ballkontakte• Torschussvorlage pro Pass = Torschussvorlage / Passe• Gespielte Minuten = Anzahl an gespielten Minuten berechnet durch die Minu-

ten der Ein- und Auswechslungberechnet. Das ”Attribut Pass Pro Ballkontakt” gibt dabei den Wert zuruck, der aus-sagt wie schnell ein Spieler den Pass weiterspielt, sobald er in Ballbesitz kommt. ”Er-folgreicher Pass pro Ballkontakt” gibt wieder, inwiefern dieser Pass gleichzeitig nocherfolgreich war. Das Attribut ”Torschussvorlage pro Pass” soll darstellen, wie hochder Anteil aller Passe ist, die direkt zu einer Torchance fuhren und somit zielfuhrendersind. Die anderen Werte gelten als Anreicherung der schon aufgenommen Ereignisse.Alle bisher aufgelistete Daten werden in der Tabelle Fakten der MySQL-Datenbankgespeichert. Diese Tabelle enthalt die folgenden spielspezifischen Attribute:• Zweikampf• VerlZweikampf• Ballkontakte• ErfPaesse• FehlPaesse• Paesse• ErfPassquote• FehlPassquote• Torschuesse• VergTorschuesse• ErfTorschussquote• FehlTorschussquote• Torschussvorlagen• Vorlage• Tore• Gelb• PassProBallkontakt• ErfPassProBallkontakt• TorschussvorlageProPass

Zusatzlich werden aus den Spielerstatistiken weitere Daten ausgelesen, welche furspatere Analysen zur Verfugung stehen sollen. Dabei handelt es sich einerseits umdie Spielerposition, die entweder den Wert Torwart, Abwehr, Mittelfeld oder Angriffannehmen kann. Die Spielerposition wird in den weiteren Analysen dieser Arbeiteine wichtige Rollen spielen, da Analysen fur die Position oft separat durchgefuhrtwerden. Zusatzlich werden noch das Geburtsdatum, das Alter, das Gewicht und dieGroße der Spieler aufgenommen. Diese Werte werden in der Tabelle Spielereigen-schaften gespeichert.

Die Statistik aus Tabelle 4 gibt die maximalen Werte (Max), minimalen Werte (Min),Mittelwerte (MW) und die Standardabweichung (SD fur Standard Deviation) der auf-gelisteten Attribute der beiden Saisons wieder. Dabei werden die Torhuter ausgelas-sen, da die aufgelisteten Attribute keine Torhuter-spezifischen Daten darstellen. DieQualitat eines Torhuters wird anhand anderer Daten gemessen, wie etwa die gehal-tenen Torschusse oder abgefangenen Flanken. Ein Torhuter hat in der Regel wenige

33

Page 43: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 4: Statistik Fakten

Wert Min Max MW SDZweikampf 0 100 49,0432 19,4007VerlZweikampf 0 100 50,9568 19,4007Ballkontakte 0 145 44,0655 24,3196ErfPaesse 0 131 22,3373 16,1939FehlPaesse 0 27 5,6135 4,0366Paesse 0 134 27,9508 18,4587ErfPassquote 0 100 76,0820 18,3166FehlPassquote 0 100 23,9180 18,3166Torschuesse 0 10 1,0275 1,3217VergTorschuesse 0 10 0,9177 1,2156ErfTorschussquote 0 100 5,4104 19,0713FehlTorschussquote 0 100 94,5896 19,0713Torschussvorlagen 0 15 0,9872 1,3175Vorlage 0 3 0,0913 0,3169Tore 0 4 0,1098 0,3605Gelb 0 1 0,0799 0,2711PassProBallkontakt 0 1 0,6043 0,1731ErfPassProBallkontakt 0 1 0,4732 0,1742TorschussvorlageProPass 0 2 0,0454 0,0864Gespielt 1 90 70,4096 29,4826

Ballkontakte oder schießt keine Tore. Um eine Verfalschung der Statistik zu umgehenwerden Torhuter demnach aus der Statistik ausgelassen. Die Tabelle Fakten beinhal-tet insgesamt 16933 Instanzen, wobei 46 dieser Instanzen Eigentore bezeichnen undkeinem Spieler zugeordnet sind. Insgesamt wurde somit ein Datensatz mit 16887 Fak-ten von der IMPIRE AG zur Verfugung gestellt und anschließend mit Daten aus demInternet angereichert. Ohne Torhuter sind dies 15646 Instanzen.

Anhand der von fussballdaten.de gelesenen Ergebnisse der Spiele wirdzusatzlich die Tabelle Abschlusstabelle berechnet. Bei einem Sieg erhalt die siegrei-che Mannschaft drei Punkte, bei einem Unentschieden erhalten beide Vereine einenPunkt. Fur eine Niederlage werden keine Punkte vergeben. Diese erspielten Punk-te werden fur die jeweiligen Hin- und Ruckrunden der Saison 2010 sowie der Saison2011 pro Verein zusammengezahlt und gespeichert. Die Hinrunde behandelt die Spiel-tage 1 bis 17 und die Ruckrunde die Spieltage 18 bis 34. Zusatzlich wird anhand derPunkte der Rang der Mannschaft berechnet. Rang bedeutet hier, in welchem Tabellen-teil die betrachtete Mannschaft gelandet ist. Dabei wird die Tabelle fur die Hin- undRuckrunde in drei Teile geteilt. Die ersten funf Mannschaften sind die erfolgreicherenMannschaften. Sie qualifizieren sich fur die internationalen Wettbewerbe, wie die Eu-ropa League und die Champions League. Sie nehmen in der Tabelle den Wert {2} an.Die letzten drei der insgesamt 18 Mannschaften einer Saison gelten als die Absteigerund nehmen den Rang {0} an. Die Zahl {1} gilt fur die Mannschaften, welche zwi-schen diesen zwei Regionen landen. Bei Punktgleichheit zum funften bzw. 16. Platzwird der entsprechende Rang auf {2} bzw. {0} gesetzt. Die Hin- und Ruckrundenwerden isoliert betrachtet. Das heißt, die Punkte der Ruckrunde werden nicht mit denPunkten der Hinrunde summiert, sondern separat behandelt.

Des Weiteren sind im Spielbericht von fussballdaten.de die Noten eines Spie-lers gespeichert, welche er von der Redaktion des Portals fur seine Leistung im Spielerhalten hat. Die Notenvergabe ist naher in Kapitel 5.2 beschrieben, in dem die Noten

34

Page 44: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 11: Nationalspieler fussballdaten.de

Abbildung 12: Datenmodell

Fakten+Saison+Spieltag+Datum+Heim+Gast+Verein+Spieler+Zweikampf+VerlZweikampf+Ballkontakte+Paesse+ErfPaesse+FehlPaesse+ErfPassquote+FehlPassquote+Torschuesse+VergTorschuesse+ErfTorschussquote+FehlTorschussquote+Torschussvorlagen+Tore+Vorlage+Gelb+PassProBallkontakt+ErfPassProBallkontakt+TorschussvorlageProPass+Eingewechselt+Ausgewechselt+Gespielt+Ergebnis

Noten+Saison+Spieltag+Spieler+Note

Nationalspieler+Spieler+Saison2009+Saison2010+Saison2011+Saison2012

Spielereigenschaften+Saison+Spieler+Nationalitaet+Geburtstag+Gewicht+Groesse+Spielerposition

Abschlusstabelle+Saison+Runde+Verein+Pkte+Rang

auch zur Anwendung beim Data Mining kommen. Die Noten der Spieler werden inder Tabelle Noten gespeichert. Hier ist die Saison, der Spieltag, der Spieler und dieNote fur das entsprechende Spiel hinterlegt.

Wie bereits erwahnt, sind neben den Spielereigenschaften auch die Anzahl an Na-tionalspielen in den einzelnen Jahren in dieser Arbeit von Bedeutung. Diese Informa-tion ist fur die Data Mining Anwendung in Kapitel 5.1 notig. In Abbildung 11 sinddie Spiele als Nationalspieler von Dennis Aogo, wie sie von fussballdaten.de an-gezeigt werden, abgebildet. Fur die hier vorgestellten Analysen wird die Anzahl anNationalspielen eines Spielers der Jahre 2009 bis 2012 ausgelesen und in der TabelleNationalspieler gespeichert. Sofern ein Spieler in einem Jahr kein Spiel fur sein Landgespielt hat, nimmt die entsprechende Zelle in der Tabelle die Zahl 0 an.

In Abbildung 12 sind die erstellten Tabellen und ihre Attribute dargestellt. Dabeisind die Tabellen im sogenannten Star-Schema angeordnet. Die Darstellung macht esmoglich die Daten fur die folgenden Analysen einfach zu verknupfen und neu zustrukturieren.

35

Page 45: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

5 Anwendungen des Data Mining im Fußball

In den folgenden Abschnitten werden die vorgestellten Verfahren, wie die Klassifi-kation, Regression und Clusteranalyse exemplarisch auf die vorhandenen Daten an-gewendet. Dazu wird in Abschnitt 5.1 die Klassifikation genutzt, um Nationalspieleranhand ihrer Spielweisen zur klassifizieren. Die aufgezeigte Anwendung soll dazugenutzt werden, gute Spieler im Fußball zu identifizieren.

Abschnitt 5.2 nutzt die Regressionsanalyse, um die Beziehungen zwischen der Leis-tung eines Spielers und der von Redakteuren vergebenen Note zu ermitteln. Die Er-gebnisse sollen klaren, welche Spielaktionen zu einer besseren Beurteilung der Leis-tung eines Spielers fuhren.

Die Clusteranalyse wird in Abschnitt 5.3 angewendet, um einerseits Mannschaftenin verschiedene Gruppen zu unterteilen und andererseits um Spieler zu gruppieren.Dabei soll die Einteilung der Mannschaften klaren, inwiefern sich die besten Mann-schaften von den restlichen Teams differenzieren. Die Identifikation von Spielerkate-gorien soll dazu dienen, ahnliche und unahnliche Spieler zu ermitteln.

Abschnitt 5.4 untersucht die Moglichkeit der Vorhersage einer gesamten Saison.Hier werden die Regression und die Klassifikation fur eine solche Prognose angewen-det.

5.1 Wer wird der nachste Nationalspieler?

Nationalspieler gelten als die besten Spieler ihres Landes und reprasentieren damit dieVorstellung eines guten bzw. besseren Spielers auf der ihm zugewiesenen Position.In den folgenden Abschnitten wird untersucht wie dieses Wissen zur Findung vongut spielenden Spielern mithilfe von Data Mining unterstutzt werden kann. Zunachstwird naher auf die Problemstellung eingegangen sowie die Vorgehensweise in diesemKapitel erlautert.

Die Spieler einer Fußballmannschaft sind eine der wichtigsten Komponenten einesFußballvereins. Von ihnen hangt maßgeblich ab, wie ein Verein in der anstehendenSaison abschneidet. Gleichzeitig finanzieren sich Vereine unter anderem durch Spie-lerverkaufe, wobei bessere Spieler hohere Ablosesummen generieren als leistungs-schwache Spieler. Eine wichtige Aufgabe fur Vereine ist es somit Spieler zu entdecken,die den Verein sportlich sowie wirtschaftlich verbessern.

Fur die Spielersuche bzw. den Spielersucher werden meist die englischen Begrif-fe Scouting bzw. Scout eingesetzt. Diese werden auch in der vorliegenden Arbeit ge-nutzt. Nach einem Artikel der Badischen Zeitung [35] investieren die Vereine der Bun-desliga siebenstellige Betrage in das Scouting von Spielern. Laut dem Autor des Arti-kels hat der Verein Bayer 04 Leverkusen acht hauptamtliche Scouts angestellt.

Als ”Scouting 2.0” bezeichnet der FC Bayern Munchen seine Spielersuche mithil-fe von Datenbanken [23]. Der Chefscout des FC Bayern Munchen beschreibt in demInterview von Heindl [23], inwiefern Datenbanken die Spielersuche unterstutzen. Da-bei stellt er heraus, dass mithilfe der gespeicherten Daten eines Spielers Informatio-nen wie Name, Nationalitat, Große oder die Torgefahrlichkeit abgerufen werden. DerArtikel ”Digitales Scouting” von Spiegel–Online [3] beschreibt ebenfalls den Einsatzvon Datenbanken beim Scouting von Spielern. Der Artikel stellt dabei heraus, dass esScouting-Systeme erlauben, Wunschprofile mit bis zu 30 Kriterien zu erstellen. Die-se Profile konnen dann mit den in der Datenbank gespeicherten Spielern abgeglichenund ausgegeben werden.

Wie die vorliegenden Artikel zeigen, setzen professionelle Fußballvereine Daten-banken im Scouting ein. Inwiefern Data Mining bei Vereinen genutzt wird ist nichtbekannt. Jedoch bietet Data Mining die Moglichkeit das Scouting zu unterstutzen. Ein

36

Page 46: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

geeignetes Verfahren ist die Klassifikation, die im Folgenden zum Einsatz kommt. WieKapitel 2.2.1.1 beschreibt, dient die Klassifikation dazu, Objekten bestimmten Klassenzuzuordnen, wobei die Klassen vordefiniert sind. Die Objekte bei der Anwendungder Klassifikation zum Scouting sind die Spieler. Diese Objekte werden in zwei Klas-sen {0,1} unterteilt. Dabei beschreibt die Klasse {1} ”gute” Spieler und die Klasse {0}schwachere Spieler.

Es stellt sich die Frage, wie sich gute bzw. schwache Spieler charakterisieren lassen.Ein Ansatz, der hier verwendet wird, ist es die Nationalspieler einzelner Lander alsgute Spieler anzusehen. Nationalspieler reprasentieren die besten Spieler eines Lan-des und werden von den Trainern der Nationalmannschaften zu Freundschafts- bzw.Qualifikationsspielen und Turnieren wie die Europa- und Weltmeisterschaft eingela-den. Die Anzahl an nominierten Spielern fur solche Spiele oder Turniere ist begrenzt.So durfen fur die kommende Weltmeisterschaft 2014 in Brasilien insgesamt 23 Spielerendgultig gemeldet werden [17, S. 23]. Wegen dieser Begrenzung werden viele Spie-ler bei der Nominierung nicht berucksichtigt und genau dies macht sich das Scou-ting mittels Data Mining in dieser Arbeit zur Hilfe. Die Idee ist es, die Spieler mittelsKlassifikation festzustellen, welche von den Trainern nicht berucksichtigt werden, esaufgrund ihre Leistung jedoch verdient hatten. Somit ist man an den falschlich als Na-tionalspieler klassifizierten Spielern interessiert, da diese laut Data Mining Methodenin die Klasse der guten Spieler fallen, jedoch als solche nach außen nicht erkennbarsind - namlich nicht nominiert sind.

In den nachsten Abschnitten wird beschrieben wie das genannte Problem gelostwerden kann. Dabei wird zunachst die Datengrundlage dargelegt und die Daten ent-sprechend transformiert. Anschließend werden mehrere Data Mining Algorithmenausgefuhrt und die Ergebnisse dargestellt. Zuletzt erfolgen der Einsatz und die Eva-luierung der angewendeten Klassifikation.

5.1.1 Datengrundlage

Aus dem in Kapitel 4 beschriebenen Datenmodell sind zur Losung des Data MiningProblems die Tabellen Fakten, Spielereigenschaften und Nationalspieler notig. DieseTabellen werden zu einer Tabelle SpielerProSaison verknupft, auf der die in diesemKapitel durchgefuhrten Analysen basieren.

Aus der Tabelle Fakten, welche die Daten von jedem Spiel beinhalten, werden dieeinzelnen Daten fur jeden Spieler aggregiert. Um die einzelnen Werte vergleichbar zumachen, werden die Daten durch die gespielten Minuten geteilt. Beispielsweise hatein Spieler mit hoherer Einsatzzeit typischerweise mehr Ballkontakte als ein Spieler,der kurzere Zeit spielt. Um dies zu umgehen, werden bei der Aggregation die Werte,wie die Ballkontakte oder die Tore eines Spielers fur die Saison summiert und durchdie Gesamtanzahl an gespielten Minuten der Saison geteilt. Dadurch erhalt man denWert pro gespielte Minute. Ein Beispiel fur die Ballkontakte ist in Abbildung 13, alsPseudocode in Structured Query Language (SQL) ausgedruckt, zu sehen. Gesondertbetrachtet werden die Werte, welche in Prozentzahlen gespeichert sind, wie das Zwei-kampfverhalten oder die Passquote. Um diese bei der Aggregation wieder in Prozentabzubilden, werden diese Werte eines Spielers in einem Spiel mit den gespielten Mi-nuten des Spielers in dem Spiel multipliziert, dann summiert und anschließend durchdie gespielten Minuten der ganzen Saison geteilt. Dadurch werden außerdem die Wer-te der Spiele hoher gewichtet, in denen ein Spieler eine langere Einsatzzeit hatte imGegensatz zu den Spielen in denen er kurzer gespielt hat. Abbildung 14 zeigt denPseudocode fur die gewonnene Zweikampfquote.

Die Tabelle Spielereigenschaften beinhaltet die Eigenschaften eines Spielers, wieseine Nationalitat, sein Gewicht oder die Position auf der er spielt. Fur das spatere

37

Page 47: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 13: Pseudocode Ballkontakte

SELECTSaison , S p i e l e r , Summe( B a l l k o nt a k t e ) / Summe( g e s p i e l t e Minuten

)FROM faktenGROUP BY Saison , S p i e l e r

Abbildung 14: Pseudocode Zweikampf

SELECTSaison , S p i e l e r , Summe( Zweikampf ∗ g e s p i e l t e Minuten ) / Summe(

g e s p i e l t e Minuten )FROM faktenGROUP BY Saison , S p i e l e r

Data Mining Verfahren ist die Spielerposition, wie Abwehr, Mittelfeld oder Angriffeines Spielers von besonderem Interesse. Fur jede Position wird ein eigenes Data Mi-ning Modell erlernt, da z.B. die Anforderungen an einen Abwehrspieler andere sind,als die Anforderungen an einen Angreifer.

In der Tabelle Nationalspieler sind die Anzahl an Spielen eines Spielers in der zu-gehorigen Nationalmannschaft der Jahre 2009, 2010, 2011 und 2012 gespeichert. Furdie Tabelle SpielerProSaison werden mit dieser Anzahl zwei Werte berechnet. Sowird anhand der Anzahl an Nationalspielen in der vorangegangenen Saison und deraktuell betrachteten Saison die Spalte nm1 berechnet. Ist die Anzahl an Spielen dieserzwei Saisons großer als eins, so gilt der Spieler als bereits fur die Nationalmannschaftangetreten. Im Gegensatz dazu bedeutet die Spalte nm das ein Spieler in der nachfol-genden Saison an Nationalspielen teilgenommen hat. Als Nationalspieler gilt er dann,wenn er in der nachsten Saison mehr als ein Nationalspiel bestritten hat. Fur beideSpalten wird der Wert {1} fur positiv (z.B. war bereits Nationalspieler) und {0} furnegativ (z.B. hat kein Nationalspiel bestritten) definiert. Ein Beispiel SQL-Statementfur die Saison 2010 ist in Abbildung 15 zu sehen.

In Abbildung 16 ist die Zusammenfuhrung der Daten dargestellt. Im Anhang istdas gesamte SQL-Statement in Abbildung 23 fur die Tabelle zu sehen.

Erste Einblicke in die Daten sollen kleinere Analysen gewahren. Die Analysenwerden ohne Torhuter erfolgen, da die Daten von Torhutern die Datengrundlage

Abbildung 15: SQL Nationalspieler

SELECTfakten . Saison , fakten . S p i e l e r ,( case when ( n a t i o n a l s p i e l e r . sa ison2009 + n a t i o n a l s p i e l e r .

sa ison2010 ) > 1 then 1 e l s e 0 end ) AS nm1,( case when ( n a t i o n a l s p i e l e r . sa ison2011 ) > 1 then 1 e l s e 0 end )

AS nmFROM fakten , n a t i o n a l s p i e l e rWHERE fakten . S p i e l e r = n a t i o n a l s p i e l e r . S p i e l e r AND fakten .

sa ison = 2010GROUP BY fakten . Saison , fakten . S p i e l e r

38

Page 48: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 16: Datengrundlage SpielerProSaison

Nationalspieler+Spieler+Saison2009+Saison2010+Saison2011+Saison2012

SpielerProSaison+Saison+Verein+Spieler+Zweikampf+VerlZweikampf+Ballkontakte+Spielerposition+...+...+nm1+nm

Aggregation

Spielereigenschaften+Saison+Spieler+Nationalitaet+Geburtstag+Gewicht+Groesse+Spielerposition

Spielerposition Anzahl an Nationalspielen

Fakten+Saison+Spieltag+Datum+Heim+Gast+Verein+Spieler+Zweikampf+VerlZweikampf+Ballkontakte+...+...+Gespielt

verfalschen. Torhuter haben spezielle Aufgaben innerhalb des Spiels, wie Balle hal-ten oder Flanken abfangen. Torhuter werden nicht daran gemessen wie oft sie auf dasTor schießen oder wie viele Ballkontakte sie innerhalb des Spiels haben. Die Torhuter-spezifischen Daten liegen nicht vor und Torhuter werden deswegen in der nachfolgen-den Analyse sowie dem nachfolgendem Data Mining Verfahren nicht berucksichtigt.

In Tabelle 5 sind fur die einzelnen Spielerattribute jeweils die maximalen Werte(Max), minimalen Werte (Min), Mittelwerte (MW) und die Standardabweichung (SDfur Standard Deviation) dargestellt.

In Tabelle 6 ist eine Statistik der Nationalspieler fur die einzelnen Positionen be-schrieben. Insgesamt spielten 192 von 870 Feldspielern in den Saisons 2010 und 2011in der Nationalmannschaft ihres Landes. Dabei wurden 59 Feldspieler zum ersten malfur die Nationalmannschaft berufen (Debutanten).

Die Statistik uber die Anzahl an Nationalspielern zeigt bereits, dass Nationalspielerin der Spielermenge unterreprasentiert sind. Diese Erkenntnis ist fur das Data MiningVerfahren wichtig und wird im folgenden Abschnitt 5.1.2 naher erklart.

Innerhalb der nachfolgenden Analysen wird zudem eine Klassifikation auf die be-schriebenen Daten mit reduzierter Attributmenge angewendet. Dies dient der Di-mensionsreduktion und wird als ”Feature Selection” bezeichnet. Die Feature Selec-tion dient der Identifikation von aussagekraftigen Attributen und dem Eliminierenvon nicht relevanten und redundanten Attribute innerhalb des Datensatzes [11, S. 94].Durch die Anwendung der Feature Selection wird in diesem Kapitel uberpruft, ob miteiner reduzierten Dimensionalitat eine hohere Vorhersagegenauigkeit erreicht werdenkann. Dabei wird die Attributselektion automatisch von der von Weka zur Verfugunggestellten Methode ”CfsSubsetEval” ausgefuhrt. Hier werden solche Attribute bevor-zugt, die mit dem Zielwert stark korrelieren, jedoch untereinander eine geringe Kor-relation aufweisen [22, S. 69].

39

Page 49: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 5: Statistik SpielerProSaison

Wert Min Max MW SDZweikampf in % 0,00 100 48,8642 12,7792VerlZweikampf in % 0,00 100 51,1358 12,7792Ballkontakte 0,00 2,00 0,6186 0,1709ErfPaesse 0,00 1,25 0,3060 0,1344FehlPaesse 0,00 1,00 0,0809 0,0473Paesse 0,00 1,3750 0,3869 0,1444ErfPassquote in % 0,00 100 76,4308 11,6682FehlPassquote in % 0,00 100 23,5692 11,6682Torschuesse 0,00 0,2500 0,0154 0,0167VergTorschuesse 0,00 0,250 0,0141 0,0159ErfTorschussquote in % 0,00 100 4,7408 7,355FehlTorschussquote in % 0,00 100 95,2592 7,355Torschussvorlagen 0,00 0,2500 0,0146 0,0171Vorlage 0,00 0,0227 0,0012 0,0019Tore 0,00 0,0200 0,0013 0,0022Gelb 0,00 0,0141 0,0011 0,0015PassProBallkontakt 0,00 1,00 0,6048 0,108ErfPassProBallkontakt 0,00 0,8750 0,4719 0,1168TorschussvorlageProPass 0,00 1,00 0,0452 0,0556Gespielt in Min. 1 3060 1266,5299 923,2746Gewicht 60 96 75,6414 6,4649Groesse 166 198 182,4195 6,2297Alter 17 37 24,8563 4,1698

Tabelle 6: Statistik Nationalspieler

Position Anzahl Nationalspieler DebutantenAbwehr 301 56 14Mittelfeld 377 76 29Angriff 192 60 16Gesamt 870 192 59

40

Page 50: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

5.1.2 Klassifikation von Nationalspielern

Das beschriebene Problem, Spieler den vordefinierten Klassen {1} und {0} zuzuord-nen, kann mithilfe der Klassifikation gelost werden. Im weiteren Verlauf des Kapi-tels werden verschiedene Klassifikationsmethoden durchgefuhrt und bewertet. Zu-erst wird mit einem Datensatz gearbeitet, der nur die Attribute enthalt, die von derSpielweise des Spielers abhangen. Die physischen Werte eines Spielers werden außerAcht gelassen und es wird der Fakt ignoriert, dass ein Spieler bereits Nationalspielerwar. Der Grund dafur ist, dass man bei dieser Anwendung an gut spielenden Spielerninteressiert ist und Attribute wie das Alter, Gewicht oder ob er bereits Nationalspie-ler war, fur einen Verein bei einer Neuverpflichtung in erster Linie nicht interessantsind. Somit sollen nur spielspezifische Werte wie das Zweikampfverhalten, Anzahl anBallkontakten etc., das Data Mining Verfahren beeinflussen.

In einer weiteren Anwendung wird ein zweiter Datensatz eingesetzt. Bei diesemDatensatz wird zusatzlich das Attribut aufgenommen, ob ein Spieler bereits vorherfur die Nationalmannschaft angetreten ist.

Wie bereits erwahnt, wird fur jede Spielerposition ein eigenes Data Mining Modellerlernt. Die Anforderungen an einen Abwehrspieler sind im Fußball andere als dieeines Mittelfeldspielers oder Angreifers.

Das grobe Vorgehen in diesem Abschnitt wird wie folgt aussehen:• Durchfuhren der Klassifikation mit spielspezifischen Werten

1. Durchfuhrung mehrerer Testfalle

2. Anwendung der ausgewahlten Algorithmen und Darstellung der Ergeb-nisse

• Durchfuhrung der Klassifikation unter Einbeziehung des Attributs nm1

1. Durchfuhrung mehrerer Testfalle

2. Anwendung der ausgewahlten Algorithmen und Darstellung der Ergeb-nisse

• Einsatz und Evaluierung der KlassifikationDer erste Datensatz beinhaltet die spielspezifischen Werte, welche aus folgenden

Attributen der Tabelle SpielerProSaison bestehen und im Folgenden als Datensatz 1bezeichnet wird:• Zweikampf• VerlZweikampf• Ballkontakte• ErfPaesse• FehlPaesse• Paesse• ErfPassquote• FehlPassquote• Torschuesse• VergTorschuesse• ErfTorschussquote• FehlTorschussquote

41

Page 51: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

• Torschussvorlagen• Vorlage• Tore• Gelb• PassProBallkontakt• ErfPassProBallkontakt• TorschussvorlageProPass

Hinzu kommt die zu klassifizierende Klasse nm.

Datensatz 1: Durchfuhrung mehrerer Testfalle

Zur Durchfuhrung der Data Mining Methoden wird die in Kapitel 2.3 beschriebeneData Mining Software Weka benutzt. Die ersten Testfalle werden mit dem Datensatz1 durchgefuhrt. Fur die einzelne Position werden separate Analysen ausgefuhrt. AlsTestmethode wird die Cross-validation Methode mit zehn Teilmengen gewahlt.

Fuhrt man erste Data Mining Methoden mit den Datensatzen durch, werden beiMethoden, wie den Entscheidungsbaumen (J48graft) oder den regelbasierten Metho-den (JRip) fur z.B. die Position Abwehr keine Baume bzw. keine Regeln aufgebaut undalle Spieler der Klasse {0} zugeordnet. Dieses Verhalten erklart sich dadurch, dass indem vorliegenden Fall ein unbalanciertes Klassenverhaltnis zugrunde liegt. Von 301Abwehrspielern sind lediglich 56 Spieler Nationalspieler. Die Methoden wahlen dennaiven Ansatz und klassifizieren jeden Spieler in die uberreprasentierte Klasse underhalten damit die Korrektklassifikationsrate von ca. 81 %. Um Probleme in unbalan-cierten Datensatzen zu umgehen gibt es mehrere Methoden die von Chavla [9] nahervorgestellt werden. Bei der folgenden Anwendung wird das Resampling der Da-tensatze zum Einsatz kommen, da bei diesem zusatzlich die verhaltnismaßig kleinenDatensatze kunstlich erweitert werden. Das Resampling kann eine einheitliche Klas-senverteilung auf zwei Arten erzielen. Einerseits gibt es das Undersampling, bei demzufallig ausgewahlte Instanzen der uberreprasentierten Klasse aus dem Datensatzgeloscht werden. Die andere Methode kopiert Instanzen aus der unterreprasentiertenKlasse und fugt diese dem Datensatz erneut hinzu. Dies nennt man Oversampling.Mithilfe von Weka lasst sich das Oversampling automatisch ausfuhren. Das Resamp-ling von Weka wird so eingestellt, dass die Datensatze verdoppelt werden und dieKlassenverteilung gleichzeitig ausgeglichen wird.

Der Nachteil bei der Verwendung von Resampling ist, dass ein Cross-validationTest nun nicht mehr verwendet werden kann. Jede Teilmenge die zum Testen verwen-det wird kann kopierte Werte aus der Trainingsmenge enthalten. Die Ergebnisse derCross-validation Methode waren damit verfalscht. Um trotzdem einige Tests durch-zufuhren werden aus dem ursprunglichen Datensatz die Spieler der Mannschaftendes FC Bayern Munchen, des 1. FSV Mainz 05 und des FC Schalke 04 herausgenom-men. Auf den reduzierten Datensatz wird das Resampling angewendet. Zum Testenwerden die ungesehenen Spieler der drei Mannschaften genutzt.

Zur Bewertung der Klassifikation wird die Wahrheitsmatrix zur Hilfe genommen,welche die vorhergesagten Klassenzuordnungen und die tatsachlichen Klassenzuord-nungen gegenuberstellt. Eine solche Matrix ist in Tabelle 7 zu sehen.

Es soll eine moglichst hohe Klassifikationsrate erzielt werden, also moglichst vie-le Spieler richtig eingeordnet werden. Gleichzeitig ist es aber auch von besonderemInteresse die Nationalspieler richtig zu klassifizieren, da diese als die guten Spielergelten, welche fur diese Anwendung von Bedeutung sind. Somit gilt neben der Klas-sifikationsrate die sogenannten Precision (Genauigkeit) als wichtigste Maßzahl. DiePrecision wird berechnet in dem man die positiv erkannten Instanzen durch die An-

42

Page 52: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 7: Wahrheitsmatrix

Nicht Nationalspieler NationalspielerKlassifiziertals Nicht-

NationalspielerRichtig Negativ Falsch Positiv

Klassifiziertals National-

spielerFalsch Negativ Richtig Positiv

zahl tatsachlich positiver Instanzen teilt. Die Berechnung ist in Formel 4 dargestellt.

Precision =RichtigPositiv

FalschPositiv +RichtigPositiv(4)

Es werden im Laufe der Tests mehrere Klassifikationsmethoden aus den verschiede-nen Bereichen wie den Entscheidungsbaumen, den regelbasierten Klassifikationsme-thoden, der Bayes Klassifikation und komplexere Algorithmen, wie neuronale Netzeausprobiert. Zusatzlich werden diese Methoden parametrisiert. So werden die Me-thoden in mehreren Testlaufen unter verschiedenen Einstellungen angewendet, bisdie Klassifikationen die besten Ergebnisse erzielen.

Es zeigt sich, dass die folgenden Methoden die besten Ergebnisse erreichen:• Entscheidungsbaume

– J48graft– RandomForest

• Regelbasierte Klassifikation– JRip

• Neuronales Netzwerk– MutlilayerPerceptron

Die Naives-Bayes Klassifikation ergibt in den Tests eine Klassifikationsrate von nur40 % und wird somit fur die weitere Verwendung als ungeeignet eingestuft. Auchandere von Weka zur Verfugung gestellte Algorithmen konnen in den Tests nichtuberzeugen.

Ein zweiter Testlauf wird mit der Feature Selection der Daten vorgenommen. Beider Feature Selection werden nur die wichtigsten Attribute bei dem Aufbau des Mo-dells berucksichtigt. Auch bei diesem Testlauf werden dieselben Algorithmen benutzt,jedoch mit verschiedenen Einstellungen erneut getestet. So kann man vergleichen, obeine Feature Selection zu einer Verbesserung der Klassifikation fuhrt. Die Ergebnissebeider Tests sind in Tabelle 8 dargestellt.

Wie man sieht, fuhrt der Einsatz der Feature Selection zu anderen Ergebnissen.Teilweise schneiden die Klassifizierer mit Feature Selection besser ab, ein klarer Trendist jedoch nicht zu erkennen. Auf der Position Angriff wird jede Methode positivvon der Feature Selection beeinflusst, sowohl in der Klassifikationsrate als auch beider Precision. Die besten Resultate erreicht hier die MultilayerPerceptron Methodemit einer Klassifikationsrate von 80,77 % und einer Precision von 0,923. Im BereichAbwehr hat die JRip Methode ohne Feature Selection den besten Wert mit 88,57 %.Im Mittelfeld erzielen der Entscheidungsbaum J48graft ohne Feature Selection sowiedie JRip Methode mit Feature Selection mit 82,05 % und 0,833 die besten Klassifi-kationsraten und die besten Precisionwerte. Insgesamt kann man anhand der Testserkennen, dass sich die Spieler mit Bestwerten von uber 80 % Klassifikationsrate inallen Positionen voraussichtlich zufriedenstellend zuordnen lassen.

43

Page 53: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 8: Datensatz 1: Ergebnisse Tests

Methode Position Rate (Precision) Rate (Precision)*

J48graftAbwehr 77,14 % (0,727) 82,86 % (0,818)Mittelfeld 82,05 % (0,833) 66,67 % (0,417)Angriff 61,54 % (0,692) 76,92 % (0,923)

RandomForestAbwehr 82,86 % (0,636) 80,00 % (0,636)Mittelfeld 82,05 % (0,583) 71,79 % (0,583)Angriff 73,08 % (0,769) 76,92 % (0,769)

JRipAbwehr 88,57 % (0,727) 80,00 % (0,727)Mittelfeld 79,49 % (0,833) 82,05 % (0,833)Angriff 69,23 % (0,692) 73,08 % (0,846)

MultilayerPerceptronAbwehr 85,71 % (0,909) 71,43 % (0,818)Mittelfeld 74,36 % (0,667) 71,79 % (0,667)Angriff 76,92 % (0,769) 80,77 % (0,923)

* Mit Feature Selection

Datensatz 1: Anwendung und Ergebnisse

Ziel der Anwendung ist es herauszufinden, welche Spieler vom Data Mining als Ta-lente bzw. gute Spieler erkannt werden. Aufgrund der Erkenntnisse aus den Testfallenwerden die verschiedenen Data Mining Algorithmen parametrisiert. Es werden nichtdie erlernten Modelle aus den Testfallen benutzt, sondern fur einen Durchlauf wer-den jeweils neue Modelle erlernt und auf ungesehene Daten angewendet. Dies wirdwie folgt aussehen: Ein Durchlauf besteht aus zwei Datensatzen, einem Trainings-datensatz und einem Datensatz auf dem das erlernte Modell angewendet wird. DerTrainingsdatensatz beinhaltet die Spieler der 20 Mannschaften aus zwei Saisons, abge-sehen von genau einer Mannschaft. Dies sind insgesamt 19 Mannschaften. Mit diesemTrainingsdatensatz werden jeweils die ausgesuchten Data Mining Modelle erlernt.Angewendet werden die erlernten Modelle auf die Spieler der ausgelassenen Mann-schaft. Pro Durchlauf wird immer eine vorher noch nicht ausgelassene Mannschaftausgelassen. Es gibt somit insgesamt 20 Durchlaufe fur jede Methode. Zum Abschlusswird fur jede Methode die in den Durchlaufen klassifizierten Spieler zusammengetra-gen und die Ergebnisse dargestellt.

Bei dieser Vorgehensweise werden fur jede Position und Methode insgesamt 20 Mo-delle erlernt, die im Endeffekt verschieden aussehen. Es wird hier also nicht klassischein bestehendes Modell erlernt, sondern mehrere Modelle. Diese gesonderte Anwen-dung wird deswegen ausgesucht, weil insgesamt wenige Spieler pro Position fur diezwei Saisons vorliegen. Sofern mehrere Spieler zur Verfugung stehen, konnte manauch ein Modell erlernen und dies auf ungesehene Daten anwenden, um zu sehen,wie sich die Klassifikation auswirkt.

Wie in Tabelle 9 zu sehen ist, sind die Ergebnisse der Anwendung schlechter als dieder Testfalle. Keine der Methoden erreicht die Klassifikationsrate der naiven Ansatzevon 81,4 % fur die Abwehr, 79,8 % fur das Mittelfeld und 68,8 % fur den Angriff.In der Abwehr erlangt der RandomForest Algorithmus ohne Feature Selection diehochste Klassifikationsrate mit 71,8 %, jedoch ist der Wert der Precision mit 0,07 zuschlecht als das die Ergebnisse fur den realen Einsatz in Frage kommen. Die meistenNationalspieler der Abwehr klassifiziert die MultilayerPerceptron Methode ohneFeature Selection mit 22 von 56 Nationalspielern richtig. Die Klassifikationsrate istmit 61,1 % zwar nicht die Beste aber nur geringfugig schlechter als die der anderenMethoden. Im Mittelfeld uberzeugen die RandomForest Methode sowie die Multi-

44

Page 54: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 9: Datensatz 1: Ergebnisse

Methode Position Rate (Precision) Rate (Precision)*

J48graftAbwehr 61,8 % (0,232) 64,4 % (0,25)Mittelfeld 65,5 % (0,395) 66,6 % (0,382)Angriff 58,5 % (0,483) 58,5 % (0,417)

RandomForestAbwehr 71,8 % (0,07) 69,8 % (0,143)Mittelfeld 76,1 % (0,263) 74,8 % (0,25)Angriff 67,4 % (0,433) 65,8 % (0,433)

JRipAbwehr 63,8 % (0,296) 61,8 % (0,232)Mittelfeld 66,8 % (0,316) 65,2 % (0,368)Angriff 57,5 % (0,383) 61,7 % (0,567)

MultilayerPerceptronAbwehr 61,1 % (0,393) 56,8 % (0,339)Mittelfeld 69,2 % (0,421) 67,4 % (0,513)Angriff 62,2 % (0,4) 64,2 % (0,517)

* Mit Feature Selection

layerPerceptron Methode beide ohne Feature Selection. Die RandomForest Methodehat eine hohe Klassifikationsrate (76,1 %) aber eine geringere Precision (0,263). DieMultilayerPerceptron Methode hat mit 0,421 den besseren Precisionwert aber eineschlechtere Klassifikationsrate (69,2 %). Im Angriff kann die MultilayerPerceptronMethode mit Feature Selection bei der Kombination von Klassifikationsrate (64,2 %)und Precision (0,517) uberzeugen. Mehr als die Halfte der Nationalspieler werdenhier richtig erkannt.

Datensatz 2: Durchfuhrung mehrerer Testfalle

Betrachtet man die Ergebnisse aus dem Datensatz 1, sind diese schlechter als die nai-ven Ansatze und mit einer richtigen Vorhersage von weniger als der Halfte an Na-tionalspielern als schlecht zu bewerten. Ein Versuch die Werte zu erhohen ist es wei-tere Attribute in den Datensatz aufzunehmen. Der Datensatz 2 beinhaltet zusatzlichzu Datensatz 1 den Fakt, ob ein Spieler in der Vergangenheit bereits fur die Natio-nalmannschaft angetreten ist. Wie man im Folgenden sehen wird ist gerade dieserFakt in der Mehrheit der Falle besonders wichtig. Ein Versuch der Erklarung wirdim letzten Abschnitt dieses Kapitels unternommen. Die physischen Werte, wie dasAlter oder das Gewicht werden weiterhin nicht berucksichtigt. Zum Testen wird dergleiche Trainings- und Testdatensatz wie im vorigen Testfall benutzt, nur mit demzusatzlichen Attribut nm1. Es werden die gleichen Methoden verwendet um den Ein-fluss des Attributs zu vergleichen. Die Ergebnisse sind in Tabelle 10 dargestellt.

Im Gegensatz zum Datensatz 1 werden die Ergebnisse in den meisten Fallenverbessert. Beispielsweise erzielt die RandomForest Methode in allen Positioneneine bessere Klassifikationsrate. Bei den anderen Methoden sind die Ergebnisseunterschiedlich. Achtet man auf die maximalen Klassifikationsraten ubertrifft derneue Datensatz den Datensatz 1. In allen Postionen ist eine maximale Rate von uber80 % erreichbar. Bei der Wahl der Feature Selection ist keine generelle Verbesserungbzw. Verschlechterung zu erkennen.

45

Page 55: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 10: Datensatz 2: Ergebnisse Tests

Methode Position Rate (Precision) Rate (Precision)*

J48graftAbwehr 88,57 % (0,909) 82,86 % (0,727)Mittelfeld 61,54 % (0,417) 66,67 % (0,667)Angriff 76,92 % (0,846) 76,92 % (0,846)

RandomForestAbwehr 85,71 % (0,636) 82,86 % (0,636)Mittelfeld 82,05 % (0,583) 84,62 % (0,583)Angriff 80,77 % (0,846) 80,77 % (0,846)

JRipAbwehr 85,71 % (0,636) 85,71 % (0,818)Mittelfeld 69,23 % (0,583) 79,49 % (0,75)Angriff 76,92 % (0,769) 73,08 % (0,615)

MultilayerPerceptronAbwehr 88,57 % (0,909) 77,14 % (0,636)Mittelfeld 87,18 % (0,833) 71,79 % (0,75)Angriff 73,08 % (0,692) 69,23 % (0,769)

* Mit Feature Selection

Datensatz 2: Anwendung und Ergebnisse

Wie auch beim Datensatz 1, werden beim Datensatz 2 insgesamt 20 Durchlaufe proMethode absolviert, wobei in jedem Durchlauf eine Mannschaft zum Lernen ausge-lassen wird und anschließend die Spieler dieser Mannschaft klassifiziert werden. Wieman in Tabelle 11 sieht, wird mithilfe des zusatzlichen Attributs in fast allen Metho-den die Klassifikationsraten gesteigert. Die Precision wird ebenfalls erhoht bzw. er-reicht mindestens die gleichen Werte wie die des Datensatzes 1. In vielen Fallen wirduber die Halfte der Nationalspieler richtig klassifiziert. In der Abwehr schneiden dieRandomForest und MultilayerPerceptron Methode, beide unter Verwendung der Fea-ture Selection am besten ab. Sie erreichen eine Klassifikationsrate von uber 80 % undPrecisionwerte von uber 0,5. Im Mittelfeld erreicht die RandomForest Methode ohneFeature Selection die beste Rate (78,0 %), hat jedoch eine schwachen Precisionwert von0,361. Die MultilayerPerceptron Methode mit Feature Selection hat die schwachereKlassifikationsrate von ca. 68 % aber eine Precision von 0,553. Im Angriff erreichendie RandomForest und die MultilayerPerceptron Methode ohne Feature Selection mitKlassifikationsraten von 69,9 % bzw. 67,9 % und Precisionwerte von uber 0,5 die bes-ten Resultate.

Datensatz 2 erzielt mit dem zusatzlichen Attribut bessere Werte. Vor allem die Pre-cision wird durch das zusatzliche Attribut nm1 positiv beeinflusst. Fur den Einsatzim Scouting muss man entscheiden welche Ergebnisse man letztendlich einsetzt. Imfolgenden Abschnitt werden die klassifizierten Spieler des Datensatzes 2 fur das Scou-ting genutzt, da diese Methoden wesentlich besser die Nationalspieler erkennen. Eswerden hierzu die Methoden mit den besten Ergebnissen herangezogen und kombi-niert, um verlasslichere Aussagen zu treffen.

46

Page 56: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 11: Datensatz 2: Ergebnisse

Methoden Position Rate (Precision) Rate (Precision)*

J48graftAbwehr 77,4 % (0,643) 79,7 % (0,536)Mittelfeld 69,2 % (0,421) 67,6 % (0,368)Angriff 61,7 % (0,57) 63,7 % (0,583)

RandomForestAbwehr 81,4 % (0,25) 83,4 % (0,536)Mittelfeld 78,0 % (0,316) 77,0 % (0,303)Angriff 69,9 % (0,5) 65,3 % (0,517)

JRipAbwehr 73,4 % (0,446) 79,4 % (0,643)Mittelfeld 66,8 % (0,434) 68,2 % (0,316)Angriff 57,5 % (0,533) 65,3 % (0,55)

MultilayerPerceptronAbwehr 72,1 % (0,536) 80,1 % (0,679)Mittelfeld 68,4 % (0,421) 68,4 % (0,553)Angriff 67,9 % (0,517) 64,2 % (0,667)

* Mit Feature Selection

5.1.3 Einsatz und Evaluierung

Der Einsatz der Methoden zur Talententdeckung soll nun zeigen welche Spieler alsNationalspieler klassifiziert werden. Im Folgenden werden nur die Spieler angezeigt,die laut der Annahme vorher noch nie fur die Nationalmannschaft angetreten sind,also den Wert {0} fur das Attribut nm1 annehmen. Diese Annahme besagt, dass einSpieler noch kein Nationalspieler war, sofern er in der aktuell betrachteten Saisonsowie der vorangegangen Saison weniger als zwei Spiele fur die Nationalmannschaftbestritten hat. Diese Spieler sind also in den Jahren zuvor nicht als beste Spieleraufgefallen. Außerdem werden nur Spieler dargestellt, die in der betrachteten Saisonkeine Nationalspieler sind und damit im Attribut nm den Wert {0} besitzen.

Abwehr

In der Abwehr erreichen die RandomForest und die MultilayerPerceptron Methodemit Feature Selection die besten Werte hinsichtlich der Klassifikationsrate und derPrecision. Die RandomForest Methode ordnet sechs Spieler in die Klasse der Natio-nalspieler ein, die bisher noch nicht in der Nationalmannschaft angetreten sind. Beider MultilayerPerceptron Methode sind dies neun Spieler. Es gibt dabei keinen Spie-ler, der von beiden Methoden positiv klassifiziert wird. Vereinigt man beide Spieler-mengen gibt es also insgesamt 15 Spieler, welche von den Methoden als Talente in derAbwehr fur eine Mannschaft in Frage kommen. Dabei ist zu beachten, dass ein Spie-ler je einmal pro Saison in dieser Menge vorkommen kann. In Tabelle 12 sind dieseSpieler dargestellt.

Der im Jahr 2013 auffalligste dieser Spieler ist Dante, der 2010 beim Verein BorussiaMonchengladbach spielte. Dante wechselte zum Beginn der Saison 2012\2013 zumRekordmeister FC Bayern Munchen und wurde im Januar 2013 fur die brasilianischeNationalmannschaft berufen. Seine Leistung in 2010 wurde als positiv eingestuft.Seine Leistung in der Saison darauf jedoch nicht. Mithilfe von Data Mining konnteman trotzdem fruhzeitig erkennen, welche Qualitat der Spieler besitzt. ChristianPander wird als einziger Spieler in beiden Saisons als potenzieller Nationalspielererkannt. Christian Pander war im Jahr 2007 bereits Nationalspieler Deutschlands,wurde aufgrund vieler Verletzungen jedoch nicht mehr nominiert. Ebenfalls vor 2009fur die jeweiligen Nationalmannschaften nominiert waren u.a. Mikale Silvestre, Alex-andre Vasoski, Andreas Hinkel oder Christian Schulz. Juri Judt, Lukas Schmitz und

47

Page 57: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 12: Klassifizierte Spieler in der Abwehr

Saison Verein Spieler2010 Borussia Monchengladbach Anderson2010 FC St. Pauli Fabio Morena2010 1. FC Nurnberg Timothy Chandler2011 SC Freiburg Andreas Hinkel2011 1. FC Nurnberg Juri Judt2011 SV Werder Bremen Lukas Schmitz2010 Eintracht Frankfurt Aleksandar Vasoski2010 FC Schalke 04 Christian Pander2010 Hannover 96 Christian Schulz2010 1. FC Koln Christopher Schorch2010 Borussia Monchengladbach Dante2010 Eintracht Frankfurt Maik Franz2011 Hannover 96 Christian Pander2011 SV Werden Bremen Mikael Silvestre2011 1. FC Kaiserslautern Willi Orban

Christopher Schorch waren bereits Spieler in den Junioren-Nationalmannschaften,konnten sich bisher aber nicht merklich in den Mittelpunkt der Bundesliga spielen.Timothy Chandler wurde mehrmals fur die Nationalmannschaft der USA nominiert,entschied sich aber fur die deutsche Nationalmannschaft zu spielen, fur die er bisherjedoch nicht nominiert wurde.

Mittelfeld

Im Mittelfeld erreicht die RandomForest Methode ohne Feature Selection die hochsteKlassifikationsrate, aber einen vergleichsweise niedrigen Precisionwert. Die Multi-layerPerceptron Methode mit Feature Selection schneidet hinsichtlich der Precisionam besten ab, hat aber eine niedrigere Klassifikationsrate.

Nationalspieler, die vorher noch nicht fur die Nationalmannschaft nominiertwurden, von den Methoden jedoch als solche klassifiziert sind, sind bei der Ran-domForest Methode neun Spieler. Bei dem MultilayerPerceptron Algorithmus sind es42 Spieler. Von beiden Methoden werden sechs gleiche Spieler der positiven Klassezugeordnet, welche in Tabelle 13 zu sehen sind. Ivo Illicevic ist dabei nach der Saison2010 fur die kroatische Nationalmannschaft aufgelaufen. Christian Gentner, DavidJarolim und Dawdah Bah hatten bereits Einsatze fur ihre Nationalmannschaften.Pierre des Wit war bereits fur die Junioren-Nationalmannschaft der unter 21-jahrigennominiert, spielte nach der Saison 2010 fur Bayer 04 Leverkusen wurde aber wegeneiner schweren Verletzung wenig eingesetzt und spielt inzwischen wieder beim 1. FCKaiserslautern in der 2. Liga. Raffael stand im Jahr 2013 als Leihspieler beim Champi-ons League Teilnehmer FC Schalke 04 unter Vertrag und wechselte im Sommer zumErstligisten Borussia Monchengladbach.

Angriff

Im Angriff schneiden die RandomForest sowie die MultilayerPerceptron Methode oh-ne Feature Selection am besten ab. Die beiden Methoden klassifizieren jeweils 12 bzw.14 Spieler als Nationalspieler, die vorher nicht fur ihre Nationalmannschaft angetretensind. Funf Spieler uberschneiden sich bei beiden Klassifizierern, welche in Tabelle 14

48

Page 58: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 13: Klassifizierte Spieler im Mittelfeld

Saison Verein Spieler2010 1. FC Kaiserslautern Ivo Ilicevic2011 VfB Stuttgart Christian Gentner2011 Hamburger SV David Jarolim2011 FC Augsburg Dawda Bah2011 1. FC Kaiserslautern Pierre De Wit2011 Hertha BSC Raffael

Tabelle 14: Klassifizierte Spieler im Angriff

Saison Verein Spieler2010 1899 Hoffenheim Denis Thomalla2010 FC St. Pauli Gerald Asamoah2011 Hertha BSC Adrian Ramos2011 VfL Wolfsburg Patrick Helmes2011 FC Schalke 04 Raul

aufgelistet sind.Gerald Asamoah und Raul sind hierbei Spieler, die fruher bereits fur ihre National-

mannschaft gespielt haben, aber mit uber 34 Jahren inzwischen zu alt fur diese sind.Denis Thomalla spielt in der Junioren-Nationalmannschaft der unter 19-jahrigen furDeutschland, und ist unter den Spielern mit seinen jungen 18 Jahren sicherlich dasinteressanteste Talent. Adrian Ramos spielt inzwischen fur Ghana in der National-mannschaft. Patrick Helmes trat bereits fur die deutsche Nationalmannschaft an,wurde aber von vielen Verletzungen in seiner Karriere gestoppt.

Einschatzung der Ergebnisse

Die Ergebnisse zeigen, dass Spieler mit hoherem Niveau entdeckt werden konnten.Viele der Spieler sind bereits fruher fur Nationalmannschaften angetreten bzw. wur-den nach den Saisons fur die Nationalmannschaft nominiert. Einige der Spieler konn-ten sich jedoch bisher nicht auf hoherem Niveau beweisen.

Die Methoden erreichen in etwa die gleichen Klassifikationsraten wie die naivenAnsatze, was die Mindestanforderung an geeignete Data Mining Methoden sein soll-te. Jedoch sind die Algorithmen, angewendet auf die vorliegenden Daten, nicht robustgenug um zuverlassige Ergebnisse zu liefern. Analysiert man die in den Durchlaufenaufgestellten Modelle untereinander, so sieht man, dass sowohl bei der Feature Selec-tion als auch bei der Baum bzw. Regelaufstellung unterschiedliche Werte bevorzugtwerden. Daraus lasst sich ableiten, dass die Daten nicht eindeutig auf Nationalspielerschließen lassen. Wurden die Daten eindeutige Strukturen erkennen lassen, wurdendie einzelnen erlernten Modelle ein ahnliches Schema aufweisen. Die Daten wurdendie Modelle beeinflussen.

Kritisch zu betrachten sind ebenfalls die geringen Werte der Precision. Die Modellesind nicht stark genug die tatsachlichen Nationalspieler zu erkennen. Ware die Pre-cision hoch genug konnte man davon ausgehen, dass die Methoden zuverlassig guteSpieler klassifizieren. Gleichzeitig hatte man eine hohere Gewissheit, dass die falschals Nationalspieler klassifizierten Spieler ebenso die Charakteristika von guten Spie-lern aufweisen.

Wie in den Ergebnissen erkennbar ist, fuhrt der Datensatz 2 mit dem zusatzlichenAttribut nm1 zu besseren Ergebnissen. Dies liegt daran, dass bereits nominierte Na-

49

Page 59: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

tionalspieler von Trainern bevorzugt werden. Die Nationaltrainer sind daran inter-essiert eine eingespielte Mannschaft fur die Turniere auflaufen zu lassen. Das machtdie hier vorgestellte Anwendung schwieriger, da nicht immer die spielspezifischenWerte entscheidend fur eine Nominierung sind. Anhand dieser Werte lasst sich somitein schlechteres Ergebnis erwarten. Eine Moglichkeit ware es nur Spieler zu betrach-ten, welche fur die Nationalmannschaft debutieren. Diese schaffen es offensichtlichlediglich anhand ihrer Leistung die Trainer zu uberzeugen. Die hier zur Verfugungstehenden Daten beinhalten leider zu wenige Debutanten um diese Option zu testen.

Die Attribute der Datensatze sind nur ein Ausschnitt der Daten, die aufgenom-men werden konnen. Mithilfe weiterer Attribute kann versucht werden, die Methodenpositiv zu beeinflussen. Auch der Einfluss zusatzlicher nicht spielspezifischer Datenkonnten die Modelle beeinflussen, wie die Große oder das Gewicht. In dieser Arbeitwird der Fokus jedoch auf die spielspezifischen Daten gelegt. Interessant ware es zusehen, wie sich eine hohere Anzahl an Daten auf die Anwendung auswirkt.

Zudem wird hier nur ein Ansatz vorgestellt, um gute Spieler zu entdecken. StattNationalspieler als gute Spieler anzusehen, ist es auch moglich, zahlreiche andere An-nahmen zu treffen. So konnen z.B. die Anzahl an gewonnenen Titeln oder Spielen aberauch Nominierungen fur die Elf des Tages die Klasse von guten Spielern beeinflussen.Auch Trainer oder Scouts konnten individuell gute Spieler der Liga klassifizieren. Diedaraufhin erlernten Modelle konnten auf Spieler anderer Ligen angewendet werden.

Die Liste an zugeordneten Spielern kann man zur weiteren Verwendung im Scou-ting nutzen. So konnen Scouts die positiv klassifizierten Spieler als vorgefilterte Listenehmen, um gewisse Spieler naher zu beobachten. Da aufgrund der Entfernung zuauslandischen Ligen dort nur geringfugig Spieler beobachtet werden konnen, kanneine Vorauswahl anhand der gespeicherten Daten mithilfe der Klassfizierern vorge-nommen werden. So konnen Scouts sich auf Spiele dieser Spieler konzentrieren. Zu-dem konnen Spieler, die aufgrund der subjektiven Beurteilung von Scouts als un-geeignet eingestuft werden, erkannt und erneut betrachtet werden. Eine Einstufungvon Spielern anhand ihrer personlichen Werte muss jedoch zuletzt immer eine Personvornehmen. Schlussendlich spielt auch der Charakter einzelner Spieler eine Rolle beiTransfers von Spielern.

Die Anwendung lasst sich zudem auch in die entgegengesetzte Richtung nutzen. Sokonnen Verantwortliche die Spieler des eigenen Vereins klassifizieren, um zu sehen,welcher Spieler auf welchem Niveau spielt. Dieses Wissen kann auf Vertragsverhand-lungen Einfluss nehmen.

Abschließend kann man sagen, dass eine solche Klassifikation im realen EinsatzAnwendung finden kann, sofern die Ergebnisse zuverlassige Aussagen tatigen las-sen. Mithilfe der Klassifikation konnen so Spieler mit hoherer spielerischer Qualitatidentifiziert werden.

5.2 Die Notenvergabe im Fußball

Wie in Kapitel 2.2.1.2 erlautert, versucht die Regressionsanalyse den Zusammenhangzwischen einer abhangigen Variablen und einer oder mehreren unabhangigen Varia-blen zu beschreiben. Eine Moglichkeit ist es, die Regressionsanalyse fur Vorhersagenzu nutzen. Dabei wendet man ein erlerntes Regressionsmodell auf neue, ungeseheneDaten an, um Prognosen zu erstellen. Der Ansatz, welcher in diesem Kapitel verwen-det wird, dient jedoch nicht zur Aufstellung eines solchen Vorhersagemodells. In dennachfolgenden Abschnitten wird die Regressionsanalyse dazu genutzt, um die Starkedes Zusammenhangs von unabhangigen Variablen und einer abhangigen Variablenaufzudecken. Dazu wird im Folgenden versucht die wichtigsten Werte zu ermitteln,welche die Note eines Spielers in einem Spiel beeinflussen. Zunachst wird naher auf

50

Page 60: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

die Notenvergabe eingegangen. In weiteren Abschnitten wird Weka dazu genutzteinzelne Regressionsmodelle aufzustellen, welche im Anschluss interpretiert werden.Dazu werden ebenfalls die benotigten Daten vorgestellt. Zum Abschluss werden dieErgebnisse evaluiert und ein Ansatz vorgestellt, der zur Verbesserung der Analysenfuhren soll.

Noten werden von vielen Zeitschriften bzw. Internetportalen vergeben. Meist sinddiese Noten an sogenannte Fußball-Managerspiele gekoppelt, wie z.B. das der Zeit-schrift Kicker oder das Managerspiel der Seite comunio.de. In diesen Spielen konnendie Teilnehmer Spieler aus den Bundesliga-Mannschaften virtuell kaufen und erhal-ten fur diese pro Spieltag eine bestimmte Anzahl an Punkten. Die Punkte werdeneinerseits fur Tore oder gelbe Karten vergeben, andererseits aber auch fur die von Re-dakteuren zugewiesenen Noten von Spielern [12].

Bei dem Online-Managerspieler comunio.de werden die Noten eines Spiels vonden Redakteuren der Seite sportal.de vergeben. Bei sportal.de vergibt pro Spielein Redakteur die Noten, welche anschließend mit einem Notenkoordinator diskutiertwerden. Laut sportal.de fließen die spielspezifischen Daten, wie die Tore oder dieZweikampfbilanz eines Spielers in die Note ein. Schlussendlich bleibt die Beurteilungder Leistung jedoch eine subjektive Einschatzung des Redakteurs [21]. Das Manager-spiel des Kicker Magazins basiert auf einem ahnlichen Prinzip. Hier benoten zweiRedakteure die Spieler eines Spiels [34]. Auch bei der Bild Zeitung bewerten die Re-dakteure die Spieler aufgrund ihrer subjektiven Meinung. Es soll jedoch die kompletteLeistung in die Note einfließen, wie Tore, Vorlagen sowie gewonnene und verloreneZweikampfe eines Spielers [33].

Dass die Noten nicht nur von Managerspielen genutzt werden, glaubt der Kicker-Chefredakteur Klaus Smentek. Laut ihm ist der Stellenwert der Noten bei Spielern alsauch bei Fans hoch [34]. Nach einem Artikel von Spiegel-Online spielen die Noten einewichtige Rolle bei den Spielern [33]. Der Artikel stellt zudem heraus, dass viele Spie-ler die Notenvergabe nicht nachvollziehen konnen und sich oftmals falsch bewertetfuhlen. Bei den intervieweten Spielern herrscht die Meinung vor, dass bei der Noten-vergabe die Sympathie des Spielers oder der Kooperationswille mit Redakteuren einewichtige Rolle einnehmen.

Trotz der Aussagen, dass ausschließlich die Leistung in die Notenvergabe einfließtist unklar wie sich die Noten tatsachlich zusammensetzen. Mithilfe von Data Mi-ning kann versucht werden, Zusammenhange zwischen den Daten und der Note zuentratseln. Die beschriebene Regressionsanalyse wird im weiteren Verlauf als Verfah-ren genutzt, um diese Abhangigkeiten aufzudecken.

Geht man von der Annahme aus, dass ausschließlich die Leistung die Note be-stimmt, kann das Wissen uber die Starke der Abhangigkeiten nutzlich sein. Sokonnen Spieler anhand der herausgefundenen wichtigen Attribute neu beurteilt wer-den. Hangt eine gute Leistung beispielsweise stark vom Zweikampfverhalten ab, sokonnen Spieler gezielt nach dieser Eigenschaft ausgewahlt werden.

In den USA wurden unter dem Begriff Sabermetrics neue Analysen im Baseball er-stellt. Dabei sollen die Sabermetrics Statistiken Spieler objektiver analysieren als veral-tete Statistiken [13, S. 1]. Die in diesem Kapitel gefundenen Zusammenhange konnenebenfalls zur objektiveren Bewertung der Spieler beitragen. Mithilfe der bedeutends-ten Faktoren kann die Leistung von Spielern neu eingeschatzt werden. Beispielsweisekann ein Angreifer nicht nur an geschossenen Toren gemessen werden, sondern an-hand der Kombination der als wichtig eingestuften Attribute.

51

Page 61: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 17: Verteilung der Noten

6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1

0

1,000

2,000

3,000

5.2.1 Datengrundlage

Die Daten, die zur Aufstellung der Regressionsanalyse benotigt werden sind in derTabelle Fakten sowie der Tabelle Noten gespeichert. Zusatzlich ist die Spielerpositionaus der Tabelle Spielereigenschaften notig. Das gesamte Datenmodell dieser Arbeitist in Kapitel 4 beschrieben.

Die Tabelle Fakten beinhaltet die Daten eines jeden Spiels. Hierzu sind fur jedenSpieler seine spielspezifischen Daten fur das gegebene Spiel gespeichert.

Die Noten der Spieler sind in der Tabelle Noten hinterlegt. Die Noten sind ausder fussballdaten.de Webseite gelesen worden. Die Notenvergabe orientiertsich am Schulnotensystem, d.h. die beste zu erreichende Note ist eine 1 und dieschlechteste eine 6. Die Abstufung erfolgt in 0,5 Schritten. Wie die Notenvergabe beifussballdaten.de erfolgt ist nicht naher bekannt. Es ist davon auszugehen, dassdie Noten ahnlich zu den beschriebenen Beispielen vergeben werden.

Insgesamt sind 13415 Noten in der Tabelle Noten gespeichert. Es stehen wenigerNoten zur Verfugung als tatsachlich Spieler gespielt haben. Dies liegt daran, dass einSpieler eine bestimmte Zeit an Minuten auf dem Feld gestanden haben muss, bevoreine Note vergeben wird. Bei kicker.demuss ein Spieler mindestens 30 Minuten amSpiel teilgenommen haben, um eine Note zu erhalten [33]. In der vorhandenen Tabellevon fussballdaten.de ist die geringste Einsatzzeit 16 Minuten bei der ein Spielernoch benotet wurde.

In Abbildung 17 ist die Verteilung der Noten der Saisons 2010 und 2011 zu sehen.Die Note 1 wurde 81-mal vergeben. Die schlechteste Note 6 haben insgesamt 59 Spielererhalten. Wie man sieht, ist die Note 3,5 mit 2811-mal die am haufigsten vergebeneNote.

Zusatzlich ist die Spielerposition aus der Tabelle Spielereigenschaften notig, daverschiedene Regressionsmodelle fur die einzelne Position aufgestellt werden. Dieswird gemacht, da z.B. ein Abwehrspieler anhand anderer Eigenschaften gemessenwird, als ein Mittelfeldspieler oder Angreifer.

Um mit den Daten zu arbeiten, werden die drei Tabellen verbunden. In Abbildung18 sind die beiden Tabellen und ihre Zusammenfuhrung abgebildet. Das zugehorige

52

Page 62: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 18: Datengrundlage Noten

Noten+Saison+Spieltag+Spieler+Note

Join

SpielerNote+Saison+Verein+Spieler+Zweikampf+VerlZweikampf+Ballkontakte+Spielerposition+...+...+Note

Spielereigenschaften+Saison+Spieler+Nationalitaet+Geburtstag+Gewicht+Groesse+Spielerposition

Fakten+Saison+Spieltag+Datum+Heim+Gast+Verein+Spieler+Zweikampf+VerlZweikampf+Ballkontakte+...+...+Gespielt

SQL-Statement ist im Anhang in Abbildung 24 zu sehen.Bei der Analyse der Daten erkennt man, dass eine weitere Transformation notig ist.

Die einzelnen Attribute besitzen verschiedene Wertebereiche. So liegen die gewon-nenen Zweikampfe zwischen 0 % und 100 %. Im Gegensatz dazu ist die maximaleAnzahl an Ballkontakten nach oben hin offen. Die Anzahl an gelben Karten kann so-gar nur Werte zwischen null und zwei annehmen (zwei gelbe Karten bedeuten eineGelb-Rote Karte und der Spieler wird fur das laufende Spiel gesperrt). Mithilfe einerNormalisierung konnen die Werte in einen Wertebereich abgebildet werden. Dadurchsind die Werte untereinander vergleichbar. Liegt ein gleicher Wertebereich vor, lassensich Aussagen wie ”Variable X ist 3-mal so stark gewichtet wie Variable Y” treffen.

Weka bietet an, den Datensatz automatisch zu normalisieren. Hier werden alle Wer-te in den Bereich zwischen null und eins abgebildet. Die Note als Zielwert wird nichtnormalisiert.

5.2.2 Aufstellung des Regressionsmodells

Im Folgenden werden Regressionsanalysen fur die einzelnen Spielerpositionen Ab-wehr, Mittelfeld und Angriff durchgefuhrt. Die Torhuter werden ausgelassen, daTorhuter-spezifische Daten fur diese Arbeit nicht vorliegen.

Weka bietet mehrere Moglichkeiten an, um Regressionsanalysen durchzufuhren.Diese reichen von der einfachen linearen Regression bis zur Regression Tree MethodeM5P. Auch neuronale Netzte sind in der Lage numerische Werte zu ermitteln. Die-se werden im Weiteren jedoch nicht angewendet, da neuronale Netze in erster LinieModelle aufstellen, welche lediglich eine Zielvariable prognostizieren, statt die Zu-

53

Page 63: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 15: Ergebnisse Note

Methode Position RMSE

Lineare RegressionAbwehr 0,7559Mittelfeld 0,696Angriff 0,6102

SMOregAbwehr 0,7598Mittelfeld 0,6973Angriff 0,611

M5PAbwehr 0,7559Mittelfeld 0,6965Angriff 0,6062

sammenhange aufzudecken. Da in dieser Anwendung die Beschreibung der Zusam-mensetzung der Zielvariable wichtig ist, werden solche sogenannten ”Black Box” Me-thoden ausgelassen.

Zur Beurteilung der Methoden wird die in Kapitel 2.2.1.3 beschriebene Methodeder Cross-validation mit zehn Teilmengen genutzt. Die Qualitat der Methoden wirdmittels der Wurzel aus der mittleren quadratischen Abweichung, im Englischen RootMean Squared Error (RMSE) genannt, ermittelt. Diese Maßzahl bestimmt die Abwei-chung zwischen den vorhergesagten Werten und den tatsachlich beobachteten Wer-ten. Der zugehorige Ausdruck ist in Formel 5 abgebildet, wobei pi den vorhergesagtenWert und yi den beobachteten Wert fur die Instanz i bezeichnet.

RMSE =

√(p1 − y1)2 + ...+ (pn − yn)2

n(5)

In dieser Anwendung werden mehrere Regressionsmethoden eingesetzt. Dies sinddie folgenden Methoden:• Lineare Regression• SMOreg• M5P Tree

Die ausgewahlten Methoden werden mit unterschiedlichen Einstellungen getestetund nur die besten Ergebnisse dargestellt.

Wie die Ergebnisse in Tabelle 15 zeigen, sind die Abweichungen in den Methodensehr gering. Eine Feature Selection, bei der nur die wichtigsten Attribute fur den Ziel-wert betrachtet werden, verbessert lediglich bei dem M5P Tree den RMSE. Die Ver-besserung ist jedoch so gering, dass sie ignoriert werden kann. In der Tabelle sind nurdie Ergebnisse ohne die Feature Selection dargestellt.

In der Abwehr und im Mittelfeld fuhrt die lineare Regression zu dem geringstenRMSE. Im Angriff schneidet der M5P Tree um 0,004 besser ab als die lineare Regressi-on. Insgesamt kann festgestellt werden, dass sich die Resultate der Regressionen nurgering unterscheiden.

Die hoher bzw. weniger hoch gewichteten Variablen sind in allen drei Modellensehr ahnlich. Zur Vereinfachung werden im Folgenden nur die Formeln der linearenRegression untersucht. Dabei ist zu beachten, dass die lineare Regression von Wekakollineare Attribute beim Erlernen entfernt. Somit enthalten die folgenden Formelnnicht alle Attribute die der Datensatz enthalt.

54

Page 64: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 16: Attribute fur die Abwehr gegenubergestellt

Positiv Negativ-1,4596 * Tore 1,2581 * erfPassProBallkontakt-1,1973 * Torschussvorlagen 0,7835 * fehlPaesse-1,1696 * Vorlage 0,3608 * verlZweikampf-1,1195 * erfPaesse 0,3598 * TorschussvorlageProPass-0,8796 * Zweikampf 0,1158 * Gelb-0,5282 * PassProBallkontakt 0,0897 * fehlPassquote-0,3425 * vergTorschuesse 0,0797 * fehlTorschussquote-0,0859 * erfTorschussquote 0,0536 * erfPassquote-0,0753 * Ballkontakte

Abwehr

Formel 6 zeigt die aufgestellte Formel der linearen Regression fur die Abwehr. In Ta-belle 16 sind die Attribute nach dem positiven (verringert die Note) bzw. negativenEinfluss (erhoht die Note) getrennt dargestellt sowie nach der Hohe des Einflussesgeordnet.

note = −0, 8796 ∗ Zweikampf + 0, 3608 ∗ verlZweikampf− 0, 0753 ∗Ballkontakte− 1, 1195 ∗ erfPaesse+ 0, 0536 ∗ erfPassquote+ 0, 7835 ∗ fehlPaesse+ 0, 0897 ∗ fehlPassquote− 0, 0859 ∗ erfTorschussquote− 0, 3425 ∗ vergTorschuesse+ 0, 0797 ∗ fehlTorschussquote− 1, 1973 ∗ Torschussvorlagen− 1, 4596 ∗ Tore− 1, 1696 ∗ V orlage+ 0, 1158 ∗Gelb− 0, 5282 ∗ PassProBallkontakt+ 1, 2581 ∗ erfPassProBallkontakt+ 0, 3598 ∗ TorschussvorlageProPass+ 3, 8115

(6)

Wie man sieht, sind die Attribute Tore (-1,4596), Torschussvorlagen (-1,1973), Vorla-gen (-1,1696) und die erfolgreichen Passe (-1,1195) die wichtigsten Attribute, welchedie Note positiv beeinflussen. Etwa um die Halfte weniger bedeutend als die Tore,ist das erfolgreiche Zweikampfverhalten mit -0,8796 und die Passe pro Ballkontaktmit -0,5282. Die Anzahl an vergebenen Torschussen beeinflusst die Note positiv mit-0,3425, wahrend die erfolgreiche Torschussquote und die Anzahl an Ballkontaktenmit etwa -0,08 nur minimal positiven Einfluss auf die Note haben.

Negativ belasten die Note vor allem die erfolgreichen Passe pro Ballkontaktmit 1,2581. Die Fehlpasse (0,7835) und die Prozent an verlorenen Zweikampfen(0,3608) beeinflussen die Note ebenfalls negativ, aber weniger stark. Wahrend dieTorschussvorlagen pro Pass (0,3598) und die Anzahl an gelben Karten (0,1158)die Note noch leicht verbessern, fallen die fehlerhafte Pass- und Torschussquote mit0,0897 bzw. 0,0797 sowie die erfolgreiche Passquote mit 0,0536 nur gering ins Gewicht.

55

Page 65: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 17: Attribute fur das Mittelfeld gegenubergestellt

Positiv Negativ-2,6718 * Tore 0,7089 * fehlPaesse-1,8942 * Vorlage 0,4679 * erfPaesse-1,732 * Ballkontakte 0,4287 * verlZweikampf-0,7382 * vergTorschuesse 0,3522 * erfPassProBallkontakt-0,6939 * PassProBallkontakt 0,0734 * fehlTorschussquote-0,4971 * Torschussvorlagen 0,0628 * fehlPassquote-0,4428 * TorschussvorlageProPass 0,0582 * Gelb-0,3893 * Zweikampf 0,0485 * erfPassquote-0,1222 * erfTorschussquote

Mittelfeld

In Formel 7 und in Tabelle 17 sind die Ergebnisse der linearen Regression fur dasMittelfeld dargestellt.

note = −0, 3893 ∗ Zweikampf + 0, 4287 ∗ verlZweikampf− 1, 732 ∗Ballkontakte+ 0, 4679 ∗ erfPaesse+ 0, 0485 ∗ erfPassquote+ 0, 7089 ∗ fehlPaesse+ 0, 0628 ∗ fehlPassquote− 0, 1222 ∗ erfTorschussquote− 0, 7382 ∗ vergTorschuesse+ 0, 0734 ∗ fehlTorschussquote− 0, 4971 ∗ Torschussvorlagen− 2, 6718 ∗ Tore− 1, 8942 ∗ V orlage+ 0, 0582 ∗Gelb− 0, 6939 ∗ PassProBallkontakt+ 0, 3522 ∗ erfPassProBallkontakt− 0, 4428 ∗ TorschussvorlageProPass+ 4, 3956

(7)

Im hohen Maße wird die Note positiv von den Toren mit -2,6718 beeinflusst. Et-was schwacher gehen die Vorlagen (-1,8942) und die Anzahl an Ballkontakten (-1,732)positiv in die Note ein. Die vergebenen Torschusse und die Passe pro Ballkontakt be-einflussen mit etwa -0,7 die Note mehr als 3-mal weniger positiv als die Anzahl anToren. Die Torschussvorlagen, die gewonnene Zweikampfquote sowie die Torschuss-vorlagen pro Pass wirken ebenfalls positiv auf die Note ein, mit etwa -0,4 im Vergleichaber gering. Mit -0,1222 beeinflusst die erfolgreiche Torschussquote die Note noch ge-ringer.

Am negativsten wirkt die Anzahl an fehlerhaften Passen auf die Note ein, beein-flusst mit 0,7089 die Note jedoch 3-mal weniger als die Tore. Die erfolgreichen Passe,die verlorene Zweikampfquote und die erfolgreichen Passe pro Ballkontakt belastendie Note mit 0,4679 bis 0,3522 zusatzlich negativ. Ebenfalls negativen Einfluss besitzendie fehlerhafte Torschussquote und die Quote an fehlerhaften Passen mit etwa 0,07.Die gelben Karten und die erfolgreiche Passquote haben mit etwa 0,05 nur geringeEinwirkung auf die Zielvariable.

Angriff

Die Ergebnisse aus Formel 8 und Tabelle 18 zeigen, dass die Anzahl an geschossenenToren mit etwa -3,4 den großten positiven Einfluss auf die Note des Angriffs haben.Mit etwa -2 ist die Anzahl an Vorlagen ebenfalls sehr wichtig fur die Zusammenset-zung der Note. Mit rund -1 wirkt die Anzahl an Torschussen ebenfalls positiv auf die

56

Page 66: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 18: Attribute fur den Angriff gegenubergestellt

Positiv Negativ- 3,4207 * Tore 0,278 * fehlTorschussquote- 1,9409 * Vorlage 0,2151 * fehlPassquote- 1,0935 * Torschuesse 0,2123 * verlZweikampf- 0,7666 * Torschussvorlagen 0,1152 * erfPassProBallkontakt- 0,7645 * Ballkontakte 0,1134 * vergTorschuesse- 0,2473 * erfTorschussquote 0,0972 * PassProBallkontakt- 0,2202 * Zweikampf 0,0216 * Gelb- 0,1663 * erfPaesse- 0,15 * fehlPaesse- 0,1087 * TorschussvorlageProPass- 0,0933 * erfPassquote

Note ein. Die Torschussvorlagen und Ballkontakte sind mit etwa -0,76 fast 5-mal we-niger wichtig als die Tore. Die erfolgreiche Torschussquote (-0,2473) und die gewon-nenen Zweikampfe (-0,2202) haben geringen Einfluss auf die Note. Leicht positivenEinfluss, mit Koeffizienten zwischen -0,17 und -0,09 haben die Anzahl an erfolgrei-chen und fehlerhaften Passen, die Torschussvorlagen pro Pass und die erfolgreichePassquote.

note = −0, 2202 ∗ Zweikampf + 0, 2123 ∗ verlZweikampf− 0, 7645 ∗Ballkontakte− 0, 1663 ∗ erfPaesse− 0, 0933 ∗ erfPassquote− 0, 15 ∗ fehlPaesse+ 0, 2151 ∗ fehlPassquote− 1, 0935 ∗ Torschuesse− 0, 2473 ∗ erfTorschussquote+ 0, 1134 ∗ vergTorschuesse+ 0, 278 ∗ fehlTorschussquote− 0, 7666 ∗ Torschussvorlagen− 3, 4207 ∗ Tore− 1, 9409 ∗ V orlage+ 0, 0216 ∗Gelb+ 0, 0972 ∗ PassProBallkontakt+ 0, 1152 ∗ erfPassProBallkontakt− 0, 1087 ∗ TorschussvorlageProPass+ 4, 4604

(8)

Die Attribute der negativen Seite haben im Vergleich geringen Einfluss. Mit 0,278hat die fehlerhafte Torschussquote noch den großten Einfluss, zeigt aber dass sie uber12-mal weniger wichtig ist als die Anzahl an Toren. Mit etwas uber 0,2 ist die feh-lerhafte Passquote sowie die Quote der verlorenen Zweikampfe weniger bedeutendfur die Zusammensetzung der Note. Die erfolgreichen Passe pro Ballkontakt, dievergebenen Torschusse und die Passe pro Ballkontakt wirken mit rund 0,1 ebenfallsnegativ auf die Note ein. Die Anzahl an gelben Karten (0,0216) haben nur geringnegativen Einfluss.

Zusammenfassung der Ergebnisse

Das mit Abstand wichtigste Attribut fur den Angriff ist die Anzahl an Toren. EinUmstand der zu erwarten ist, da Sturmer in der offentlichen Wahrnehmung fast aus-schließlich an den Toren gemessen werden. Danach ist es von Bedeutung viele Vor-lagen zu geben und somit nicht selbst das Tor zu erzielen, sondern den Mitspieler in

57

Page 67: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Szene zu setzen. Zudem sind die Anzahl an Torschussen und die Torschussvorlagenwichtige Attribute. Dies zeigt, dass es fur Sturmer am Wichtigsten ist in den offensivenBereichen gute Werte zu erlangen. Sie mussen viele Tore bzw. Torversuche tatigen undviele Tore bzw. Torschusse auflegen. Des Weiteren ist es wichtig genugend Ballkontak-te zu erhalten. Das bedeutet, dass ein auffalliger Sturmer mehr Chancen hat eine guteNote zu erhalten als ein unauffalliger. Positiv beeinflusst wird die Note im Sturm au-ßerdem durch die erfolgreiche Torschussquote und das positive Zweikampfverhalten,jedoch wesentlich geringer als die anderen Werte.

Auf der negativen Seite wird die Note nur gering beeinflusst. Dabei ist die fehler-hafte Torschussquote ein schlechtes Merkmal, also eine negative Eigenschaft fur dieOffensive. Auch ein negatives Zweikampfverhalten und eine negative Passbilanz be-einflussen die Note negativ. Das bedeutet, dass Sturmer insgesamt ein gutes Zwei-kampfverhalten besitzen sollten, genauso wie ein sicheres Passspiel.

Im Mittelfeld findet sich die Anzahl an Ballkontakten unter den drei bedeutends-ten Attributen wieder. Dies heißt, dass die Leistung eines Mittelfeldspielers dann bes-ser angesehen wird, wenn er viel am Spiel teilnimmt und viele Ballkontakte hat. Amwichtigsten ist es jedoch viele Tore zu schießen und viele Tore vorzulegen, also of-fensiv gute Werte zu erreichen. Die Note wird ebenfalls anhand der Anzahl an ver-gebenen Torschussen verbessert. Dies ist interessant, da es eigentlich ein negativ ein-zuschatzender Wert ist. Es scheint jedoch so, dass Redakteure darauf achten, dass einMittelfeldspieler oft aufs Tor schießt, unbeachtet dessen ob er trifft oder nicht. Fureinen Mittelfeldspieler ist es zudem wichtig den Ball schnell weiterzuleiten. Dies istdaran zu erkennen, dass ein guter Wert bei den Passen pro Ballkontakt die Note po-sitiv beeinflusst. Viele Torschussvorlagen sind außerdem bedeutend. Mittelfeldspielersollen die Sturmer anspielen, und je ofter ein Pass beim Sturmer ankommt und sodie gegnerische Abwehr uberwunden wird, desto besser wird er bewertet. Ein gu-tes Zweikampfverhalten hat zudem gering positiven Einfluss. Die lineare Regressionzeigt, dass Mittelfeldspieler eher an ihren offensiven Eigenschaften gemessen werden.Der positive Einfluss des Zweikampfverhaltens deutet darauf hin, dass gute defensiveEigenschaften ebenfalls gewurdigt werden.

Negativ beeinflusst die Note eines Mittelfeldspielers die Anzahl an Fehlpassen. Dieswar zu erwarten, da Mittelfeldspieler die Schnittstelle zwischen Abwehr und Angriffsind und dafur sorgen mussen, dass die Balle erfolgreich weitergeleitet werden. Wirdder Ball oft zum Gegner gepasst, bewerten Redakteure dies negativ. Interessant ist,dass die Anzahl an erfolgreichen Passen und erfolgreichen Passen pro Ballkontaktebenfalls negativ einwirken. Das steht auch im Widerspruch mit dem positiven At-tribut der Passe pro Ballkontakt, da dies aussagt, dass viele Passe scheinbar positivbewertet werden. Eher zu erklaren ist, dass die Quote an verlorenen Zweikampfennegativ auf die Note einwirkt, da diese Quote offensichtlich ein unerwunschtes Ver-halten fur Mittelfeldspieler ist.

In der Abwehr fallt auf, dass die offensiven Qualitaten die wichtigsten sind. Die An-zahl an Toren, Torschussvorlagen und Vorlagen sind die wichtigsten Attribute. Im Ge-gensatz zum Mittelfeld bewirken die erfolgreichen Passe, dass der Spieler besser be-wertet wird. Gerade fur Abwehrspieler ist es wichtig, dass Passe in der Nahe des eige-nen Tores den eigenen Mitspieler erreichen, da ein Fehlpass schnell zu einem Gegentorfuhren kann. Dies zeigt auch, dass die Anzahl an Fehlpassen negativen Einfluss aufdie Note hat. Im Gegensatz zu den anderen Positionen hat das Zweikampfverhaltengroßeren positiven Einfluss. Dies war zu erwarten, da Abwehrspieler hauptsachlicheingesetzt werden, um Aktionen der Gegenspieler zu verhindern. Des Weiteren wirdpositiv bewertet, wenn ein Abwehrspieler viele Passe pro Ballkontakt spielt, was be-deutet, dass der Ball schnell weitergespielt wird um so schnell Angriffe zu kreieren.

58

Page 68: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Der Zusammenhang der Ballkontakte mit der Note ist nur sehr gering. Ein Abwehr-spieler muss somit nicht zwangsweise viel in das Spiel integriert sein, um eine guteNote zu erhalten. Noch geringen Einfluss haben die vergebenen Torschusse, was be-deutet, dass Aktionen in der Offensive auch positiv bewertet werden. ErfolgreichePasse pro Ballkontakt haben einen hohen negativen Einfluss. Eine Erklarung dafurfehlt leider, genauso warum viele Torschussvorlagen pro Pass schlecht bewertet wer-den. Dass verlorene Zweikampfe und die Anzahl gelber Karten geringen negativenEinfluss haben, ist dagegen offensichtlich.

In allen drei Spielerpositionen sind die Anzahl an Toren sowie die Anzahl anVorlagen unter den drei wichtigsten Attributen. Fur alle Spieler gilt somit, dassihre Leistung als besser angesehen wird, sobald sie an einem Tor direkt bzw.indirekt beteiligt sind. Dies ist darauf zuruckzufuhren, dass Tore im Fußball diewichtigsten Ereignisse sind und somit am meisten gewurdigt werden. Interessantist diese Tatsache fur Managerspiele, da sich Tore und Vorlagen doppelt auf dieGesamtpunktzahl eines Spielers auswirken. Erstens wird eine bessere Note erzieltund zweitens werden die Tore und Vorlagen mit extra Punkten im Spiel gewurdigt.Neben den Attributen Tore und Vorlagen sind in der Abwehr zusatzlich die er-folgreichen Passe und das Zweikampfverhalten wichtig, also ein sicheres Passspielund gutes Abwehrverhalten. Im Mittelfeld liegt der Fokus, neben den Toren undVorlagen, auf dem Attribut Ballkontakte. Das heißt, dass ein Spieler, welcher dasSpiel durch seine Prasenz steuert eher gewurdigt wird, als ein unauffalliger Spieler,der sich wenig ins Spiel einschaltet. Im Angriff sind die offensiven Attribute, wiedie Anzahl an Toren, Torschussen oder Vorlagen wesentlich bedeutender als beiden anderen zwei Positionen. Sturmer sind dafur zustandig, Tore zu erzielen bzw.vorzubereiten. Die Abwehr hat den kleinsten Koeffizienten bei den Toren. Im Mit-telfeld ist dieser großer, wahrend er im Sturm den hochsten Wert annimmt. Je eherein Spieler fur die Offensive zustandig ist, umso mehr wird er an den Toren gemessen.

5.2.3 Implikationen fur den realen Einsatz

Insgesamt zeigen die Ergebnisse aus Tabelle 15, dass die Note im Schnitt zwischen 0,6und 0,75 falsch prognostiziert wird. Ein Fehler von uber einer halben Note ist als kri-tisch zu betrachten. Die Interpretation der gefundenen Zusammenhange zeigt jedoch,dass sich einige Attribute in den Formeln stark unterscheiden. Diese sind auch meistnachvollziehbar und stimmen mit der offentlichen Wahrnehmung uberein. Das dieerfolgreichen Passe pro Ballkontakt stark negativ in die Note der Abwehrspieler ein-gehen ist dabei ein Zusammenhang, der nicht offensichtlich ist. Welche Verbindung eshier zur Note gibt ist unersichtlich.

Beispielhaft soll nun vorgestellt werden, wie das gewonnene Wissen zur neuen Be-urteilung von Spielern beitragen kann. Dafur werden die aggregierten Werte der Spie-ler, die mindestens ein Drittel der Saison 2011 gespielt haben, in die Formeln eingetra-gen. Diese sind in der Tabelle SpielerProSaison gespeichert, welche als Grundlage furdie Anwendung von Data Mining im Kapitel 5.1 dient. Dort sind die Werte der Saison2011 von jedem Spieler summiert und durch Anzahl an gespielten Minuten der Saisongeteilt. Die Daten sind nicht normalisiert, sodass die Noten nicht im Bereich von 0 bis 6zu erwarten sind. Da man aber nur an den niedrigsten Zahlen interessiert ist und die-se nicht in einen Kontext gesetzt werden mussen, wird dieser Umstand ignoriert. Eineniedrigere Zahl bedeutet einen besseren Wert als eine Hohe. In Tabelle 19 sind die funfSpieler mit der niedrigsten Note der Saison 2011 fur jede Spielerposition aufgelistet.Acht dieser 15 Spieler wurden in der Saison 2011 von der zugehorigen Multilayer-Perceptron Methode in Kapitel 5.1 als Nationalspieler vorhergesagt. Die Ergebnisse

59

Page 69: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 19: Spieler mit den besten Noten der Saison 2011

Abwehr Mittelfeld AngriffD.van Buyten (-35,94) S. Reinartz (7,96) K. J. Huntelaar (17,79)G. Sankoh (-35,78) M. Lanig (8,74) Raul (21,11)Naldo (-35,56) P. Niemeyer (8,76) P. Helmes (21,12)S. Rajkovic (-35,30) W. Kvist (9,35) S. Kießling (21,31)P. Wollscheid (-32,68) S. Bender (10,04) S. Okazaki (21,75)

sind schwer zu interpretieren. Zum Beispiel schneidet Philipp Lahm, der Kapitan derdeutschen Nationalmannschaft, mit einer Note von -15,13 im Vergleich schlecht ab. ImMittelfeld hat der Spieler der Saison 2011 Marco Reus, ein sehr hohen Wert von 22,22.Somit ist schwer zu sagen, ob dieses Experiment tatsachlich ein guter Messwert fur dieQualitat von Spielern ist. Trotzdem konnen die Aufschlusse fur ahnliche Bewertungengenutzt werden.

Wie erwahnt liegen die Vorhersagen im Schnitt uber eine halbe Note neben dertatsachlichen Note. Bisher sind nur die spielspezifischen Werte als unabhangige Varia-blen in die lineare Regression eingegangen. Ein Ansatz zur Verbesserung ist es, weite-re Attribute in den Datensatz aufzunehmen. Die Tests zeigen, dass die Feature Selecti-on die Qualitat der Methoden nicht verbessert. Dies ist ein Anzeichen dafur, dass vie-le Attribute zu besseren Ergebnissen fuhren als wenige. Wie bereits angemerkt, gibtes noch viele weitere Attribute, welche im Fußball aufgenommen werden konnen.Beispielsweise die gelaufenen Kilometer oder die Anzahl an Sprints pro Spiel. DieseWerte konnten die Regressionen wesentlich beeinflussen und so zu besseren Progno-sen fuhren. Neben diesen spielspezifischen Werten ist es außerdem moglich dem Da-tensatz Attribute hinzuzufugen, die nicht unbedingt mit der Spielweise des Spielerszusammenhangen aber trotzdem Einfluss auf die Note haben konnen. Ein Attribut,welches hierbei heraus sticht ist die Differenz von geschossenen Toren zu erhaltenenToren. Die Idee ist, je hoher eine Mannschaft gewinnt umso mehr werden die Leis-tungen der Spieler der erfolgreichen Mannschaft positiv wahrgenommen. Ein hoherSieg bedeutet, dass die siegreiche Mannschaft wesentlich besser gespielt haben muss.Gleichzeitig bedeutet es, dass die Leistungen der Verlierer unzureichend waren.

Nimmt man das Attribut Differenz in die verschiedenen Datensatze auf, so wer-den wesentlich bessere Ergebnisse erzielt. So erreicht die lineare Regression mit demzusatzlichen Attribut in der Abwehr einen RMSE von 0,5984 statt vorher 0,7559. DasAttribut Differenz ist mit -3,3868 das mit Abstand wichtigste Attribut, gefolgt von derAnzahl an Toren mit -1,1697. Die Differenz ist somit fast 3-mal hoher gewichtet als dieTore.

Im Mittelfeld erreicht man mit dem erweiterten Datensatz einen RMSE von 0,573(vorher 0,696). Auch hier hat die Differenz den niedrigsten Koeffizienten mit -2,9729.Zum Vergleich hat die Anzahl an Toren den Koeffizienten -1,828.

Der Angriff erreicht ohne das Attribut einen RMSE von 0,6102. Mit der Differenzkann dieser auf 0,5363 gesenkt werden. Die Differenz hat hier nicht den hochsten Stel-lenwert mit -2,3887, sondern die Anzahl an Toren mit -2,688.

Die Ergebnisse zeigen, dass vor allem die Abwehr davon profitiert wesentlich we-niger Tore zu erhalten als zu schießen. Im Angriff ist es wichtiger Tore zu schießen, alseine hohe Differenz zu erreichen. Der RMSE konnte in allen Fallen verbessert werden.Zusatzliche Tests haben gezeigt, dass ein Heimvorteil kaum Auswirkung auf die Notehat. Auch ob das Spiel gewonnen wurde oder nicht, ist fur die Zusammensetzung derNote nicht entscheidend.

Um das Kapitel abzuschließen, kann man sagen, dass die lineare Regression gehol-

60

Page 70: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

fen hat, die Zusammenhange zwischen den Attributen und der Note aufzudecken.Auch wenn die Qualitat der Ergebnisse nicht vollstandig uberzeugt, so ist das auf-gedeckte Wissen durchaus nutzbar. Wie sich zeigt, vergeben Redakteure die Notehauptsachlich anhand der offensiven Eigenschaften der Spieler. Die spielentscheiden-den Aktionen wie Tore und Vorlagen sind dabei die zwei wichtigsten spielspezifischenAttribute, welche die Vergabe der Note bestimmen. Den großten Einfluss hat die Tor-differenz in einem Spiel. Gewinnt eine Mannschaft hoch, so werden die Spieler auchsehr gut bewertet.

Wie beschrieben, konnen die Ergebnisse fur eine neue Beurteilung der Spie-ler genutzt werden. Konkrete Moglichkeiten konnen weitere Untersuchungen erge-ben. Insgesamt bieten Regressionen eine einfache Darstellung der Beziehungen zwi-schen mehrere unabhangiger Variablen und einer abhangigen Variable. Regressionenkonnen zudem zur Vorhersage genutzt werden. Damit bietet die Regressionsanalysevielfaltige Moglichkeiten um im Fußball angewendet zu werden.

5.3 Einteilung von Teams und Spielern in homogene Gruppen

Der beschriebene Artikel aus Kapitel 3.3 zeigt, dass die Clusteranalyse sinnvolle An-wendung im Bereich des Sports findet. Wie in Kapitel 2.2.2 beschrieben, fallt die Clus-teranalyse unter die Kategorie des unsupervised learnings. Im Gegensatz zur Klassifi-kation oder Regression ist dabei der Zielwert unbekannt. Das Clustering kommt dannzur Anwendung, wenn die Entdeckung von unbekannten Mustern im Vordergrundder Analyse steht. Die Clusteranalyse dient dazu Objekten Klassen zuzuordnen. Hier-bei sind die Klassen, auch Cluster oder Gruppen genannt, jedoch nicht vordefiniertund mussen von den Methoden erst identifiziert werden. Die Clusteranalyse versucht,Objekte die ahnlich sind den gleichen Gruppen zuzuordnen und unahnliche Objektein unterschiedliche Gruppen einzuteilen. Ziel ist es, die Objekte in homogene Grup-pen zu unterteilen.

Obwohl die verwandten Arbeiten keine Anwendung im Fußball betrachten, zei-gen die Ergebnisse, dass es moglich ist Spieler verschiedener Sportarten anhand ihrerspielspezifischen Werte in Gruppen zu unterteilen, um so Ahnlichkeiten in den Spiel-weisen aufzudecken. Bisher ist nicht bekannt, inwiefern Vereine die Clusteranalyseim Profifußball anwenden. Dass Data Mining jedoch Moglichkeiten in diesem Bereichbietet, sollen die folgenden Abschnitte zeigen.

Vereine stehen am Saisonende oder zur Winterpause vor dem Problem, dass Spie-ler ihren Verein verlassen und diese adaquat ersetzt werden mussen. So musste zumBeispiel der Verein Borussia Dortmund nach der Meistersaison 2010/2011 ihren defen-siven Mittelfeldspieler Nuri Sahin ersetzen. Mit Ilkay Gundogan vom 1. FC Nurnbergwurde die Lucke erfolgreich geschlossen und Borussia Dortmund konnte die Meister-schaft verteidigen. Nicht so gut reagiert hat der Verein Borussia Monchengladbachnach dem Abgang des Spielers Marco Reus nach der Saison 2011/2012. BorussiaMonchengladbach hat zwar versucht den Verlust des offensiv agierenden Spielers mitneuen Angreifern zu kompensieren, musste jedoch erkennen, dass dies nicht zufrie-denstellend gegluckt ist. So argerte sich der Trainer Lucien Favre nach dem aus inder Qualifikation zur Champions League mit den Worten: ”... Wir haben zu ahnlicheSturmer, die bleiben alle nur im Zentrum. Die Mischung ist nicht gut.” [24]. Ein Um-stand der mithilfe der Clusteranalyse hatte umgangen werden konnen. Schließlich isthier das Ziel andersartige Spieler zu trennen und ahnliche Spieler zusammenzufassen.

In dem Artikel aus Kapitel 3.2 wird mithilfe statistischer Methoden und der linearenRegression versucht die Top-Mannschaften von den durchschnittlichen Mannschaftenabzugrenzen. Ziel ist es zu erklaren, was besser spielende Teams anders machen alsihre Konkurrenten. In dieser Arbeit soll die Clusteranalyse benutzt werden, um solche

61

Page 71: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Unterschiede aufzudecken. So wird im weiteren Verlauf ebenfalls versucht, Teams inGruppen zu unterteilen, um zu identifizieren worin sich Top-Teams ahneln und vonanderen Teams abgrenzen.

Im folgenden Abschnitt 5.3.1 wird die Clusteranalyse auf die Mannschaften ange-wendet. Zuerst werden die Daten fur das Data Mining naher erklart. Daran anschlie-ßend wird der EM-Algorithmus angewendet. Abschließend werden die Ergebnissedargestellt und interpretiert.

Im Abschnitt 5.3.2 wird auf die Spieler eingegangen. Dabei werden fur jede Spie-lerposition wie Abwehr, Mittelfeld und Angriff eigene Clusteranalysen durchgefuhrt.Auch hier werden zunachst die Daten dargestellt. Zum Abschluss findet eine Darstel-lung der Ergebnisse und Interpretation dieser statt. Um das Kapitel uber die Cluster-analyse abzuschließen, werden die Implikationen fur den realen Einsatz eingeschatzt.

5.3.1 Clusteranalyse von Mannschaften

In den folgenden Abschnitten wird untersucht, inwiefern sich einzelne Mannschaftenahneln bzw. unterscheiden. Dabei wird ein besonderer Fokus auf die Unterteilung vonsehr erfolgreichen Teams und weniger erfolgreichen Teams gelegt. Es gilt herauszufin-den, ob es eine klare Abgrenzung zwischen den Teams gibt, die im oberen Drittel derTabellenhalfte landen zu denen, die sich in der unteren Region der Tabelle einfinden.

5.3.1.1 Datengrundlage

Innerhalb des in dieser Arbeit vorliegenden Datensatzes sind die Daten fur die Saison2010 und 2011 gespeichert. Sobald ein Spieler an einem Spiel teilgenommen hat, wur-den die entsprechenden Daten fur ihn aufgenommen. Diese reichen von der Anzahlan geschossenen Toren bis zur Quote der gewonnenen Zweikampfe. Fur die folgendeAnwendung werden die Werte der gesamten Mannschaft betrachtet. Dies bedeutet,dass im Folgenden die Werte der Spieler eines Vereins zusammengefasst werden. Da-durch wird eine spielspezifische Beschreibung fur jede Mannschaft in der Bundesligaerreicht.

Die Daten werden fur diese Anwendung pro Halbsaison aggregiert. Dies bedeutet,dass fur die Clusteranalyse insgesamt 72 Dateninstanzen zur Verfugung stehen. Die-se Zahl setzt sich folgendermaßen zusammen: Pro Saison nehmen 18 Mannschaftenan der 1. Bundesliga teil. In jeder Saison werden insgesamt 34 Spiele gespielt. Diese34 Spiele werden in zwei Halften ausgespielt, namlich in einer Hinrunde und einerRuckrunde. Damit gibt es pro Saison genau zwei Runden. Da die Daten von zwei Sai-sons zur Verfugung stehen, gibt es insgesamt 18 Mannschaften * 2 Runden * 2 Saisons= 72 Instanzen.

Die Basis fur die Aggregation bildet die Tabelle Fakten. Fur jedes Spiel sind hierspielspezifische Daten, wie die Tore, das Zweikampfverhalten oder die Vorlagen ei-nes jeden Spielers der an dem betrachteten Spiel teilgenommen hat, hinterlegt. Diekomplette Liste der Attribute, die in der Tabelle Fakten gespeichert sind findet sich inKapitel 4 uber die Datengrundlage dieser Arbeit.

Da in der folgenden Anwendung nur die summierten Werte der Vereine von Be-deutung sind, werden die Werte aller Spieler eines Vereins zusammengefasst. Manerhalt so die spielspezifischen Werte fur eine Mannschaft. Bei den Werten, welche inProzent angegeben sind, wie die erfolgreiche oder fehlerhafte Passquote werden diesummierten Werte durch die Anzahl an Instanzen geteilt. Die berechnete Zahl wird sowiederum in Prozent abgebildet. Bei den Werten bei denen die Mengen gespeichertsind, wie die Anzahl an Torschussen oder die Ballkontakte, werden die Werte fur die

62

Page 72: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 19: Pseudocode Aggregation von Vereinen

SELECTSaison , ’ Hinrunde ’ AS Runde , Verein , S p i e l e r ,Summe( Tore ) ,Summe( ErfPassquote ) / Count ( ∗ )FROM fakten WHERE Saison = 2010 AND S p i e l t a g > 0 AND S p i e l t a g

< 18GROUP BY Saison , Verein

jeweilige Runde lediglich summiert. Hier wird nicht durch die gespielten Minutengeteilt. Dies ist nicht erforderlich, da jede Mannschaft die gleiche Anzahl an Minu-ten pro Runde spielt. In dieser Arbeit wird angenommen das jedes Spiel 90 Minutendauert und es keine Nachspielzeit gibt. Da die Nachspielzeit nur ein geringer Teil dergespielten Minuten sind, kann man diese zusatzliche Zeit ignorieren.

Abbildung 19 zeigt einen Beispielbefehl fur die Tore und die erfolgreiche Passquoteder Hinrunde der Saison 2010 in Pseudocode. Abbildung 25 aus dem Anhang zeigtden gesamten SQL-Ausdruck der Aggregation.

Der Fokus dieser Analyse liegt auf der Unterscheidung von erfolgreichen Mann-schaften einer Liga zu den weniger erfolgreichen Teams. Um die identifizierten Clus-ter zu uberprufen, wird im Anschluss der Clusteranalyse die Mannschaften der Clus-ter mit dem Tabellenrang der jeweiligen Runde verglichen. In Tabelle Abschlussta-belle sind fur jede Saison und Runde die jeweiligen Punkte eines Vereins gespeichert,welche dieser fur die Runde erreicht hat. Anhand der Punkte ist der ”Rang” der Ver-eine berechnet. Rang bedeutet hier die Tabellenregion, in der eine Mannschaft fur diebetrachtete Runde gelandet ist. Die Regionen sind in drei Teile unterteilt. Die ers-ten funf Mannschaften aus der Tabelle sind die Top-Mannschaften und nehmen denWert {2} fur die Spalte Rang an. Sofern es Mannschaften gibt, die anhand der glei-chen Punktzahl zusammen Platz 5 einnehmen, fallen diese gemeinsam unter die Top-Mannschaften. Als schlechteste Mannschaften gelten die Vereine, welche die Platzein den Abstiegsregionen belegen. Dies sind die letzten drei Vereine der Tabelle undbesitzen den Wert {0}. Auch hier nimmt eine Mannschaft den Wert {0} an, sofern siedie gleiche Punktzahl besitzt wie die Mannschaft, die auf Platz 16 steht. Die restli-chen Mannschaften fallen unter die Kategorie der mittelmaßigen Mannschaften undbesitzen den Wert {1}. Jede Runde wird separat betrachtet. Beispielweise ist der 1.FSV Mainz 05 in der Hinrunde der Saison 2010 in Region {2} gelandet. Zusammenge-nommen mit der Ruckrunde erreichte der 1. FSV Mainz 05 auch am Ende der Saison2010 einen der funf besten Platze der Tabelle. Betrachtet man die Ruckrunde isoliert,erreichte der 1. FSV Mainz 05 in dieser Runde jedoch nur die mittlere Tabellenregion.Separat gesehen wurde also zuerst der Wert {2} fur die Hinrunde und der Wert {1}fur die Ruckrunde angenommen.

Mithilfe der aggregierten Daten der Vereine wird im Folgenden eine Clusteranalysedurchgefuhrt und mittels den Werten aus der Abschlusstabelle interpretiert.

5.3.1.2 Durchfuhrung der Clusteranalyse

In diesem Abschnitt wird die Clusteranalyse durchgefuhrt. Die Clusteranalyse istnaher in Kapitel 2.2.2 beschrieben.

Die Data Mining Software Weka bietet mehrere Algorithmen zur Clusteranalysean, die in dieser Anwendung zum Einsatz kommen konnten. Im Folgenden wird der

63

Page 73: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 20: Matrix Cluster Mannschaften

Clusterzuordnung0 1 2

Rang0 5 6 11 19 17 32 4 1 16

EM-Algorithmus fur die Clusteranalyse genutzt. Der Vorteil dieser Methode ist, dassdie Anzahl an Clustern durch den Benutzer nicht angegeben werden muss, wie diesbeispielsweise fur die K-Means Methode der Fall ist. Obwohl man daran interessiertist, die Daten in drei Teile zu segmentieren (Top-Mannschaften, mittlere Region, Ab-steiger), ist es nicht sicher, ob mehr bzw. weniger Cluster die Daten besser beschrei-ben. Deswegen wird die automatische Identifizierung der Anzahl an Clustern desEM-Algorithmus zur Hilfe genommen. Die Methode wird in mehreren Iterationenparametrisiert bis das bestmogliche Ergebnis gefunden wird. Dabei gilt je hoher derlog-likelihood Wert der gefunden Cluster ist, desto besser ist die gefundene Losung.Da der Algorithmus abhangig von der initialen Konfiguration arbeitet, werden mehreDurchlaufe mit veranderten initialen Konfigurationen durchgefuhrt.

Die Anwendung der Clusteranalyse fuhrt dazu, dass die Mannschaften in dreiCluster aufgeteilt werden. In Tabelle 20 sieht man die Clusterzuordnungen und denRang in einer Matrix gegenubergestellt. Wie man sieht, sind Cluster 0 und Cluster 1hauptsachlich eine Mischung der schlechtesten drei Mannschaften sowie der mittle-ren Mannschaften. Festzuhalten ist, dass nur eine Mannschaft in Cluster 1 eingeteiltwurde, die es unter die besten funf einer Runde schafften. Aus Cluster 0 schafften diesimmerhin vier Vereine. Cluster 2 besteht zu 80 % aus Top-5-Mannschaften. Nur eineMannschaft innerhalb dieses Clusters ist in der Abstiegsregion gelandet. Der Spielstildes Clusters 2 ist somit der erfolgreichste und Mannschaften erhohen ihre Chancenwesentlich, wenn sie ahnlich zu diesen Mannschaften spielen.

In Tabelle 21 sind die Mittelwerte jeden Attributs der einzelnen Cluster dargestellt.Fur eine bessere Uberschaubarkeit der Ergebnisse wurden die Zellen der Tabelle ineine Farbe aus dem Bereich Grun bis Rot eingefarbt. Der maximale Wert einer Zeilewird in Grun eingefarbt und der Minimale in Rot. Die Zellen der Werte zwischen die-sen beiden Extremwerten nehmen je nach Hohe des entsprechenden Mittelwerts eineFarbe zwischen Grun und Rot an. Dabei reprasentieren Werte nahe dem maximalenWertes eine grunere Farbe. Je niedriger ein Wert wird, desto eher geht die Farbe derentsprechenden Zelle von Grun zu Gelb und schließlich in Rot uber.

Es ist zu erkennen, dass bei den Quoten, wie dem Zweikampfverhalten,erfolgreiche- und fehlerhafte Passquote und die erfolgreiche- bzw. fehlerhafte Tor-schussquote keine neuen Informationen gewonnen werden. Wird z.B. im erfolgrei-chen Zweikampfverhalten der großte Mittelwert aller Cluster angenommen, wirdgleichzeitig in der Quote der verlorenen Zweikampfe der niedrigste Mittelwert derCluster erreicht. Gleiches gilt fur die Torschuss- und Passquote.

Wie in der Tabelle zu erkennen ist, weisen die Mannschaften aus Cluster 2 unddamit die erfolgreichen Mannschaften, in der Mehrheit der Attribute die hochstenMittelwerte auf. Im negativ zu bewertenden Attribut, der Anzahl an Fehlpassen ha-ben die Mannschaften aus Cluster 2 den zweithochsten Mittelwert. Dies heißt, dassviele Passe zum Gegner gingen. Da aber diese Teams insgesamt mehr Passe spielen,ist dieser Wert verstandlich. Anhand der erfolgreichen Passquote kann man sehen,dass die Vereine aus Cluster 2 trotzdem das sicherste Passspiel aufweisen. Gleiches

64

Page 74: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 21: Cluster Mannschaften

Wert 0 1 2Zweikampf 48,486 48,539 50,448VerlZweikampf 51,514 51,461 49,552Ballkontakte 8796,212 9512,138 10743,88ErfPaesse 3997,823 4870,046 6033,423FehlPaesse 1247,505 1184,319 1224,107Paesse 5245,329 6054,365 7257,53ErfPassquote 72,727 77,329 79,339FehlPassquote 27,273 22,672 20,661Torschuesse 213,555 209,295 253,79VergTorschuesse 191,803 190,461 220,901ErfTorschussquote 5,279 4,245 6,994FehlTorschussquote 94,721 95,755 93,007Torschussvorlagen 204,517 200,3 245,739Vorlage 18,076 15,151 27,952Tore 21,752 18,834 32,889Gelb 16,835 18,902 16,236PassProBallkontakt 0,573 0,609 0,643ErfPassProBallkontakt 0,429 0,482 0,525TorschussvorlageProPass 0,05 0,042 0,044

gilt fur die vergebenen Torschusse. Die Vereine aus Cluster 2 schießen ofter aufs Torund verschießen demnach auch wesentlich ofter. Den niedrigsten Wert erhalten dieMannschaften in der Anzahl an gelben Karten. Daraus lasst sich erkennen, dass dieTop-Mannschaften weniger grobe Fouls begehen als die anderen Mannschaften. Inden Torschussvorlagen pro Pass nehmen die Teams aus Cluster 2 den zweitbestenWert an. Es wird nicht versucht mit jedem Pass eine Torchance zu kreieren, sonderndas Spiel wird behutsam aufgebaut.

Die Ergebnisse zeigen, dass sich die Mannschaften aus Cluster 2 klar gegenuberden anderen Teams abgrenzen und in der Mehrheit der Werte die besten Ergebnisseaufweisen. Eine Empfehlung fur den Spielstil kann anhand der Ergebnisse nicht aus-gesprochen werden, da Vereine naturlicherweise versuchen in all diesen Attributendie besten Werte zu erspielen.

Vergleicht man die Mannschaften aus Cluster 0 sowie Cluster 1 miteinander, falltauf, dass die Unterschiede gering ausfallen. Auffallig ist, dass die Teams aus Cluster 0vor allem in den offensiven Attributen, wie die Anzahl an Toren, Torschussvorlagen,Vorlagen oder Torschussen bessere Werte als die Mannschaften aus Cluster 1 erzie-len aber in den Attributen, wie dem Zweikampfverhalten, Anzahl an Ballkontaktenoder dem Passspiel schlechter abschneiden. Die Mannschaften teilen sich hier alsoin zwei Kategorien. Cluster 0 beschreibt die offensiv starkeren Mannschaften, wel-che aber das Passspiel vernachlassigen oder weniger Ballkontakte haben. Im Gegen-satz dazu konnen die Mannschaften aus Cluster 1 bei diesen Attributen bessere Werteerzielen, haben dafur aber in der Offensive ihre Schwachen. Um also in der oberenRegion mitspielen zu wollen, mussen Defensive und Offensive gleich erfolgreich ver-bunden werden.

Ein weiterer Ansatz zur Analyse der Mannschaften ist es die Mannschaftsteile Ab-wehr, Mittelfeld und Angriff einzeln zu betrachten. Damit ist gemeint, die Spieler dereinzelnen Positionen einer Mannschaft zusammenzufassen und separat zu analysie-ren. Beispielsweise fasst man alle Abwehrspieler einer Mannschaft zusammen und

65

Page 75: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 22: Matrix Cluster Abwehr

Clusterzuordnung0 1 2 3 4

Rang0 0 0 3 5 41 6 1 14 12 72 5 7 3 3 2

fuhrt darauf eine Clusteranalyse aus. So konnen Unterschiede in den einzelnen Posi-tionen der Mannschaften identifiziert werden.

Fur diese Analysen werden die Daten wie bei der Analyse der gesamten Mann-schaft aggregiert, jedoch auf die Spieler der jeweiligen Position wie Abwehr, Mittel-feld oder Angriff gefiltert. So werden nur die Spieler der einzelnen Positionen derVereine zusammengefasst. Auf diese Daten werden die Clusteranalysen ausgefuhrt.Hierbei ist zu beachten, dass sich die Anzahl an gespielten Minuten zwischen denMannschaften unterscheiden. Dies liegt an dem Fakt, dass verschiedene Spielsystemegespielt werden. Beispielsweise bevorzugen es manche Mannschaften mit zwei An-greifern zu starten, wahrend andere Mannschaften uber 90 Minuten nur mit einemSturmer spielen. Die Daten mussen hier also zusatzlich durch die gespielten Minutengeteilt werden, sodass die Werte vergleichbar sind. Dies gilt nicht fur die Attributebei denen Prozentzahlen gespeichert sind. Diese bleiben vergleichbar, da sie durchdie Anzahl an Instanzen geteilt werden. Da Weka innerhalb der Clusteranalyse mitmaximal vier Nachkommastellen rechnet und durch die Division sehr kleine Werteangenommen werden, werden die Werte pro Spiel berechnet. Dies wird erreicht in-dem man die Werte mit 90 multipliziert, da ein Spiel regular 90 Minuten dauert.

Die Matrix aus Tabelle 22 beschreibt die Verteilung der Mannschaften auf die Clus-ter der Position Abwehr. Tabelle 23 zeigt die eingefarbten Mittelwerte der Clusterana-lyse. Cluster 0 und Cluster 1 sind dabei die Cluster, welche in keiner der beobachtetenRunden Mannschaften enthalten, die unter den letzten drei der Tabelle landeten. Dieanderen Cluster dagegen sind sehr gemischt. Wie die Tabelle zeigt, haben die Vereineaus Cluster 1 gute bzw. beste Werte in den Attributen Zweikampf sowie Ballkontak-te und stechen besonders im Passspiel heraus. Auffallig in diesem Cluster ist jedoch,dass in den offensiven Attributen, wie Torschusse, Torschussvorlagen, Vorlagen undauch bei der Anzahl an Toren eher geringe Mittelwerte erzielt werden. Sieben der achtMannschaften aus diesem Cluster sind unter den besten funf Mannschaften gelandet.Eine Mannschaft kann somit ihre Chance erhohen, wenn die Abwehr weniger an of-fensiven Aktionen teilnimmt, dafur aber viele Ballkontakte und ein gutes Passspielaufweist. Auch im Attribut Pass pro Ballkontakt wird ein hoher Wert erzielt.

Das andere Cluster, welches erfolgreichere Mannschaften beschreibt, ist Cluster 0.Hier weisen die Mannschaften in allen Attributen gute Werte auf. Besonders in denoffensiven Attributen, wie Torschusse oder Torschussvorlagen. Grundsatzlich ist alsonicht zu sagen, dass sich offensive Qualitaten negativ auswirken.

Die ubrigen Cluster beinhalten keine interessanten, neuen Erkenntnisse und in vie-len Attributen sind die Unterschiede gering. Die Vereine aus Cluster 3 schießen proSpiel die meisten Tore. In diesem Cluster sind mit funf Mannschaften die meisten

”Absteiger” eingeteilt. Das bedeutet, dass es nicht besser ist torgefahrliche Abwehr-spieler zu verpflichten. Ein Indiz dafur, dass sich Abwehrspieler auf den ihren ange-dachten Positionen fokussieren sollten, statt die Aufgaben der offensiven Spieler zuubernehmen.

Das Clustering im Mittelfeld identifiziert insgesamt vier Cluster. Wie die Matrix

66

Page 76: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 23: Tabelle Cluster Abwehr

Wert 0 1 2 3 4Zweikampf 59,983 59,575 57,501 58,883 56,078VerlZweikampf 40,017 40,425 42,499 41,117 43,922Ballkontakte 64,802 76,122 60,749 59,122 52,077ErfPaesse 34,509 49,404 31,773 28,104 22,348FehlPaesse 7,095 6,511 6,995 7,618 7,053Paesse 41,604 55,916 38,768 35,722 29,4ErfPassquote 80,21 85,43 79,174 75,541 72,325FehlPassquote 19,79 14,57 20,826 24,459 27,675Torschuesse 0,73 0,451 0,467 0,598 0,47VergTorschuesse 0,676 0,408 0,455 0,538 0,44ErfTorschussquote 3,652 3,25 0,713 4,287 1,924FehlTorschussquote 96,348 96,75 99,287 95,713 98,076Torschussvorlagen 0,897 0,579 0,689 0,667 0,556Vorlage 0,101 0,038 0,054 0,052 0,052Tore 0,054 0,044 0,011 0,06 0,031Gelb 0,122 0,102 0,104 0,121 0,1PassProBallkontakt 0,623 0,706 0,616 0,586 0,548ErfPassProBallkontakt 0,511 0,619 0,499 0,455 0,408TorschussvorlageProPass 0,024 0,011 0,019 0,02 0,024

Tabelle 24: Matrix Cluster Mittelfeld

Clusterzuordnung0 1 2 3

Rang0 0 6 2 41 6 11 2 212 8 3 6 3

aus Tabelle 24 zeigt, beinhaltet Cluster 0 keinen ”Absteiger”. Cluster 2 ist ein weite-res Cluster, welches Top-Teams beschreibt. Hier sind sechs von zehn Teams unter denersten funf Mannschaften gelandet. Die eingefarbten Ergebnisse aus Tabelle 25 zeigen,dass die Mannschaften aus beiden Cluster in allen Attributen gute Werte erzielen. DieTeams aus Cluster 0 haben die besten Zweikampfwerte, viele Ballkontakte und einsicheres Passspiel. In den offensiven Attributen, wie die Anzahl an Torschussen, Vor-lagen oder Toren werden gute, aber nicht beste Werte erreicht. Die Mannschaften ausCluster 2 haben dagegen in diesen Attributen die hochsten Werte und in den anderenAttributen gute, jedoch keine Bestwerte. Cluster 1 beinhaltet die meisten ”Absteiger”.Die Mannschaften dieses Clusters schießen mehr Tore als die des Clusters 3, haben je-doch die wenigsten Ballkontakte, die schlechtesten Zweikampfwerte und das schlech-teste Passspiel. Die offensiven Qualitaten sind somit nicht unbedingt die wichtigstenEigenschaften. Ein sicheres Passspiel, viele Ballkontakte und gutes Zweikampfverhal-ten erhohen die Chancen nicht unter den letzten drei in der Tabelle zu landen.

Im Gegensatz zur Abwehr und zum Mittelfeld, wird in der Clusteranalyse des An-griffs ein Cluster (Cluster 0) identifiziert, welches keine Mannschaft enthalt, die un-ter den funf besten Mannschaften gelandet ist. Die erfolgreicheren Mannschaften be-schreibt das Cluster 1 mit acht von zwolf Vereinen unter den funf besten Mannschaf-ten. Die Matrix der Clusterverteilung ist in Tabelle 26 zu sehen.

Tabelle 27 zeigt, dass die Teams aus Cluster 0 die schlechteste erfolgreiche Passquote

67

Page 77: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 25: Tabelle Cluster Mittelfeld

Wert 0 1 2 3Zweikampf 49,7298 45,9896 47,6022 46,2712VerlZweikampf 50,2702 54,0104 52,3978 53,7288Ballkontakte 69,0091 51,6541 61,3779 57,9687ErfPaesse 40,9031 24,2105 32,6002 30,6484FehlPaesse 8,0582 7,6673 8,2399 7,6119Paesse 48,9613 31,8777 40,8401 38,2602ErfPassquote 81,344 73,3116 77,4565 77,465FehlPassquote 18,656 26,6884 22,5435 22,535Torschuesse 1,5378 1,4554 1,7702 1,2624VergTorschuesse 1,373 1,3404 1,5725 1,183ErfTorschussquote 6,4235 4,7928 7,6063 3,1813FehlTorschussquote 93,5765 95,2072 92,3937 96,8187Torschussvorlagen 1,7394 1,5807 2,0785 1,4816Vorlage 0,1915 0,1343 0,1961 0,1215Tore 0,1647 0,115 0,1977 0,0794Gelb 0,1111 0,109 0,0667 0,1103PassProBallkontakt 0,6901 0,5941 0,6428 0,6372ErfPassProBallkontakt 0,5714 0,4468 0,5084 0,5054TorschussvorlageProPass 0,0415 0,0587 0,0591 0,0427

Tabelle 26: Matrix Cluster Angriff

Clusterzuordnung0 1 2 3

Rang0 7 1 2 21 13 3 12 122 0 8 6 6

und dazu schlechte Werte in der Offensive aufweisen. Die erfolgreiche Torschussquoteist sehr gering und es werden wenige Torschusse pro Spiel abgegeben sowie die we-nigsten Tore geschossen. Will eine Mannschaft demnach erfolgreich spielen, mussengewisse offensive Qualitaten bei den Angreifern gegeben sein.

Die Teams aus Cluster 1 haben dagegen die besten offensiven Werte. Die Mann-schaften aus dieser Gruppe geben die meisten Torschusse ab und schießen die meistenTore. Auffallig ist, dass diese Mannschaften im Angriff weniger Zweikampfe gewin-nen, die wenigsten Ballkontakte haben, die wenigsten Passe spielen und eine niedrigeerfolgreiche Passquote aufweisen. Angreifer sollten sich somit auf offensive Aktionenbeschranken, statt sich viel ins Spiel einzubinden und viele Passe zu spielen. Auch diedefensiven Qualitaten wie das Zweikampfverhalten sind nicht entscheidend. Die An-griffsreihen dieser Teams, legen zudem wenige Torschusse auf, was bedeuten kann,dass die Sturmer eher selbst auf Tor schießen, als weiter zu passen. Außerdem solltenAngreifer eine gewisse Aggressivitat aufweisen, da die Mannschaften dieses Clustersdie meisten gelben Karten erhalten.

Statt die Mannschaftsteile einzeln zu betrachten, kann man als Erweiterung des vor-gestellten Ansatzes die beschriebenen 19 Attribute jeder Position in einen Datensatzubertragen. Das bedeutet, dass der Datensatz alle oben genannten Attribute fur jedePosition beinhaltet und demnach 57 spielspezifische Attribute enthalt. Fuhrt man dieClusteranalyse darauf aus, erhalt man drei identifizierte Cluster. Wie bei der Analy-

68

Page 78: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 27: Tabelle Cluster Angriff

Wert 0 1 2 3Zweikampf 37,6471 37,9666 38,5387 40,0588VerlZweikampf 62,3529 62,0334 61,4613 59,9412Ballkontakte 38,2463 36,6995 42,4826 43,9781ErfPaesse 14,2652 13,5706 19,8533 18,3551FehlPaesse 5,5935 5,0109 5,8096 6,4753Paesse 19,8587 18,5814 25,6629 24,8304ErfPassquote 67,5155 70.4339 74,3755 72,945FehlPassquote 32,4845 29,5661 25,6245 27,055Torschuesse 2,2684 3,4781 2,2657 2,958VergTorschuesse 2,0341 2,7999 1,8451 2,5997ErfTorschussquote 6,5534 14,7603 13,8134 9,037FehlTorschussquote 93,4466 85,2397 86,1866 90,963Torschussvorlagen 1,5286 1,4873 1,4911 1,7353Vorlage 0,1289 0,1664 0,1585 0,162Tore 0,2343 0,6782 0,4206 0,3583Gelb 0,0799 0,1079 0,0732 0,0772PassProBallkontakt 0,501 0,4933 0,5796 0,5552ErfPassProBallkontakt 0,3545 0,3596 0,4429 0,409TorschussvorlageProPass 0,0766 0,0919 0,0663 0,0781

se der gesamten Mannschaften gibt es zwei Cluster, welche sehr gemischt sind undein Cluster, welches die Top-Mannschaften beschreibt. Dieses Cluster beinhaltet 17Mannschaften, wovon 14 in der oberen und die restlichen drei in der mittleren Re-gion landeten. Dabei sind keine neuen Muster erkennbar. Dieses Cluster ubertrifftin der Mehrheit der Attribute die anderen Cluster. Die Abwehr weist sowohl in derOffensive, als auch in der Defensive die besten Werte auf. Gleiches gilt fur das Mit-telfeld. Im Angriff hat dieses Cluster die besten Werte in der Offensive, namlich denAttributen Torschusse, Torschussvorlagen, erfolgreiche Torschussquote, Vorlagen undTore. In den Attributen Ballkontakte, Passe und erfolgreiche Passquote werden nichtdie besten Werte erreicht. Dies bedeutet, dass im Angriff die offensiven Qualitatendie wichtigsten sind. Da hier sonst keine besonderen neuen Informationen erkennbarsind, wird auf die Darstellung der Ergebnisse verzichtet.

5.3.2 Clusteranalyse von Spielern

Spieler zu finden, welche sich in ihrer Spielweise ahneln, bietet im Fußball besondersbei Spielereinkaufen gute Anwendungsmoglichkeiten. Verlasst ein Spieler eine Mann-schaft, liegt es an den Verantwortlichen des Vereins fur adaquaten Ersatz zu sorgen.Ein Spieler der sehr ahnlich zu dem abgegebene Spieler spielt, kann diesen optimalersetzen ohne das Mannschaftsgefuge zu andern. In den folgenden Abschnitten wirdeine solche Anwendung mithilfe der Clusteranalyse durchgefuhrt. Zuerst wird aufdie Datengrundlage eingegangen und anschließend die Analyse durchgefuhrt.

5.3.2.1 Datengrundlage

Im Folgenden werden fur jeden Spieler seine spielspezifischen Werte fur jede Halb-saison aggregiert und durch die gespielten Minuten geteilt. Die Division ist deswegenwichtig, da so eine Vergleichbarkeit der Spieler erreicht wird. Beispielsweise ist es

69

Page 79: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 20: Pseudocode Spielerattribute

SELECTSaison , ’ Hinrunde ’ AS Runde , Verein , S p i e l e r ,(Summe( Tore ) / Summe( g e s p i e l t e Minuten ) ) ∗90 ,Summe( ErfPassquote ∗ g e s p i e l t e Minuten ) / Summe( g e s p i e l t e

Minuten ) ,FROM fakten WHERE Saison = 2010 AND S p i e l t a g > 0 AND S p i e l t a g

< 18GROUP BY Saison , S p i e l e r

nicht hilfreich, Angreifer nur an der Gesamtanzahl an Toren zu messen. Ein Spieler Amit funf Treffern ist nicht gleich besser einzuschatzen als ein Spieler B mit nur einemTor, sofern Spieler A insgesamt zehn Spiele fur die Tore gebraucht hat. Spieler B hin-gegen nur ein Spiel gespielt hat. Fur eine bessere Vergleichbarkeit muss man die Toreim Vergleich zu der Einsatzzeit setzten. So hat Spieler A pro Spiel 0,5 Tore geschossen.Sturmer B hingegen ein Tor pro Spiel. Spieler B hatte somit eine bessere Torquote alsSpieler A.

Die Werte der Spieler werden aus der Tabelle Fakten aggregiert, die naher in Ka-pitel 4 beschrieben ist. In dieser Tabelle sind fur jedes Spiel der beiden Saisons diespielspezifischen Werte der Spieler gespeichert. Diese Werte werden fur jeden Spie-ler fur die Hinrunde und Ruckrunde fur beide Saisons aggregiert. Torhuter werdenim Folgenden ausgelassen, da Torhuter-spezifische-Daten fur diese Arbeit nicht zurVerfugung stehen. Die Spielerposition wird aus der Tabelle Spielereigenschaften ge-lesen. Innerhalb der Anwendung werden fur die Positionen Abwehr, Mittelfeld undAngriff eigene Clusteranalysen durchgefuhrt.

Fur Werte bei denen die Anzahl gespeichert ist, wie die geschossenen Tore oderdie Anzahl an gelben Karten, werden die Werte fur die jeweilige Runde summiertund durch die gespielten Minuten der betrachteten Runde geteilt. Dadurch erhalt manden zugehorigen Wert pro Minute. Zusatzlich wird dieser Wert mit 90 multipliziert.Da ein Spiel regular 90 Minuten dauert, erreichen man so den entsprechenden Wertpro Spiel. Dies wird aus dem Grund getan, da Weka nur mit vier Nachkommastellenin der Clusteranalyse arbeitet und die Werte hier sehr gering sein konnen. Durch dieMultiplikation wird dieses Problem umgangen.

Die Werte, welche in Prozent gespeichert sind, werden mit der Anzahl an gespieltenMinuten pro Spiel multipliziert und anschließend durch die Gesamtanzahl an gespiel-ten Minuten fur die jeweilige Runde geteilt. Dadurch erhalt man wieder einen Wertin Prozent. Diese Prozentwerte sind zusatzlich anhand der gespielten Minuten einesSpiels gewichtet. Werte von Spielen in denen ein Spieler langer gespielt hat sind hohergewichtet. Abbildung 20 zeigt ein Beispiel in Pseudocode fur die Tore und die erfolg-reiche Passquote fur die Hinrunde der Saison 2010.

Durch die Aggregation erhalt man insgesamt 1523 Instanzen. Dabei handelt es sichum die Spieler aus den Positionen Abwehr, Mittelfeld und Angriff uber die Hin- undRuckrunden der Saisons 2010 und 2011. Das bedeutet, dass Spieler bis zu viermal indiesen Instanzen vorkommen, sofern sie beide Saisons gespielt haben.

In der Analyse der Datengrundlage zeigt sich, dass der Datensatz Spieler beinhal-tet, die sehr wenige Minuten in einer Runde gespielt haben. Zum Beispiel gibt es 43Instanzen, die in einer Runde insgesamt weniger als zehn Minuten gespielt haben.Es wird angenommen, dass Spieler die weniger als ein Drittel einer Runde gespielthaben, nur schlecht durch die Daten beschrieben werden. Durch die kurze Einsatz-zeit reprasentieren die Daten nicht den wirklichen Spielstil des Spielers. Diese Spieler

70

Page 80: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

werden aus dem Datensatz aussortiert. In einer Runde werden insgesamt 17 Spielegespielt, die in der Regel 90 Minuten dauern. Damit kann ein Spieler maximal 1530Minuten pro Runde spielen. Nachspielzeiten werden in dieser Arbeit nicht beachtet.Es werden alle Spieler aussortiert, die weniger als 510 Minuten in einer Runde gespielthaben. Dadurch erhalt man insgesamt 927 Instanzen mit denen die Clusteranalysedurchgefuhrt wird. Dabei handelt es sich um 349 Abwehrspieler, 401 Mittelfeldspielerund 177 Angreifer. Das zugehorige SQL Statement ist im Anhang in Abbildung 26 zusehen.

5.3.2.2 Durchfuhrung der Clusteranalyse

Wie bei der Clusteranalyse der Mannschaften werden auch die Spieler mithilfe derEM-Methode segmentiert. Es werden verschiedene Durchlaufe durchgefuhrt unddas beste Ergebnis ausgewahlt. Fur die einzelnen Positionen Abwehr, Mittelfeld undAngriff werden separate Analysen durchgefuhrt.

Abwehr

In der offentlichen Meinung gibt es insgesamt zwei verschiedene Abwehrspieler. Diessind einerseits die Innenverteidiger, welche im Zentrum der Abwehr spielen. Sie sindoft großgewachsen, um Vorteile in den Kopfballduellen ausspielen zu konnen. Sie sindaußerdem fur den Spielaufbau zustandig. Bei ihnen sind ein gutes Zweikampfver-halten und ein gutes Passspiel zu erwarten. Die andere Art der Verteidiger sind dieAußenverteidiger, welche auf den Außenbahnen der Verteidigung spielen und einewesentliche Rolle in den offensiven Aktionen der Mannschaft einnehmen. So sind siefur die Flanken von außen auf die eigenen Sturmer zustandig. Im Gegensatz zumInnenverteidiger sind sie eher klein und verfugen uber einer hohe Schnelligkeit. Beiihnen erwartet man eine hohere Anzahl an Vorlagen.

Die Clusteranalyse identifiziert insgesamt funf unterschiedliche Arten der Abwehr-spieler. In Tabelle 28 sind die Mittelwerte der einzelnen Cluster aufgelistet. Die Farbeninnerhalb der Tabelle, dienen der besseren Ubersicht der einzelnen Werte. Die Farbs-kala reicht dabei von Grun bis Rot. Der hochste Wert einer Zeile nimmt die FarbeGrun an, wahrend der niedrigste Wert der Zeile in Rot eingefarbt wird. Je niedrigerein Wert ist, umso eher farbt sich die entsprechende Zelle Rot. Durch diese Visuali-sierung lasst sich leichter erkennen, in welchen Attributen die einzelnen Cluster gutebzw. schlechtere Werte annehmen.

Analysiert man die Ergebnisse, so ahneln sich die Spieler aus Cluster 1 und Clus-ter 4 in gewissen Attributen. In den Zweikampfwerten, der Anzahl an Ballkontaktensowie dem Passspiel haben die Spieler dieser beiden Cluster hohe Mittelwerte. DieSpieler aus Cluster 1 unterscheiden sich jedoch in den beiden offensiven Attributender erfolgreichen Torschussquote sowie den Toren. Dort haben diese Verteidiger diebesten Werte. Die Spieler aus Cluster 4 erreichen dagegen die schlechtesten Werte indiesen Bereichen.

Ahnlich verhalten sich die Spieler aus Cluster 0 und Cluster 2. Sie sind in vielenAttributen gleichartig. Sie haben die schlechtesten Zweikampfwerte und ein schwa-ches Passspiel. In den Attributen Torschussvorlagen und Vorlagen sind diese Spielerdie starksten. Wobei die Spieler aus Cluster 0 gegenuber denen aus Cluster 2 leichtbessere Werte aufweisen. Die Verteidiger aus Cluster 0 sind zudem torgefahrlicher alsdie Spieler aus Cluster 2.

Die Spieler aus Cluster 3 konnen lediglich durch gutes Zweikampfverhalten undeiner guten erfolgreichen Passquote uberzeugen.

71

Page 81: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 28: Cluster Abwehrspieler

Wert 0 1 2 3 4Zweikampf 55,835 63,285 56,193 62,527 61.733VerlZweikampf 44,165 36,715 43,807 37,473 38,267Ballkontakte 62,303 61,023 60,151 50,673 63,428ErfPaesse 26,402 35,455 25,301 26,567 37,391FehlPaesse 8,435 6,404 8,444 5,641 6,321Paesse 34,837 41,858 33,744 32,208 43,711ErfPassquote 74,297 83,516 73,734 80,921 84,31FehlPassquote 25,703 16,484 26,266 19,079 15,69Torschuesse 0,77 0,663 0,498 0,51 0,431VergTorschuesse 0,676 0,531 0,498 0,439 0,431ErfTorschussquote 6,171 10,41 0 5,292 0FehlTorschussquote 93,829 89,59 100 94,709 100Torschussvorlagen 1,466 0,357 0,96 0,234 0,448Vorlage 0,132 0,032 0,084 0,013 0,037Tore 0,093 0,132 0 0,071 0Gelb 0,1 0,104 0,109 0,107 0,119PassProBallkontakt 0,552 0,666 0,551 0,614 0,668ErfPassProBallkontakt 0,415 0,559 0,409 0,5 0,567TorschussvorlageProPass 0,045 0,009 0,03 0,007 0,01

Betrachtet man die Werte, so wurde man die Spieler aus Cluster 1 und Cluster 4in den Bereich Innenverteidung einteilen. Dies kommt daher, dass diese Spieler eingutes Zweikampfverhalten aufweisen und im Passspiel hohe Werte enthalten, wasgut fur den Spielaufbau ist. Dagegen haben die Verteidiger aus Cluster 0 und Cluster2 gute Werte in den Vorlagen, was auf Außenverteidiger schließen lasst. Die Spieleraus Cluster 3 weisen keinen besonderen Spielstil auf.

Stellt man die Spieler der beiden Cluster gegenuber, so sind die Spieler aus Cluster1 und Cluster 4 im Durchschnitt 188 cm groß. Dagegen sind die Spieler aus Cluster 0und Cluster 2 im Schnitt 182 cm groß. Sie sind außerdem im Schnitt 5 kg schwerer alsdie Spieler aus Cluster 0 und 2. Dies lasst wiederum auf die Unterteilung in Innen-bzw. Außenverteidiger schließen. Wie erwahnt sind Innenverteidiger meist großge-wachsen aufgrund der Vorteile bei Kopfballduellen. Außenverteidiger sind eher kleinund schnell.

Auch die nahere Analyse der Spieler bestatigt diese Einteilung. So sind Spieler, diejeweils in allen vier Runden in das Cluster 0 und 2 eingeteilt werden, die beiden Au-ßenverteidiger von Borussia Dortmund Marcel Schmelzer und Lukasz Piszczek, derLinksverteidiger Felix Bastians und der Schalker Außenverteidiger Christian Fuchs.Jedoch ist nicht jeder Spieler dieser Cluster typischer Außenverteidiger. So fallt unteranderem Khalid Boulahrouz, typischer Innenverteidiger, 3-mal in diese Kategorie.

Cluster 1 und Cluster 4 haben dagegen typische Innenverteidiger in ihren Reihen.So werden unter anderem die Innenverteidiger Serdar Tasci, Rodnei, Holger Badstu-ber und Mats Hummels in allen vier Runden in diese Gruppen eingeteilt. Ein typischerAußenverteidiger wie Philipp Lahm ist jedoch ebenfalls 4-mal in diesen Clustern zufinden. Mats Hummels, Heiko Westermann und Daniel van Buyten wurden dreimalin die torgefahrlichen Innenverteidiger aus Cluster 1 eingeteilt.

Cluster 3 beinhaltet in der Mehrheit Spieler, die nur in einer Runde unter diesesCluster fallen. Hier sind eher Innenverteidiger zu finden. Benedikt Howedes wurdefur zwei Runden hier eingeteilt, spielte in den anderen zwei Runden jedoch wie ein

72

Page 82: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 29: Zuordnung der Cluster der Abwehrspieler

Cluster Anzahl Spieler Typische Spieler0 32 C. Fuchs, C. Pander, L. Piszczek1 51 M. Hummels, H. Westermann, D. v. Buyten2 68 F. Bastians, R. Zabavnik, M. Schmelzer3 31 N. Noveski, K. Haggui, B. Howedes4 167 L. Schmitz, H. Badstuber, D. Schwaab

Spieler aus Cluster 4.Tabelle 29 zeigt eine Statistik uber die zugeordneten Spieler der einzelnen Cluster.

Hierbei sind die Anzahl an Spielern in den einzelnen Clustern aufgelistet sowie eineAuswahl an Spielern aufgezahlt, die unter dieses Cluster fallen.

Mittelfeld

Subjektiv werden Mittelfeldspieler zahlreich unterteilt. So redet man z.B. von soge-nannten 6er, 8er oder dem Spielmacher, die Nummer 10. Die Beschreibung dieser istschwer und detailreich. Eine leichtere Segmentierung der Mittelfeldspieler ist es, siein defensive und offensive Spieler einzuteilen. Wobei die offensiven Spieler in Attri-buten, wie Vorlagen, Torschusse und Tore hohe Werte erzielen. Bei defensiven Spie-lern ist eine gute Zweikampfquote zu erwarten. Defensive Mittelfeldspieler sind inder Regel fur die Kontrolle des Spiels zustandig. So sind viele Ballkontakte und gutesPassspiel zu erwarten. Eine weitere Gruppe der Mittelfeldspieler sind die ”Außen”.Sie sind wie die Außenverteidiger fur viele Flanken zustandig. Hier sind hohe Wertein den Torschussvorlagen bzw. Vorlagen zu erwarten.

Die Durchfuhrung der Clusteranalyse teilt die Spieler des Mittelfelds in funf Clus-ter ein. Die Ergebnisse des Clusterings sind in Tabelle 30 zu sehen. Wie auch in derAbwehr gibt es hier zwei Paare von Clustern, die sich ahneln. Ein weiteres Clusterbeinhaltet Mittelfeldspieler, die insgesamt eher schlechte Werte aufweisen.

Das Cluster 0 der Analyse, liefert Spieler die sehr durchschnittliche bis schlechteWerte in fast allen Attributen aufweisen. Sie weisen lediglich ein gutes Zweikampf-verhalten auf, fallen sonst jedoch nicht positiv auf.

Die Spieler aus Cluster 1 und Cluster 4 sind Spieler, die sich in ihrer Spielweiseahnlich sind. Dabei konnen die Spieler aus Cluster 1 als die besseren Mittelfeldspielerder beiden Gruppen angesehen werden. Die Spieler aus diesem Cluster haben in denoffensiven Attributen, wie Torschusse, erfolgreiche Torschussquote, Torschussvorla-gen, Vorlagen und Tore hohe Mittelwerte. In den Attributen Zweikampf, Ballkontakteund erfolgreiche Passquote sind die Werte vergleichsweise schlecht. Im Gegensatz da-zu haben die Spieler aus Cluster 4 in diesen Attributen die schlechtesten Werte allerMittelfeldspieler. In den offensiven Attributen weisen die Spieler aus Cluster 4 guteWerte auf. Die Spieler dieser beiden Cluster erhalten eher wenige gelbe Karten proSpiel.

Im Gegensatz dazu haben die Spieler aus Cluster 2 und Cluster 3 gute Werte in denAttributen Zweikampf und Ballkontakte sowie gute Werte im Passspiel. Die Spieleraus Cluster 2 besitzen in den offensiven Attributen die schlechtesten Mittelwerte. DieSpieler aus Cluster 3 erreichen hier gering bessere Mittelwerte. Insgesamt beschreibendie Spieler aus Cluster 3 die besseren Mittelfeldspieler der beiden Cluster. Die Mit-telwerte der Spieler aus Cluster 3 sind in der Mehrheit besser als die des Clusters 2.Beide Cluster beschreiben jedoch einen ahnlichen Spielstil.

Die Verteilung der Spieler auf die Cluster stellt Tabelle 31 dar. Im Vergleich beschrei-

73

Page 83: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 30: Cluster Mittelfeldspieler

Wert 0 1 2 3 4Zweikampf 50,778 43,25 50,917 52,228 43,449VerlZweikampf 49,222 56,75 49,083 47,772 56,551Ballkontakte 54,08 55,237 59,907 68,901 49,854ErfPaesse 25,768 26,609 33,327 41,502 20,876FehlPaesse 8,738 7,592 7,71 8,217 6,819Paesse 34,506 34,202 41.037 49,719 27,694ErfPassquote 74,117 77,088 79,906 82,698 74,107FehlPassquote 25,883 22,912 20,094 17,302 25,893Torschuesse 1,308 2,225 0,925 1,419 1,914VergTorschuesse 1,191 1,89 0,925 1,249 1,81ErfTorschussquote 5,643 14,191 0 8,743 3,257FehlTorschussquote 94,358 85,809 100 91,257 96,743Torschussvorlagen 1,274 2,302 1,191 1,476 2,441Vorlage 0,082 0,264 0,099 0,136 0,245Tore 0,117 0,335 0 0,17 0,104Gelb 0,09 0,096 0,112 0,117 0,092PassProBallkontakt 0,633 0,612 0,674 0,714 0,546ErfPassProBallkontakt 0,471 0,474 0,542 0,592 0,408TorschussvorlageProPass 0,039 0,071 0,032 0,031 0,094

Tabelle 31: Zuordnung der Cluster der Mittelfeldspieler

Cluster Anzahl Spieler Typische Spieler0 55 M. Caligiuri, B. Vukcevic, S. Pinto1 69 T. Muller, M. Reus, F. Ribery2 137 M. Schmiedebach, P. Bargfrede, Josue3 85 L. Bender, S. Rolfes, B. Schweinsteiger4 55 M. Marin, C. Clemens, C. Tiffert

ben Cluster 1 und Cluster 4 die offensiven Mittelfeldspieler. Diese bestehen bei ge-nauerer Analyse aus den Außenspielern, wie Franck Ribery, Marco Reus oder ThomasMuller aber auch den Spielmachern aus dem Zentrum wie Mario Gotze oder ShinjiKagawa. Das Cluster 1 die besseren Offensivspieler beschreibt, zeigt sich auch daran,dass sich in diesem Cluster etwa 45 % an Nationalspielern befinden. In Cluster 4 sinddagegen nur 11 % an Nationalspielern vorhanden.

In Cluster 2 und Cluster 3 sind wie erwartet uberwiegend defensive Spieler zufinden. So befinden sich Bastian Schweinsteiger, Simon Rolfes oder Lars Bender injeder Runde in einem dieser Cluster. Cluster 3 beinhaltet ca. 33 % Nationalspieler,Cluster 2 etwa 23 %. Dies deckt sich mit der Clusterbeschreibung. Die Spieler ausCluster 3 haben uberwiegend bessere Mittelwerte als die Spieler aus Cluster 2.

Angriff

Im Angriff spricht man meist von den klassischen Mittelsturmern, welche oft das Tortreffen. Außerdem gibt es die Außensturmern, welche auf den Außenbahnen fur Flan-ken oder Vorlagen zustandig sind.

Tabelle 32 zeigt das eingefarbte Ergebnis der Clusteranalyse fur den Angriff. Wie zusehen ist, teilt die EM-Methode die Angreifer in sechs verschiedene Cluster ein. DieVerteilung der Spieler auf die Cluster ist in Tabelle 33 zu sehen.

74

Page 84: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Cluster 0 beinhaltet Spieler, die viele Torschusse abgeben, die eine sehr gute er-folgreiche Torschussquote haben und die mit Abstand die meisten Tore schießen. Siekonnen als die klassischen ”Goalgetter” kategorisiert werden. Diese Gruppe hat inden Bereichen Zweikampf, Ballkontakte und Passspiel durchschnittliche Werte. DieseSpieler erhalten auch die meisten gelben Karten.

Die Spieler aus Cluster 1 heben sich durch die meisten Vorlagen ab. Die erfolgreicheTorschussquote ist hoch, es werden insgesamt jedoch wenige Torschusse abgegeben.Dieses Cluster beinhaltet die wenigsten Spieler mit zehn Angreifern.

Die Angreifer aus Cluster 2 sowie Cluster 4 sind sich relativ ahnlich. Hier findensich Spieler wieder, welche viele Torschussvorlagen und Vorlagen abgeben. Zudemhaben die Spieler aus diesen beiden Clustern die besten Zweikampfwerte und meistenBallkontakte. Auch in der Anzahl an Passen werden die hochsten Mittelwerte ange-nommen. In der erfolgreichen Passquote haben die Spieler aus Cluster 4 den hochstenWert. Die Angreifer aus Cluster 2 dagegen den schlechtesten. Die Spieler aus Cluster4 haben ebenfalls die meisten Passe pro Ballkontakt.

Die Sturmer aus Cluster 3 und Cluster 5 fallen auf, weil sie viele Torschusse abge-ben. Die Spieler aus Cluster 5 weisen dagegen eine schlechte erfolgreiche Torschuss-quote aus. Die Spieler aus Cluster 3 haben eine bessere Torschussquote und treffendas Tor am zweithaufigsten aller Angreifer. In den sonstigen Attributen sind keinegroßen Auffalligkeiten zu erkennen, wobei die Angreifer aus Cluster 5 noch eine guteerfolgreiche Passquote erspielen.

Cluster 0 beinhaltet die Spieler, welche außergewohnlich haufig treffen. Dies sindz.B. Mario Gomez, Papiss Cisse, Stefan Kießling oder Vedad Ibisevic. Diese Spielerspielen in ihren Mannschaften auch hauptsachlich die Rolle des Mittelsturmers. Bisauf wenige Ausnahmen spielen die Spieler nicht ausschließlich in jeder Runde in die-sem Cluster. Sofern die Spieler nicht unter das Cluster 0 fallen, so teilen sie sich in dieCluster 3 bzw. Cluster 5 auf. Man kann sagen, dass das Cluster 0 die Ausreißer derMittelsturmer beinhaltet, die in der betrachtenden Runde außergewohnlich oft tref-fen. Papiss Cisse ist ein Spieler, der in all seinen Runden in dieses Cluster eingeteiltwird.

Die Angreifer Mario Mandzukic, Mohamadou Idrissou oder Martin Harnik sind inallen Runden in Cluster 2 eingeteilt. Dies sind auch eher Spieler, die im Zentrum spie-len. Jedoch sind diese Spieler eher mitspielende Sturmer mit guten Zweikampfwerten.

Cluster 4 beinhaltet in der Mehrheit Spieler, die als sogenannte ”Außen” bezeichnetwerden. Darunter fallen z.B. Jefferson Farfan, Jan Schlaudraff oder Ryan Babel. Zudemfinden sich hier Mittelsturmer wie Raul oder Claudio Pizarro wieder. Diese beidenSpieler gelten als technisch versierte Spieler. Das gute Passspiel sowie die zahlreichenBallkontakte beweisen diese Einschatzung. Diese Spieler legen eher Tore vor, als sieselbst zu erzielen.

Cluster 1 beinhaltet nur zehn Spieler. Mohammed Abdellaoue wird in allen vierRunden in dieses Cluster eingeteilt. Keiner der zehn Spieler ist ein klassischerAußenspieler, sondern eher zentral spielende Angreifer.

Zusammenfassung der Clusteranalyse der Spieler

Das Clustering der Spieler teilt diese in mehrere Kategorien auf, welche sich im Grun-de mit der offentlichen Wahrnehmung der Spielstile decken. Schaut man sich denWechsel von Nuri Sahin von Borussia Dortmund zu Real Madrid nach der Saison 2010an, so wurde dieser mit Ilkay Gundogan vom 1. FC Nurnberg ersetzt. Die Clusterana-lyse hatte Ilkay Gundogan nicht als perfekten Ersatz vorgeschlagen. So ist Nuri Sahinin Cluster 3 eingeteilt und wird damit als ein eher defensiver Mittelfeldspieler mit

75

Page 85: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 32: Cluster Angreifer

Wert 0 1 2 3 4 5Zweikampf 38,85 31,36 43,9 38,68 42,75 39,28VerlZweikampf 61,15 68,64 56,1 61,32 57,25 60,72Ballkontakte 39,21 24,08 44,26 35,33 52,43 42,13ErfPaesse 16,0 8,3 17,3 11,48 27,85 18,49FehlPaesse 5,5 2,92 8,05 5,25 6,77 5,15Paesse 21,51 11,22 25,35 16,73 34,62 23,64ErfPassquote 74,14 73,88 68,05 68,8 79,8 78,12FehlPassquote 25,86 26,12 31,95 31,2 20,2 21,88Torschuesse 2,88 2,0 2,39 2,72 2,05 2,8VergTorschuesse 2,2 1,63 2,12 2,33 1,77 2,54ErfTorschussquote 24,39 16,25 8,95 12,46 9,9 7,92FehlTorschussquote 75,61 83,75 91,05 87,54 90,1 92,08Torschussvorlagen 1,61 1,03 1,79 1,46 1,74 1,51Vorlage 0,17 0,18 0,18 0,11 0,18 0,13Tore 0,69 0,36 0,27 0,39 0,28 0,26Gelb 0,12 0,05 0,07 0,06 0,07 0,1PassProBallkontakt 0,54 0,46 0,57 0,47 0,66 0,56ErfPassProBallkontakt 0,4 0,34 0,39 0,32 0,52 0,44TorschussvorlageProPass 0,08 0,09 0,08 0,09 0,05 0,07

Tabelle 33: Zuordnung der Cluster der Angreifer

Cluster Anzahl Spieler Typische Spieler0 37 P. Cisse, M. Gomez, S. Kießling1 10 M. Abdellaoue, E. Hoffer, C. Marica2 26 M. Mandzukic, Cacau, I. De Camargo3 38 C. Eigler, S. Allagui, M. Petric4 29 Raul, J. Farfan, J. Schlaudraff5 37 M. Arnautovic, S. Okazaki, L. Podolski

76

Page 86: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

durchschnittlicher Offensivkraft charakterisiert. Ilkay Gundogan ist 2010 als ein Spie-ler aus Cluster 1 beschrieben. Dieses Cluster beinhaltet Spieler, welche ihre Starkenin der Offensive haben. Somit lage laut der Analyse kein ahnlicher Spielstil vor. DassIlkay Gundogan trotzdem als Nuri Sahin Ersatz verpflichtet wurde, zeigt die Clus-terzuordnung der Saison 2011. In beiden Runden wird Ilkay Gundogan in Cluster 3eingeteilt und ersetzte somit Nuri Sahin, der ebenfalls dem Spielstil von Cluster 3 ent-spricht.

Schaut man sich dagegen den Wechsel von Marco Reus nach der Saison 2011 vonBorussia Monchengladbach zu Borussia Dortmund an, so wurde kein direkter Er-satz eingekauft. Statt einen neuen offensiven Mittelfeldspieler zu kaufen, wurden mitLuuk de Jong oder Peniel Mlapa Angreifer eingekauft, um so die Offensive zu starken.Das Internetportal von T-Online vermutete bereits im Januar 2012, dass auch keinneuer Spieler als Ersatz fur Marco Reus notig ist, sondern das Eigengewachs PatrickHerrmann die Lucke fullen kann [63]. Eine Vermutung die sich mit der Clusteranalysedeckt. Marco Reus spielt in allen Runden laut der Beschreibung des Clusters 1. PatrickHermann ist ebenfalls in allen Runden in dieses Cluster eingeteilt. Somit war es furBorussia Monchengladbach nicht notig den Spieler direkt zu ersetzen, da bereits einahnlicher Spieler bei dem Verein spielte.

5.3.3 Implikationen fur den realen Einsatz

Der exemplarische Einsatz der Clusteranalyse auf die vorhandenen Daten der zweiSaisons zeigt, dass das Clustering sinnvolle Moglichkeiten zur Anwendung im Pro-fifußball bietet. Die identifizierten Cluster fur die einzelnen Teile der Mannschaftenaber auch fur die gesamten Mannschaften zeigen, dass sich Top-Teams in bestimmtenBereichen ahneln und sich von schlechteren Teams abgrenzen. Das Wissen uber denSpielstil erfolgreicher Mannschaften, kann zur Kaderplanung genutzt werden oderdas Training bzw. Spielsystem einer Mannschaft beeinflussen. In den Beispielen furdie Mannschaften sind zwar viele der gewonnenen Erkenntnisse offensichtlich, je-doch liefert die Clusteranalyse auch Resultate, die nicht direkt offenkundig sind. Sosind die offensiven Qualitaten in der Abwehr nicht entscheidend fur den Erfolg ei-ner Mannschaft, sondern konnen eher vernachlassigt werden. Die Mittelfeldreihensollten uberwiegend ein sicheres Passspiel aufweisen und viele Ballkontakte haben.Auch hier ist die Offensive nicht unbedingt entscheidend. Mannschaften die erfolg-reich spielen wollen brauchen zudem keine spielstarken Sturmer, sondern welche dieviele Torschusse abgeben und viele Tore erzielen.

Weitere Erkenntnisse konnten eine großere Menge an spielspezifischen Attributenliefern. Hier konnten Antworten darauf zu finden sein, inwiefern die Fitness der Spie-ler eine entscheidende Rolle spielt. Sind Mannschaften die mehr Kilometer in einemSpiel zurucklegen oder mehr Sprints laufen erfolgreicher? Genauso kann untersuchtwerden inwiefern Angriffe uber die linke bzw. rechte Seite den Erfolg beeinflussen.Durch mehrere Attribute konnte der Spielstil der einzelnen Mannschaften noch de-taillierter beschrieben werden. Fuhren z.B. Flankenlaufe zu mehr Punkten oder sollteuber das Zentrum gespielt werden? Die Erkenntnisse konnten genutzt werden umden eigenen Spielstil in bestimmter Weise anzupassen.

Auch die Beschreibung des Spielstils der Gegner kann einem Verein Vorteile ver-schaffen. So wahlen gewisse Trainer, wie Thomas Tuchel vom 1. FSV Mainz 05 oderJurgen Klopp von Borussia Dortmund, je nach Gegner ihre Spieler und Taktik aus [62].Die Beschreibung anhand der Cluster konnen zur Spielvorbereitung genutzt werden.Statt Runden konnen hier auch einzelne Spiele geclustert werden. Sucht man z.B. dieperfekte Taktik gegen eine bestimmte Mannschaft, kann man die letzten Spiele desGegners clustern um zu sehen, wie die gegnerischen Mannschaften gegen diesen Ver-

77

Page 87: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

ein aufgetreten sind. Man kann so versuchen zu identifizieren gegen welche Spielstileder Gegner Schwachen offenbart bzw. welche Spielstile dem Gegner liegen. Fuhrenz.B. Angriffe uber eine gewisse Seite zu mehr Torchancen, als Angriffe uber die entge-gengesetzte Seite oder uber das Zentrum?

Innerhalb der Clusteranalyse der Spieler liefern die Beschreibungen der Cluster vorallem Nutzen fur das Scouting von Vereinen. Die Einteilung in Gruppen hilft Spielerzu finden, welche im Spielstil ahnlich zu anderen Spielern sind. So kann gezielt nachadaquatem Ersatz von Spielern gesucht werden. Auch eine heterogene Mischung ei-ner Mannschaft kann hier erzielt werden. So kann der Kader aus Spielern aus verschie-denen Clustern gebildet werden. Die Kategorisierung kann zudem helfen, Spieler ausauslandischen Ligen vorzufiltern. Da die Spielweise dieser Spieler nicht so bekannt ist,wie es bei Spielern der heimischen Liga ist, kann bereits eine Einteilung in Gruppenvor dem eigentlichen Scouting stattfinden. So mussen nur die Spieler naher beobach-tet werden, welche in die gewunschte Gruppe eingeteilt wurden. Auch hier wurdenmehrere Attribute detailreichere Analysen erlauben. Auch physische Attribute, wiedie Große, das Alter oder das Gewicht der Spieler konnten mit einbezogen werden

Insgesamt eignet sich die Clusteranalyse sehr gut um eine Segmentierung derMannschaften bzw. Spieler durchzufuhren. Die spielspezifischen Daten sind fur einesolche Analyse gut geeignet.

5.4 Vorhersage der nachsten Saison

In den folgenden Abschnitten wird versucht die nachste Saison vorherzusagen. Dabeiwird in einem ersten Schritt die Regressionsanalyse genutzt, um die Punkte der ein-zelnen Vereine einer zukunftigen Saison zu prognostizieren. In einem weiteren Schrittwird mithilfe der Klassifikation versucht den Rang der Vereine vorherzusagen. Umdie Realisierbarkeit solcher Vorhersagen zu testen wird die Saison 2011 prognostiziertund die Resultate mit den tatsachlichen Werten der Saison uberpruft.

Die folgenden Prognosen innerhalb der Regressionsanalysen sind zweigeteilt. Ei-nerseits wird eine Prognose erstellt, um den Punkteverlust zu bestimmen, welcherausschließlich durch Spielerverkaufe eintritt. Dabei werden die bestehenden Ka-der der Teams genommen und die Spieler aus den Teams geloscht, welche denVerein am Ende der Saison 2010 verlassen haben. Andererseits werden die Punk-te der neu zusammengestellten Teams vorhergesagt, also die Mannschaften unterBerucksichtigung aller Zu- und Abgange. So ist auch erkennbar, welche Auswirkun-gen die Zukaufe von Spielern auf die Leistung einer Mannschaft haben.

Bei der Klassifikation wird gepruft, inwiefern die Methoden dieser Anwendung denRang der Hin- und Ruckrunde der Saison 2011 prognostizieren konnen. Hierbei wer-den ausschließlich die Teams inklusive aller Zu- und Abgange betrachtet. Auch hierwird gepruft wie sich die tatsachlichen Range der Saison 2011 mit denen der Prognoseunterscheiden.

Eine Prognose der nachsten Saison kann fur Vereine eine große Hilfe darstellen.Durch eine akkurate Vorhersage kann gepruft werden, inwiefern sich Verkaufe vonSpielern auf die Saisonleistung auswirken und ob sie durch die Spielereinkaufe auf-gefangen werden konnen bzw. ob eine Leistungssteigerung zu erwarten ist. Ein Vor-hersagemodell kann so als Fruhwarnsystem gelten, sofern die Transfers ein Ungleich-gewicht aufweisen. Es kann anhand des vorhergesagten Punkte- bzw. Rangverlustesgepruft werden, ob die abgegebenen Leistungstrager durch geplante Spielerzukaufeadaquat ersetzt werden.

Ob ein Spiel gewonnen wird hangt von vielen Faktoren ab. Somit ist eine Vorhersa-ge schwer zu treffen. Jedes Jahr gibt es etliche Experten die aufgrund der Entwicklun-gen auf dem Transfermarkt versuchen den Meister oder die Absteiger der nachsten

78

Page 88: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Saison festzulegen. So hat 1899 Hoffenheim vor der Saison 2012 mehrere neue Spie-ler verpflichtet. Als Saisonziel wurde ein Platz unter den besten sechs Mannschaftenausgesprochen [26]. Das Ergebnis nach mehreren Trainerwechseln war, dass 1899 Hof-fenheim am Ende der Saison 2012 auf Platz 16 landete. Das Saisonziel wurde also umzehn Platze verfehlt.

Jede Saison ist von solchen Uberraschungen gespickt, die nur wenige Experten vor-hersagen. Ob eine Prognose mithilfe von Data Mining moglich ist, soll in den folgen-den Abschnitten geklart werden. Dabei wird zunachst auf die Datengrundlage ein-gegangen. Anschließend werden die Regressionsanalyse und die Klassifikation aufdie Daten angewendet. Eine Einschatzung der Ergebnisse wird im letzten Abschnittvorgenommen.

5.4.1 Datengrundlage

Fur die folgenden Analysen werden insgesamt drei Datensatze aufgebaut. Wie auchbei der Clusteranalyse der Mannschaften, wird in diesen Datensatzen die Gesamtleis-tung der Vereine betrachtet. Es werden alle Spieler eines Vereins zu einem Datensatzaggregiert. So wird eine spielspezifische Beschreibung jeder Mannschaft erreicht.

Bei dem ersten Datensatz handelt es sich um den Trainingsdatensatz. Hier werdendie Vereine jeweils fur die Hin- und Ruckrunde der beiden Saisons 2010 und 2011aggregiert. Dadurch erhalt man einen Trainingsdatensatz von 72 Mannschaften. DerTrainingsdatensatz wird dazu genutzt ein Data Mining Modell aufzubauen, auf demneue Daten angewendet werden.

Bei den neuen Datensatzen wird ein Datensatz die Mannschaften der Saison 2010enthalten, jedoch ohne die Spieler, welche den Verein zur Winterpause bzw. Saisonen-de verlassen haben. Die Idee ist es zu zeigen, wie sich die Wechsel der Spieler auf denRang bzw. die erspielten Punkte auswirken.

Ein zweiter Datensatz, der auf die erlernten Modelle angewendet wird,berucksichtigt die Mannschaften mit allen Zu- und Abgangen. Dieser Datensatz be-trachtet ebenfalls nur die Saison 2010. Spieler, die zu dem betrachteten Verein hinzu-gekommen sind und in der Saison 2010 bei einem anderen Verein innerhalb der Ligagespielt haben, konnen dem Datensatz mit den Werten aus 2010 hinzugefugt werden.Spieler die aus einer anderen Liga zu dem Verein gewechselt sind und fur die kei-ne Werte in der Saison 2010 vorliegen, werden mit den Daten aus 2011 zum Vereinhinzugefugt. Normalerweise sind diese Daten aus der Zukunft nicht vorhanden, umjedoch den Einsatz der Prognosen zu testen, werden diese in dieser Arbeit trotzdemhinzugefugt. Ziel ist es somit die Saison 2011 mit allen Zu- und Abgangen eines je-den Vereins zu prognostizieren. Anhand der Ergebnisse kann eingeschatzt werden,inwiefern sich eine Saison vorhersagen lasst.

Der Trainingsdatensatz wird anhand der Werte aus der Tabelle Fakten aufgebaut.Hier sind die Daten aus jedem Spiel gespeichert. Eine genaue Beschreibung der Datenfindet sich in Kapitel 4. Sobald ein Spieler an einem Spiel teilgenommen hat, werdenDaten, wie die Anzahl an Torschussen oder Passen aufgenommen und gespeichert.

Die Attribute, welche fur jeden Spieler in jedem Spiel in der Tabelle Fakten zurVerfugung stehen, werden fur die einzelnen Mannschaft aggregiert. Gleichzeitig wer-den die Attribute anhand der gespielten Minuten gewichtet. So wird erreicht, dassSpieler mit mehr Spielminuten die Daten der Mannschaft hoher beeinflussen, als Spie-ler die nur wenig Einsatzzeit haben. Die Idee dahinter ist, dass Spieler mit mehr Spiel-minuten den Erfolg einer Mannschaft maßgeblich beeinflussen und Spieler mit we-nig Einsatzzeit nur geringen Einfluss auf die Leistung haben. Dies wird erzielt indemjeder Wert eines Spielers mit der Einsatzzeit des Spielers in dem Spiel multipliziertwird. Dieses Produkt wird dann fur die jeweiligen Runden von allen Spielern eines

79

Page 89: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 21: Pseudocode Aggregation von Vereinen mit Gewicht

SELECTSaison , ’ Hinrunde ’ AS Runde , Verein ,Summe( Zweikampf∗ g e s p i e l t ) /Summe( g e s p i e l t ) ,Summe( Tore∗ g e s p i e l t ) /Summe( g e s p i e l t )FROM fakten WHERE Saison = 2010 AND S p i e l t a g > 0 AND S p i e l t a g

< 18GROUP BY Saison , Verein

Vereins summiert und durch die gespielten Minuten der gesamten Mannschaft in die-ser Runde geteilt. Abbildung 21 zeigt ein Beispiel fur die gewonnenen Zweikampfeund Anzahl an Toren fur die Hinrunde der Saison 2010. Das gesamte SQL-Statementist in Abbildung 27 im Anhang zu finden.

Der Datensatz ohne die Spieler, welche den Verein verlassen haben, wird auf diesel-be Weise aggregiert. Fur die Aggregation wird eine Kopie der Tabelle Fakten erstellt.Dabei wird die Hin- sowie Ruckrunde der Saison 2010 mit der Hin- und Ruckrundeder Saison 2011 verglichen. Sobald ein Spieler eines Vereins in der folgenden Saisonnicht mehr in diesem Verein gespielt hat, wird dieser aus der Faktentabelle geloscht.Auf diese Tabelle der Fakten ohne die Spieler wird dann das SQL Statement aus Ab-bildung 27 angewendet.

Fur den Datensatz mit den neu zusammengestellten Kadern wird ebenfalls die Ta-belle Fakten kopiert. Hierbei werden die Spieler aus der Saison 2010 mit den Spielernder Saison 2011 verbunden. Sofern ein Spieler in der Saison 2011 nicht mehr in derBundesliga gespielt hat, wird er bei diesem Verbund (Join) nicht weiter berucksichtigt.Durch den Join erhalt man alle Spieler der Saison 2011, welche auch in der Saison 2010gespielt haben. Fur diese Spieler werden die Daten aus der Saison 2010 genommen.Der Verein des Spielers wird jedoch auf den neuen Verein der Saison 2011 gesetzt. Da-durch werden alle Wechsel innerhalb der Liga berucksichtigt. Zusatzlich mussen dieSpieler, fur die keine Daten in der Saison 2010 vorhanden sind berucksichtigt werden.Um diese Spieler der Faktentabelle hinzuzufugen, werden sie und ihre Daten aus derSaison 2011 ausgewahlt und mit der Kopie der Tabelle Fakten vereinigt. Abbildung 22zeigt, wie die Kopie der Tabelle Fakten aufgebaut wird. Die Daten werden wie in demSQL-Statement aus Abbildung 27 aggregiert, jedoch auf die Kopie der Faktentabelleangewendet.

Es werden somit drei Datensatze kreiert, welche die gleiche Struktur aufweisen.Einen, der die Saisons 2010 und 2011 mit den tatsachlichen aufgetretenen Wertenbeschreibt und als Trainingsdatensatz dient. Einen Weiteren, der die Saison 2010 be-schreibt, jedoch ohne die Spieler, die den Verein verlassen haben. Der dritte Datensatzberucksichtigt alle Zu- und Abgange der Vereine. Hier werden die Daten aus der Sai-son 2010 benutzt, sofern sie vorhanden sind. In dem Fall, in dem ein Spieler aus eineranderen Liga gewechselt ist, werden die Daten der Saison 2011 benutzt.

Bei den neuen Datensatzen werden außerdem Spieler als Abgange betrachtet, so-fern die Spieler in der Saison 2011 verletzt waren und kein Spiel bestritten haben. AlsNeuzugange werden Spieler behandelt, welche in der Saison 2010 verletzt bzw. nichtberucksichtigt wurden, aber in der Saison 2011 fur den Verein angetreten sind.

In der Tabelle Abschlusstabelle sind die Zielvariablen gespeichert, welche fur dieRegressionsanalyse und Klassifikation notig sind. Innerhalb der Regressionsanalysewird mit den Punkten gearbeitet. Die Tabelle Abschlusstabelle enthalt die Punkte furdie Hin- und Ruckrunden der Saison 2010 sowie der Saison 2011.

Innerhalb der Durchfuhrung der Klassifikation wird mit dem Rang der Vereine ge-

80

Page 90: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 22: Kopie der Tabelle Fakten mit Transfers

SELECTf . Saison , f . Sp ie l tag , f . Datum , f . Heim , f . Gast , s . Verein , f .

S p i e l e r , f . Zweikampf , f . verlZweikampf , f . Ba l lkontakte , f .Paesse ,

. . . , f . g e s p i e l tFROM(SELECT DISTINCT verein , s p i e l e r FROM fakten WHERE saison =

2011) sJOIN( s e l e c t ∗ from fakten where sa ison = 2010) f

ON f . s p i e l e r = s . s p i e l e rUNIONSELECT ∗ FROM fakten WHERE saison = 2011 AND s p i e l e r NOT IN (

SELECT s p i e l e r FROM fakten WHERE saison = 2010)

arbeitet. Die ersten funf Platze beschreiben dabei den Rang {2}, die Platze 6 bis 15 denRang {1} und die letzten drei Platze den Rang {0}. Sofern Mannschaften punktgleichauf Platz 5 bzw. Platz 16 stehen, nehmen sie den Rang {2} bzw. {0} an.

In beiden Fallen werden die Runden separat betrachtet. Die Punkte der Hinrundehaben keinen Einfluss auf die Punkte der Ruckrunde.

5.4.2 Durchfuhrung der Prognose

Im Folgenden wird versucht mithilfe der vorgestellten Datensatze, die Auswirkungenvon Spielerein- bzw. verkaufen auf die Leistung einer Mannschaft zu quantifizieren.Dabei wird in einem ersten Schritt die Regressionsanalyse genutzt. Mithilfe der Re-gressionsanalyse soll herausgefunden werden, inwiefern sich die Transfers auf denPunktestand von Vereinen nach einer Runde auswirken.

In Abschnitt 5.4.2.2 wird mithilfe der Klassifikation versucht den Rang der neu zu-sammengestellten Mannschaften zu ermitteln. So wird versucht zu erklaren, ob dieEin- und Verkaufe von Spielern den Rang erhohen bzw. verringern.

5.4.2.1 Punkte

Wie erwahnt wird mithilfe der Regressionsanalyse und des Trainingsdatensatzes einRegressionsmodell erlernt, auf dem die neu zusammengestellten Daten angewendetwerden. Man nimmt dazu die 72 Instanzen aus der Aggregation der Mannschaften.Als Zielvariable gelten die entsprechenden Punkte der einzelnen Mannschaften. Umdie Qualitat der Regressionsanalyse zu testen, wird die Cross-validation Testmethodemit zehn Teilmengen genutzt. Die Qualitat wird mithilfe des RMSEs gemessen. Die-ser wurde bereits in Kapitel 5.2 beschrieben. Der RMSE misst die durchschnittlichenAbweichung der prognostizierten Punkten von den tatsachlich erzielten Punkten.

Die besten Ergebnisse bei der Durchfuhrung mehrerer Regressionsmethoden unterverschiedenen Einstellungen bietet die lineare Regression und die SMOreg Methode.Bei der linearen Regression wurde dabei die Option ”kollineare Attribute entfernen”ausgewahlt. Die SMOreg Methode kann ohne die Attribute, welche keine neuen In-formationen darstellen, wie verlorene Zweikampfe und fehlerhafte Passquote einenbesseren RMSE erreichen. Das Eliminieren des Attributs fehlerhafte Passquote ver-schlechterte den RMSE wiederum und wird somit beibehalten.

81

Page 91: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 34: RSME der Regressionsanalyse fur die Prognose

Methode RMSELineare Regression 5,1997SMOreg 5,1515

Die Ergebnisse sind in Tabelle 34 dargestellt. Wie man sieht, liegt die Differenz dervorhergesagten Punkte im Schnitt etwa funf Punkte neben den tatsachlichen Punkten.

Im nachsten Schritt wird der Datensatz der Mannschaften ohne die abgegebenenSpieler auf die erlernten Modelle angewendet. In Tabelle 35 sind die vorhergesagtenPunkte ohne diese Spieler aufgelistet. Zusatzlich ist die Differenz zum vorhergesagtenWert aus dem Training des Modells abgebildet. Dadurch erhalt man eine Darstellungwie sich die Vereine ohne die Spieler in der Saison laut den Regressionen entwickelthatten. Nutzt man beispielsweise den Trainingsdatensatz wiederum als Testdatensatz,hat Borussia Dortmund in der Hinrunde im Training bei der linearen Regression be-reits einen Fehler von -9,7 Punkten zu den tatsachlich erspielten Punkten. Ob sich eineMannschaft laut Methode verschlechtert, wird anhand des Unterschieds zum Trai-ningswert bestimmt.

Wie man sieht, sind die Tendenzen der beiden Regressionen in 25 der 32 Fallengleich. Obwohl man davon ausgehen wurde, dass sich jede Mannschaft durch dieAbgabe von Spielern verschlechtert, gibt es Mannschaften die sich laut dem Modellverbessern wurden. Dies ist beispielsweise beim FC Bayern Munchen der Fall. DieVerbesserung kommt dadurch zustande, dass die Spieler die mehr zum Erfolg beige-tragen haben nun starker gewichtet werden als vorher. Der FC Bayern Munchen hatteohne die Spieler, die nach der Saison den Verein verlassen haben laut den Methodenzwischen 3 und 7 Punkten mehr in der Hinrunde der Saison 2011 erreicht.

Laut der linearen Regression hat der 1. FSV Mainz 05 in der Hinrunde am meis-ten an Qualitat verloren. Auch laut der SMOreg Methode hatte der 1. FSV Mainz 05an Punkten verloren. Bei beiden Regressionen liefert die Prognose einen Unterschiedzwischen 5 und 10 Punkten fur die Hinrunde. In der Ruckrunde hatte sich der1. FSV Mainz 05 laut linearer Regression leicht verbessert und laut SMOreg Metho-de um etwa 2 Punkte verschlechtert. Analysiert man den 1. FSV Mainz 05 so siehtman, dass viele der Leistungstrager den Verein verlassen haben. So wechselten zumAbschluss der Saison 2010 die heutigen Nationalspieler Andre Schurrle (Bayer 04 Le-verkusen), Christian Fuchs und Lewis Holtby (beide FC Schalke 04). Außerdem zogsich Adam Szalai einen Kreuzbandriss zu und fiel ebenfalls fur die Hinrunde der Sai-son 2011 aus. Diese Spieler haben in der Hinrunde jeweils uber 1000 Minuten fur den1. FSV Mainz 05 gespielt.

Betrachtet man die prognostizierte Punktzahl der gesamten Saison, hatten lautder linearen Regression Borussia Dortmund (-12,68 Punkte), der SV Werder Bremen(-10,12) und Bayer 04 Leverkusen (-8,73) neben dem 1. FSV Mainz 05 (-9,56) am meis-ten an Qualitat durch Spielerverkaufe verloren. Danach folgen der VfL Wolfsburg,der Hamburger SV und der FC Schalke 04 die zwischen -6 und -3 Punkte verlorenhatten. Fur den SC Freiburg, den 1. FC Nurnberg und Hannover 96 prognostiziert dielineare Regression kaum Unterschiede in der Punktzahl. Bei den Vereinen aus Bayern,Monchengladbach, Stuttgart, Hoffenheim, Koln und Kaiserslautern ist laut linearerRegression uber die gesamte Saison sogar eine Qualitatssteigerung durch die Abgangezu erwarten. Besonders beim 1. FC Kaiserslautern ist diese Vorhersage uberraschend,da der 1. FC Kaiserslautern u.a. seinen besten Sturmer Srdan Lakic abgegeben hat.Nach dem siebten Platz aus der Saison 2010 ist der 1. FC Kaiserslautern in der nach-folgenden Saison als letzter Verein der Tabelle abgestiegen. Laut Regression ware dies

82

Page 92: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 35: Ergebnisse der Prognose der Punkte ohne Spieler

Runde Verein LinReg SMORegHin SV Werder Bremen 18,71 (-3,45) 23,09 (-3,15)Hin Borussia Dortmund 25,59 (-7,71) 29,64 (-3,25)Hin FC Bayern Munchen 41,82 (6,82) 40,61 (4,82)Hin SC Freiburg 25,19 (1,36) 25,91 (2,60)Hin Hamburger SV 20,18 (-6,34) 29,26 (0,34)Hin Hannover 96 26,32 (0,76) 21,44 (0,66)Hin 1899 Hoffenheim 31,83 (3,48) 30,78 (1,22)Hin 1. FC Kaiserslautern 26,67 (2,41) 18,16 (-4,91)Hin 1. FC Koln 21,73 (2,75) 20,49 (1,89)Hin Bayer 04 Leverkusen 23,57 (-3,30) 22,43 (-6,44)Hin 1. FSV Mainz 05 14,73 (-10,67) 17,16 (-5,55)Hin Borussia Monchengladbach 22,64 (1,49) 24,17 (2,85)Hin 1. FC Nurnberg 19,76 (-1,65) 16,83 (-5,17)Hin FC Schalke 04 16,73 (-4,92) 18,01 (-2,84)Hin VfB Stuttgart 23,65 (1,96) 29,02 (4,68)Hin VfL Wolfsburg 17,63 (-5,69) 10,78 (-10,43)Ruck SV Werder Bremen 17,01 (-6,67) 19,47 (-4,39)Ruck Borussia Dortmund 23,70 (-4,97) 27,88 (-1,80)Ruck FC Bayern Munchen 45,33 (4,75) 38,81 (1,98)Ruck SC Freiburg 13,45 (-2,37) 16,18 (0,18)Ruck Hamburger SV 20,44 (2,05) 22,04 (3,65)Ruck Hannover 96 27,94 (0,16) 26,52 (0,13)Ruck 1899 Hoffenheim 22,25 (3,03) 23,61 (0,35)Ruck 1. FC Kaiserslautern 27,37 (6,55) 19,99 (-1,87)Ruck 1. FC Koln 29,42 (4,21) 26,34 (3,19)Ruck Bayer 04 Leverkusen 24,28 (-5,43) 31,83 (-2,10)Ruck 1. FSV Mainz 05 25,76 (1,11) 22,32 (-2,49)Ruck Borussia Monchengladbach 29,54 (2,23) 28,31 (2,31)Ruck 1. FC Nurnberg 26,24 (1,55) 29,04 (3,94)Ruck FC Schalke 04 13,95 (1,35) 15,04 (0,97)Ruck VfB Stuttgart 29,48 (3,60) 28,52 (-0,81)Ruck VfL Wolfsburg 20,75 (-0,01) 22,30 (2,66)* Werte in Klammern: Differenz zum vorhergesagten Wert aus dem Training

83

Page 93: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

in der Prognose nicht offensichtlich gewesen.Bei der SMOreg Methode sind bei den Vereinen aus Leverkusen, Mainz, Wolfsburg

und Bremen mit etwa -8 Punkten die großten Punkteverluste zu erwarten. Dahin-ter folgen der 1. FC Kaiserslautern und Borussia Dortmund mit Punkteverlusten von-6,78 bzw. -5,05 Punkten. Laut der SMOreg Methode haben die Vereine aus Schal-ke, Nurnberg, Hannover und Hoffenheim mit Punkteverlust- bzw. gewinn von -2 bis+2 einen geringen Punkteunterschied zu erwarten. Der SC Freiburg, VfB Stuttgart,der Hamburger SV, der 1. FC Koln, Borussia Monchengladbach und der FC BayernMunchen konnen durch die Spielerverkaufe ihre Leistung um 2 bis 7 Punkte steigern.

Betrachtet man den Meister der Saison 2010 Borussia Dortmund wurden nur sehrwenige Spieler abgeben. Insgesamt wurden funf Spieler verkauft, wobei drei dieserSpieler in den jeweiligen Runden unter 30 Minuten gespielt haben und ein Spielernur in der Ruckrunde zum Einsatz kam und dabei weniger als 100 Minuten gespielthat. Somit beeinflussten diese vier Spieler nur wenig die Mannschaftsleistung vonBorussia Dortmund in der Saison 2010. Der großte Verlust von Borussia Dortmundwar der Abgang des Spielers Nuri Sahin, welcher fur festgeschriebene 10 MillionenEuro zu Real Madrid wechselte. Dieser spielte große Teile der Hin- und Ruckrundefur den Verein. Laut der linearen Regression machten die Verkaufe etwa -12 Punkteaus. Bei der SMOreg Methode etwa -5 Punkte. Laut beider Regressionen ware durchdie Verkaufe also eine Verschlechterung der Leistung eingetreten, welche die Verant-wortlichen von Borussia Dortmund hatten auffangen mussen. Anhand der folgendenPrognose mit den Spielereinkaufen, soll nun geklart werden ob dies laut Data Miningvorhergesagt werden wurde. In der Realitat konnte Borussia Dortmund u.a. durch denEinkauf von Ilkay Gundogan aus Nurnberg der Verlust von Nuri Sahin kompensiertwerden und die Meisterschaft verteidigt werden.

Die Daten, welche alle Wechsel berucksichtigen werden nun auf die erlernten Mo-delle angewendet. Hierbei handelt es sich also um eine vollstandige Prognose dernachsten Saison. Wie beschrieben, beinhalten die Daten die Spieler des neu zusam-mengestellten Kaders jeder Mannschaft der Saison 2010. Es handelt sich dabei um dieDaten der Spieler aus der Saison 2010, sofern diese in dieser Saison gespielt haben. Istdies nicht der Fall, werden die Daten aus der Saison 2011 hergenommen.

In Tabelle 36 und 37 sind die Ergebnisse beider Methoden dargestellt. Die Mann-schaften sind nach den Punkten der Prognose absteigend geordnet. Zusatzlich sinddie Punkte der Saison 2010 aufgelistet, die Punkte aus dem Training der Metho-den und die Punkte, welche die Vereine tatsachlich in der Saison 2011 erspielt ha-ben. Es handelt sich dabei um 16 Vereine. Die zwei Ab- und Aufsteiger sind nichtberucksichtigt, da von ihnen nur Daten von einer Saison vorliegen.

Die Ergebnisse zeigen, dass die hier vorgestellten Regressionen zur Prognose dernachsten Saison nur bedingt geeignet sind. Der RMSE liegt bei der linearen Regressionbei uber 14,74 Punkten und bei der SMOreg Methode bei 12,23 Punkten. Auch dieprognostizierten Tabellen weichen wesentlich von der tatsachlichen Abschlusstabelleab.

Analysiert man die Prognosen einzelner Mannschaften separat, so finden sich ein-zelne Erkenntnisse wieder, die fur die Vereine interessant sein konnen. Aus beidenRegressionen ist zu erkennen, dass sich der FC Bayern Munchen nach der Saisonverstarkt hat. In der Realitat konnte der FC Bayern Munchen ebenfalls mehr Punk-te erreichen. Laut den Methoden ware der FC Bayern Munchen Meister geworden,dies ist jedoch nicht eingetreten. Auch bei Bayer 04 Leverkusen sind beide Prognosenrichtig. Bayer 04 Leverkusen holte insgesamt uber 10 Punkte weniger als in der Sai-son zuvor. Beide Regressionen sagen einen hohen Punkteverlust von Saison 2010 zurSaison 2011 fur Bayer 04 Leverkusen voraus. Laut beider Methoden gewinnt Borus-

84

Page 94: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

sia Monchengladbach an Qualitat durch die Spielerwechsel. Dies ist auch tatsachlicheingetreten. Wobei der Unterschied in der Realitat hoher war, als es die Regressionenprognostizieren. Gleiches gilt fur den FC Schalke 04. Sehr nah an der wirklichen Punk-tevergabe sind die Methoden beim 1. FSV Mainz 05. Mainz konnte in der Saison 2011insgesamt 39 Punkte erspielen. Laut beider Regressionen liegt die Prognose fur den1. FSV Mainz 05 zwischen 35 und 38 Punkten. Beide Methoden konnten den erhebli-chen Qualitatsverlust durch die Abgabe der wichtigen Stammkrafte vorhersagen.

Vergleicht man die Prognose unter Berucksichtigung aller Spielerwechsel mit derAnalyse der Punktevergabe ohne die Einkaufe von neuen Spielern, so konnten sich beider linearen Regression der SV Werder Bremen und der FC Schalke 04 am starkstenverbessern. Durch Spielerzukaufe konnten die Leistung um etwa 11 bis 13 Punktenverbessert werden. Die Verbesserung beim 1. FC Koln und beim 1. FC Nurnberg liegtbei 1 bis 3 Punkten. Bei Hannover 96, dem SC Freiburg, Borussia Dortmund, BorussiaMonchengladbach, Bayer 04 Leverkusen und dem 1. FC Kaiserslautern ist durch Spie-lereinkaufe kein großer Unterschied zur Punktevergabe ohne Einkaufe zu erkennen.Die Vereine aus Mainz, Hamburg, Wolfsburg, Munchen, Stuttgart und Hoffenheimverlieren durch die Spielereinkaufe sogar an Qualitat von -6 bis -2 Punkten

Bei der SMOreg Methode konnen sich ebenfalls der FC Schalke 04, der SV WerderBremen sowie der VfL Wolfsburg mit einer Differenz von 6 bis 9 Punkten durch Spie-lerzukaufe am starksten verbessern. Der 1. FC Nurnberg, der 1. FC Koln, VfB Stutt-gart, Bayer 04 Leverkusen, 1899 Hoffenheim und der 1. FC Kaiserslautern verbessernsich um 1 bis 2 Punkte durch die erfolgreichen Einkaufe. Kaum Unterschiede sind beiden Vereinen aus Freiburg, Koln, Hannover, Hamburg, Monchengladbach, Mainz undDortmund zu erkennen. Der 1. FC Nurnberg und der FC Bayern Munchen verschlech-tern sich sogar um etwa -2 Punkte.

Die Beispiele zeigen, dass die Prognosen in manchen Fallen richtig liegen und sozur Einschatzung der Leistung einiger Vereine in der nachsten Saison hergenommenwerden konnen. Gerade Vereine wie der 1. FSV Mainz 05 oder Bayer 04 Leverkusenwaren durch die Prognose fruhzeitig gewarnt worden, dass in der nachsten Saisonein Leistungsabfall zu erwarten ist. Beim FC Schalke 04 und dem SV Werder Bremenist es so, dass die Spielereinkaufe die Spielverkaufe kompensieren und die Leistungder Mannschaft sogar verbessern. Laut den Analysen konnten die Verantwortlichenvon Borussia Dortmund den Verlust des Spielers Nuri Sahin nicht kompensieren, inder Realitat ist ihnen dies jedoch gelungen.

85

Page 95: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 36: Lineare Regression: Prognose der Punkte fur die Saison 2011

Verein 2010 Training Prognose 2011FC Bayern Munchen 65 75,58 83,39 73Hannover 96 60 53,34 54,73 481. FC Koln 44 44,19 54,00 301. FC Kaiserslautern 46 45,08 53,31 23Borussia Monchengladbach 36 48,46 51,68 60SV Werder Bremen 41 45,84 49,14 42Borussia Dortmund 75 61,97 48,99 811899 Hoffenheim 43 47,57 47,99 41VfB Stuttgart 42 47,57 47,91 53Bayer 04 Leverkusen 68 56,58 47,30 541. FC Nurnberg 47 46,10 47,21 42FC Schalke 04 40 34,25 42,56 64SC Freiburg 44 39,65 39,02 401. FSV Mainz 05 58 50,05 38,38 39Hamburger SV 45 44,91 38,13 36VfL Wolfsburg 38 44,08 35,55 44

Tabelle 37: SMOreg: Prognose der Punkte fur die Saison 2011

Verein 2010 Training Prognose 2011FC Bayern Munchen 65 72,62 77,44 73VfB Stuttgart 42 53,67 59,85 53Borussia Dortmund 75 62,57 56,66 81Bayer 04 Leverkusen 68 62,80 56,21 541899 Hoffenheim 43 52,82 55,67 41Borussia Monchengladbach 36 47,32 52,13 60Hamburger SV 45 47,31 51,18 36SV Werder Bremen 41 50,10 49,40 42Hannover 96 60 47,17 48,01 481. FC Koln 44 41,75 47,03 301. FC Nurnberg 47 47,10 43,97 42VfL Wolfsburg 38 40,85 42,53 44SC Freiburg 44 39,31 42,29 40FC Schalke 04 40 34,92 39,55 641. FC Kaiserslautern 46 44,93 39,37 231. FSV Mainz 05 58 47,52 38,91 39

86

Page 96: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 38: Klassifikationsraten fur das Training der Prognose

Methode KlassifikationsrateMultiLayer Perceptron 77,78 %Naives Bayes 76,39 %Random Forest 76,39 %SMO 79,17 %

Tabelle 39: Klassifikationsraten der Prognose

Methode KlassifikationsrateMultiLayer Perceptron 59,38 %Naives Bayes 65,63 %Random Forest 62,5 %SMO 62,5 %

5.4.2.2 Rang

In diesem Abschnitt wird die Saison 2011 mithilfe der Klassifikation prognostiziert. InKapitel 2.2.1.1 wird die Klassifikation beschrieben und in Kapitel 5.1 beispielhaft an-gewendet. Es werden bei dieser Prognose die Daten der Vereine mit allen Spielerver-und einkaufen genutzt.

Zu Beginn der Klassifizierung werden mehrere Modelle anhand des Trainingsda-tensatzes erlernt. Bei der Lernphase wird mit mehreren Methoden und unterschiedli-cher Parametrisierung gearbeitet. Als Testmethode wird die Cross-validation Metho-de mit zehn Teilmengen gewahlt. Die besten Ergebnisse konnen die Klassifizierer ausTabelle 38 erzielen. Die Klassifikationsraten von uber 76 % deuten auf eine gute Vor-hersagbarkeit durch Data Mining hin.

Anschließend werden die neuen Daten auf die erlernten Modelle angewendet, umso eine Vorhersage zu generieren. Da man die Prognose mit den tatsachlichen Tabel-lenplatzierungen der Mannschaften aus der Saison 2011 testen kann, sind in Tabelle39 die Klassifikationsraten der Anwendung aufgelistet.

Wie zu sehen ist, liegen die Klassifikationsraten der Methoden nah beieinander. DieNaives-Bayes Methode prognostiziert 21 der 32 Instanzen richtig, wahrend die Ran-domForest Methode und die SMO Methode 20 Instanzen richtig einordnen. Die Mul-tilayerPerceptron Methode ordnet 19 Vereine richtig ein. In Tabelle 40 sind die Pro-gnosen der vier Klassifizierer dargestellt. Insgesamt werden 18 Instanzen von allenMethoden in die gleiche Klasse zugeordnet.

Die abschließende Prognose der Hin- und Ruckrunde ist in Tabelle 41 dargestellt.Zur Generierung dieser Prognose werden alle Methoden miteinander kombiniert.Ein Verein wird der Klasse zugeordnet, in welche die Mehrheit der Methoden denentsprechenden Verein klassifiziert haben. Sofern ein Verein in einer Klasse nichtuberreprasentiert ist, wird die zugeordnete Klasse der SMO Methode genommen, dadieser Klassifizierer im Test am besten abschneidet.

Die kombinierte Prognose klassifiziert 22 von 32 Instanzen richtig und hat somiteine Klassifikationsrate von 68,75 %. Damit schneidet die Klassifikation besser ab alsder naive Ansatz. Beim naiven Ansatz wurde man alle Vereine in die Klasse {1} ein-ordnen. Dadurch wurde dieser Ansatz 18 der 32 Mannschaften richtig einordnen, waseiner Klassifikationsrate von 56,25 % entspricht.

Bei Borussia Dortmund und dem FC Bayern Munchen liegt die Prognose rich-tig. Beide Mannschaften haben sich durch die Wechsel nicht verschlechtert. Beim FCSchalke 04 und dem SV Werder Bremen wird der Aufstieg aus der mittleren Region

87

Page 97: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 40: Prognosen der Klassifikation aller Methoden

Runde Verein MP NB RF SMOHin FC Bayern Munchen 2 2 2 2Hin Borussia Dortmund 2 2 2 2Hin FC Schalke 04 1 1 2 2Hin Borussia Monchengladbach 2 2 2 2Hin SV Werder Bremen 2 2 1 0Hin Bayer 04 Leverkusen 1 1 1 1Hin Hannover 96 2 1 2 1Hin 1899 Hoffenheim 2 1 1 2Hin VfB Stuttgart 2 2 0 2Hin 1. FC Koln 1 1 1 1Hin VfL Wolfsburg 1 1 1 1Hin Hamburger SV 1 2 2 1Hin 1. FC Nurnberg 0 0 1 1Hin 1. FSV Mainz 05 1 1 1 1Hin 1. FC Kaiserslautern 1 0 1 1Hin SC Freiburg 1 1 1 1Ruck Borussia Dortmund 2 2 2 2Ruck FC Bayern Munchen 2 2 2 2Ruck VfB Stuttgart 2 2 2 2Ruck FC Schalke 04 1 1 1 1Ruck Bayer 04 Leverkusen 2 2 2 2Ruck SC Freiburg 0 0 0 0Ruck Borussia Monchengladbach 1 1 1 1Ruck Hannover 96 2 0 2 2Ruck VfL Wolfsburg 1 0 1 1Ruck 1. FC Nurnberg 1 1 1 1Ruck 1. FSV Mainz 05 1 1 1 1Ruck 1899 Hoffenheim 1 1 1 0Ruck Hamburger SV 1 1 1 1Ruck SV Werder Bremen 2 0 0 0Ruck 1. FC Koln 2 1 2 2Ruck 1. FC Kaiserslautern 1 0 1 1MP: MulitlayerPerceptron MethodeNB: Naive-Bayes MethodeRF: RandomForest MethodeSMO: SMO Methode

88

Page 98: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 41: Prognose der Klassifikation

Runde Verein Prognose Saison2011Hin FC Bayern Munchen 2 2Hin Borussia Dortmund 2 2Hin FC Schalke 04 2 2Hin Borussia Monchengladbach 2 2Hin SV Werder Bremen 2 2Hin Bayer 04 Leverkusen 1 1Hin Hannover 96 1 1Hin 1899 Hoffenheim 2 1Hin VfB Stuttgart 2 1Hin 1. FC Koln 1 1Hin VfL Wolfsburg 1 1Hin Hamburger SV 1 1Hin 1. FC Nurnberg 1 1Hin 1. FSV Mainz 05 1 1Hin 1. FC Kaiserslautern 1 0Hin SC Freiburg 1 0Ruck Borussia Dortmund 2 2Ruck FC Bayern Munchen 2 2Ruck VfB Stuttgart 2 2Ruck FC Schalke 04 1 2Ruck Bayer 04 Leverkusen 2 2Ruck SC Freiburg 0 1Ruck Borussia Monchengladbach 1 1Ruck Hannover 96 2 1Ruck VfL Wolfsburg 1 1Ruck 1. FC Nurnberg 1 1Ruck 1. FSV Mainz 05 1 1Ruck 1899 Hoffenheim 1 1Ruck Hamburger SV 1 1Ruck SV Werder Bremen 0 1Ruck 1. FC Koln 2 0Ruck 1. FC Kaiserslautern 1 0

89

Page 99: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

in die Top-5 der Hinrunde erkannt. In der Ruckrunde werden jedoch beide Vereineschlechter als der tatsachliche Wert eingestuft. Laut der Prognose ware der SV WerderBremen sogar auf einem Abstiegsplatz gelandet. Im Gegensatz zur Regressionsanaly-se aus dem vorherigen Kapitel, kann die Klassifikation den großen Sprung von Borus-sia Monchengladbach von einem Abstiegsplatz in der Hinrunde 2010 auf einen Platzunter den besten Funf erkennen. Der Rang von Borussia Monchengladbach in derRuckrunde wird ebenfalls richtig klassifiziert. Bei Bayer 04 Leverkusen liegt die Klas-sifikation in beiden Runden richtig. In der Hinrunde wird ein Leistungsabfall vonder Top-Region zu den mittleren Tabellenplatzen vorhergesagt. Die Vorhersage furden 1. FSV Mainz 05 stimmt ebenfalls. Auch hier werden die Spielverkaufe durch dieEinkaufe nicht kompensiert. Laut Prognose ware der 1. FSV Mainz 05 in der Hinrundeaus den Top-5 in die mittlere Region gefallen. Im Gegensatz dazu hatte die Klassifikati-on den 1. FC Kaiserslautern nicht als Absteiger vorhergesagt. Der 1. FC Kaiserslauternwird in beiden Runden auf einen der Platze zwischen sechs und 15 klassifiziert.

Insgesamt werden die Absteiger nicht richtig ermittelt. Die tatsachlichen Absteigerwerden nicht erkannt und mit dem SV Werder Bremen und dem SC Freiburg zweiMannschaften als Absteiger klassifiziert, welche auf einem mittleren Tabellenplatzlandeten. Wobei der SV Werder Bremen in der Ruckrunde nur um zwei Punkte dieAbstiegsregion vermied.

Die Ergebnisse der Klassifikation sind zufriedenstellender als die der Regressions-analyse. Mit dem Nachteil bei der Klassifikation, dass nur die drei Regionen betrachtetwerden und keine vollstandige Tabelle fur die Zukunft erstellt werden kann.

5.4.3 Einschatzung der Ergebnisse

Die Prognose der Punkte liefert unzureichende Ergebnisse verglichen mit demtatsachlichen Ausgang der Saison. Die Vorhersage mit der Klassifikation kann dage-gen gering bessere Ergebnisse erzielen.

Fur die schlechten Ergebnisse kann es mehrere Grunde geben. Einen großen Ein-fluss haben die Daten auf die Ergebnisse der Verfahren. In dieser Arbeit wurde einAnsatz fur die Aggregation der Mannschaften vorgestellt, welcher eine Gewichtungvornimmt. Es sind hier weitere Ansatze denkbar, die einerseits eine verschiedenar-tige Gewichtung vornehmen oder generell die Mannschaften anders reprasentieren.Zusatzlich zu der hier vorgestellten Reprasentation, wurde außerdem versucht dieTeams in ihre Mannschaftsteile aufzusplitten, um so einen hoheren Detailgrad zu er-reichen. Dabei wurden fur jede Mannschaft die vorgestellten Attribute fur jede Positi-on wie Abwehr, Mittelfeld und Angriff zusammengefasst. Statt eines Zweikampfwertsfur die gesamte Mannschaft, enthalt so beispielsweise jedes Team die Zweikampfwer-te fur die Abwehr, fur das Mittelfeld und fur den Angriff separat im Datensatz. DieErgebnisse bei der linearen Regression und bei der Klassifikation schneiden jedochwesentlich schlechter ab, als die Betrachtung der gesamten Mannschaft. Somit wirdauf die Darstellung der Ergebnisse im Weiteren verzichtet.

Zusatzlich sind in dem hier zur Verfugung stehenden Datensatz nur einige der At-tribute enthalten, welche pro Spieler und Spiel aufgenommen werden konnen. So feh-len beispielsweise Attribute, wie die Laufleistung, Anzahl an Angriffen im vorderenDrittel oder die genaue Position bei Torschussen. Solche Informationen konnten dieErgebnisse verbessern. Außerdem fehlen die Daten der Torhuter, welche bei einemFußballspiel eine bedeutende Rolle spielen. So kann ein Torwart den Ausgang einesSpiels mit seinen Paraden wesentlich beeinflussen. Auch Daten uber die Trainer oderdas Zuschaueraufkommen konnen Informationen darstellen, welche Einfluss auf dieErgebnisse haben.

90

Page 100: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Es liegen zudem Daten fur lediglich zwei Saisons vor. Dadurch entstehen in die-sem Beispiel insgesamt nur 72 Instanzen aus denen ein Data Mining Verfahren lernenkann. Dies sind sehr wenige Daten um unentdeckte Muster zu erkennen. Eine Analyseuber wesentlich mehr Saisons konnten die Ergebnisse positiv beeinflussen.

Ob eine akkurate Prognose mit erweitertem Datensatz moglich ist, ist jedoch weiter-hin fraglich. Wie erwahnt, ist es schwer moglich eine Saison vorherzusagen. Beispiels-weise konnen Ereignisse, wie Spielerverletzungen oder Trainerwechsel die Leistungeiner Mannschaft wesentlich mindern bzw. steigern. Trotzdem sind die hier aufge-zeigten Anwendungen fur Verantwortliche eines Vereins ein Ansatz zur Analyse ihrerSpielertransfers.

In dieser Arbeit kann keine Prognose fur die Saison 2012 abgegeben werden. Daviele Spieler aus anderen Ligen in die Bundesliga gewechselt sind und fur diese keineDaten vorliegen, sind die neu zusammengestellten Teams nur unzureichend abbild-bar. Eine Prognose fur die Saison 2012 ware somit nicht hilfreich.

91

Page 101: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

6 Die Wichtigkeit eines Spielers messen

Die vorhergehenden Kapitel uber die einzelnen Data Mining Verfahren, wie der Klas-sifikation, Regression sowie der Clusteranalyse sollten exemplarisch aufzeigen, wieData Mining im Fußball angewendet werden kann. Dabei ist bisher nicht darauf ein-gegangen worden, inwiefern spezielle Spieler, zum Erfolg einer Mannschaft beitra-gen. In den folgenden Abschnitten, soll mithilfe der Regression separat sowie einerKombination aus Clusteranalyse und linearer Regression dieser Frage nachgegangenwerden.

Spieler werden an ihrem Marktwert gemessen. Das heißt, der Betrag den ein Spie-ler bei einem potenziellen Verkauf erwirtschaftet, spiegelt seinen Wert fur den Ver-ein wieder. Fur Nuri Sahin erwirtschaftete Borussia Dortmund nach der Saison einefestgeschriebene Ablosesumme von 10 Millionen Euro [64]. Mario Gotze wechselt imSommer 2013 fur festgeschriebene 37 Millionen zum FC Bayern Munchen [65]. Inwie-fern spiegelt jedoch die Hohe der Ablosesumme den tatsachlichen Wert eines Spielerswieder? Da mehrere Parteien an den Verhandlungen uber die Ablose beteiligt sindund diese versuchen das Beste fur sich aus der Situation zu verhandeln, kann mannicht direkt von der Ablosesumme auf die Wichtigkeit des Spielers schließen.

Entscheidend fur einen Verein ist es zu wissen, inwiefern der Spieler zum Erfolgder Mannschaft beitragt. Da die Punkteausbeute die Leistung einer Mannschaft wi-derspiegelt, ist man daran interessiert mit welchem Anteil ein Spieler an den Punkteneiner Saison beteiligt ist. Im Folgenden soll genau dieser Anteil mithilfe von Data Mi-ning versucht werden zu berechnen. Dazu soll am Ende diesen Kapitels die Fragebeantworten werden, ob man messen kann, wie sehr sich der Verlust eines Spielersauf die Leistung der Mannschaft auswirkt.

Abschnitt 6.1 nimmt die beiden erlernten Modelle der Regressionsanalyse aus Ka-pitel 5.4.2.1, um zu Messen, inwiefern einzelne Spieler zur Punkteausbeute der Mann-schaften beitragen. Der gleiche Ansatz wurde in dem Kapitel schon mithilfe des Da-tensatzes verfolgt, welcher die Mannschaften ohne die verkauften Spieler betrachtet.In diesem Kapitel wird die gleiche Anwendung fur einzelne Spieler durchgefuhrt.

In Abschnitt 6.2 wird ein Ansatz zur Messung der Wichtigkeit eines Spielers vor-gestellt, welcher die Clusteranalyse aus Kapitel 5.3 mit der Regressionsanalyse kom-biniert. Dabei wird die Idee aus dem in Kapitel 3.6 vorgestellten Artikel von Chan,Cho und Novati [7] aufgegriffen. Hier wird fur jede Mannschaft berechnet, wie vie-le Minuten alle Spieler der einzelnen Cluster fur die betrachtete Mannschaft in einerRunde gespielt haben. Mithilfe dieser Reprasentation wird ein Regressionsmodell er-lernt, welches Aufschluss uber die Wichtigkeit einzelner Spieler und ihrer Spielweisegeben soll.

6.1 Verwendung der Regressionsanalyse

In Kapitel 5.4.2.1 wurden mithilfe der linearen Regression sowie der SMOreg Metho-de zwei Regressionsmodelle erlernt, welche die Punkte einer Saison vorhersagen. Indem Kapitel wurden die Modelle genutzt, um eine zukunftige Saison vorherzusagen.Eine weitere Moglichkeit ist es, die erlernten Formeln zu nehmen und fur einzelnenMannschaften zu ermitteln, wie sie ohne bestimmte Spieler in der Saison abgeschnit-ten hatten. Dadurch ist es moglich die Wichtigkeit eines Spielers in erspielten Punktenzu messen.

Die Formeln der beiden Regressionen sind in Formel 9 fur die lineare Regressionund Formel 10 fur die SMOreg Methode dargestellt. Da die spielspezifischen Werte,wie die Zweikampfquote oder die Anzahl an Ballkontakten in verschiedenen Wertebe-reichen liegen, kann anhand der Koeffizienten keine Aussage getatigt werden, welche

92

Page 102: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Werte die Punkte am ehesten beeinflussen. Auf eine Normalisierung der Werte wurdeverzichtet, da es so moglich ist, die erlernten Formeln auf neue Daten anzuwenden.

pkte =

0, 0572 ∗ zweikampf − 0, 0572 ∗ verlZweikampf+ 1, 9089 ∗ fehlPaesse+ 0, 9236 ∗ Paesse+ 0, 3213 ∗ erfPassquote− 0, 3215 ∗ fehlPassquote− 25, 3893 ∗ vergTorschuesse+ 0, 4447 ∗ erfTorschussquote− 0, 4438 ∗ fehlTorschussquote+ 23, 2081 ∗ Torschussvorlagen+ 32, 2395 ∗ V orlage+ 55, 1416 ∗ Tore− 16, 9865 ∗Gelb− 129, 4646 ∗ PassProBallkontakt− 40, 7453 ∗ erfPassProBallkontakt− 167, 6621 ∗ TorschussvorlageProPass+ 99, 3397

(9)

pkte =

0, 0203 ∗ zweikampf + 1, 5055 ∗Ballkontakte− 0, 477 ∗ erfPaesse− 0, 0271 ∗ fehlPaesse− 0, 5042 ∗ Paesse− 0, 0488 ∗ erfPassquote+ 0, 187 ∗ Torschuesse− 0, 0653 ∗ vergTorschuesse+ 1, 2205 ∗ erfTorschussquote− 1, 2205 ∗ fehlTorschussquote+ 0, 4069 ∗ Torschussvorlagen+ 0, 3476 ∗ V orlage+ 0, 2523 ∗ Tore− 0, 4332 ∗Gelb+ 0, 0053 ∗ PassProBallkontakt+ 0, 0001 ∗ erfPassProBallkontakt− 0, 0097 ∗ TorschussvorlageProPass+ 84, 7672

(10)

Die Formeln lassen sich auf die zusammengefassten Werte der Vereine anwenden.Das heißt, fur die Zweikampfquote werden alle Quoten der Spieler des gesamten Ver-eins fur die jeweilige Runde summiert. Es wird hier zusatzlich eine Gewichtung vor-genommen, sodass die Werte der Spieler die mehr Einsatzzeit hatten hoher bewertetwerden als die, welche nur wenige Minuten gespielt haben. Dies wird erreicht indemman jeden Wert mit der Einsatzzeit des Spielers multipliziert, diese Produkte jeweilsaddiert und durch die gespielten Minuten der Mannschaft in der jeweiligen Rundeteilt. Die Werte, wie die Anzahl an Ballkontakten oder die Torschussvorlagen kom-men aus der Tabelle Fakten. Hier sind die Aktionen eines jeden Spielers in einemSpiel gespeichert. Diese Daten liegen fur die beiden Saisons 2010 und 2011 vor.

Um die Wichtigkeit eines Spielers zu ermitteln werden im Folgenden anhand derFormeln die Punkte mit dem betrachteten Spieler errechnet und von diesen Punktenwerden die prognostizierten Punkte ohne den Spieler abgezogen. Dies wird erreichtindem man die Aggregation fur den jeweiligen Verein mit den Originaldaten aus derTabelle Fakten durchfuhrt. Diese Werte konnen dann in die Formel eingesetzt werden.Um die Punkte ohne den Spieler zu ermitteln, wird die gleiche Aggregation durch-gefuhrt, jedoch wird der betrachtete Spieler aus den Originaldaten herausgefiltert undso seine Daten ignoriert. Damit werden zwei Punkteprognose erreicht. Einmal einePrognose mit dem ursprunglichen Kader und einmal ohne den Spieler dessen Wertermittelt werden soll.

93

Page 103: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 42: Spielercluster Statistik

Position Cluster Anzahl Beschreibung

Abwehr

0 32 Top Außenverteidiger1 51 Torgefahrliche Innenverteidiger2 68 Außenverteidiger3 31 Zweikampfstarke Verteidiger4 167 Innenverteidiger

Mittelfeld

0 55 Durchschnittliche Spieler1 69 Top offensives Mittelfeld2 137 Defensives Mittelfeld3 85 Top defensives Mittelfeld4 55 Offensives Mittelfeld

Angriff

0 37 Top Mittelsturmer1 10 Top Vorlagengeber2 26 Mitspielende Sturmer3 38 Mittelsturmer4 29 Außensturmer5 37 Mittelsturmer

Bevor die Werte fur die einzelnen Spieler ermittelt werden, wird im folgenden Ab-schnitt ein weiterer Ansatz fur die Messung der Wichtigkeit eines Spielers vorgestellt.Beide Moglichkeiten kommen in Abschnitt 6.3 exemplarisch zur Anwendung.

6.2 Kombination aus Clustering und Regression

Chan, Cho und Novati [7] kombinieren zur Messung der Wichtigkeit von Eishockey-spielern die Cluster- und Regressionsanalyse. In diesem Artikel werden die Spielerder National Hockey League anhand ihrer Position, wie Torhuter, Defensive und Of-fensive geclustert. Anschließend wird jede Mannschaft anhand dieser Clusterzuord-nungen reprasentiert. Fur jede Mannschaft wird berechnet, wie viele Minuten einerSaison die Spieler einer Mannschaft im Durchschnitt in den identifizierten Clusterngespielt haben. Mithilfe dieser Reprasentation der Mannschaft wird dann eine Regres-sionsfunktion erlernt, an der man erkennen kann mit welchem Gewicht die einzelnenCluster zu den erzielten Punkten am Saisonende beitragen.

In dieser Arbeit wurde in Kapitel 5.3 die Bundesligaspieler der beiden Saisons 2010und 2011 in homogene Gruppen eingeteilt. Dabei wurden die Spieler der PositionenAbwehr, Mittelfeld und Angriff, welche mindestens ein Drittel einer Runde gespielthaben geclustert.

Die Ergebnisse ergeben in der Abwehr und Mittelfeld jeweils funf identifizierteCluster. Im Angriff werden sechs Cluster identifiziert. Tabelle 42 zeigt die Anzahl anSpielern der einzelnen Cluster sowie eine Beschreibung der einzelnen Cluster.

Fur die Regressionsanalyse berechnet man pro Mannschaft die Anzahl an gespiel-ten Minuten der Spieler des Vereins fur die einzelnen Cluster. Dies wird fur jede Run-de berechnet. Hat beispielsweise ein Verein in der Hinrunde der Saison 2010 zweiAbwehrspieler aus Cluster 2 je 100 Minuten eingesetzt, so besitzt der entsprechen-de Verein in der Zelle fur das Cluster 2 die Summe der Einsatzzeit der zwei Spieler,namlich 200 Minuten. Die Anzahl an gespielten Minuten wird aus der Tabelle Faktenaggregiert. Das Cluster und die Position des Spielers kommt aus der Tabelle Cluste-redspieler, welche die Ergebnisse aus der Clusteranalyse dieser Arbeit beinhaltet. Daszugehorige SQL Statement ist im Anhang in Abbildung 28 zu finden.

94

Page 104: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Zusatzlich werden die Punkte als Zielwert fur die Regressionsanalyse benotigt. Die-se sind in der Tabelle Abschlusstabelle gespeichert. Die Vereine werden mit den ent-sprechenden Daten aus dieser Tabelle verknupft.

Fur die Analyse liegen 72 Dateninstanzen vor. Dabei handelt es sich um die Datender Hin- und Ruckrunden der beiden Saisons 2010 und 2011. Die Zielwerte sind diePunkte. Als unabhangige Variablen gelten die Summen der gespielten Minuten in denverschiedenen Clustern.

Im Folgenden wird nur die lineare Regression zur Analyse eingesetzt. Die Testsmit der Cross-validation Methode bei zehn Teilmengen zeigen bei den verschiedenenRegressionsmethoden nur geringe Abweichungen im RMSE.

Die lineare Regression, welche kollineare Attribute entfernt, erreicht einen RMSEvon 6,2584. Formel 11 zeigt die zugehorige Formel der Analyse.

pkte =

+ 0, 0025 ∗Abwehr0 + 0, 0027 ∗Abwehr1+ 0, 0017 ∗Abwehr2 + 0, 0030 ∗Abwehr3+ 0, 0010 ∗Abwehr4+ 0, 0023 ∗Mittelfeld0 + 0, 0064 ∗Mittelfeld1

+ 0, 0023 ∗Mittelfeld2 + 0, 0037 ∗Mittelfeld3

+ 0, 0022 ∗Mittelfeld4

+ 0, 0070 ∗Angriff0 + 0, 0025 ∗Angriff1+ 0, 0009 ∗Angriff2 + 0, 0046 ∗Angriff3+ 0, 0036 ∗Angriff4 + 0, 0024 ∗Angriff5− 15, 0567

(11)

Die Gleichung stellt die Wichtigkeit der einzelnen Cluster dar. Je hoher der Koeffi-zient des Attributs, desto wichtiger ist die unabhangige Variable. Wie man sieht hatkeines der Cluster einen negativen Einfluss auf die Anzahl der Punkte.

In der Abwehr liegen die Koeffizienten nah beieinander. Keines der Cluster sticht inder Wichtigkeit heraus. Cluster 3 hat den hochsten Koeffizienten mit 0,0030. Cluster 0und 1 mit 0,0025 und 0,0027 sind nur gering weniger wichtig. Cluster 2 fallt mit 0,0017im Vergleich etwas ab.

Im Mittelfeld ist Cluster 1 das wichtigste Cluster. Es hat einen Koeffizienten von0,0064. Cluster 3 ist mit 0,0037 wesentlich weniger wichtig, beeinflusst die Punkte je-doch mehr als das wichtigste Cluster der Abwehr. Cluster 0 (0,0023), Cluster 2 (0,0023)und Cluster 4 (0,0022) haben geringeren Einfluss.

Cluster 0 ist das herausragende Cluster im Angriff. Mit einem Koeffizienten von0,0070 ist es die wichtigste Variable der gesamten Formel. Cluster 3 mit 0,0046 liegtin der Wichtigkeit dahinter. Das Cluster 4 beeinflusst die Punkte mit 0,0036. Cluster 1und Cluster 4 haben mit 0,0025 und 0,0024 noch geringen Einfluss, wahrend Cluster 2mit 0,0009 den geringsten Koeffizienten der Formel aufweist.

Nach der Große des Koeffizienten geordnet ergibt sich folgende Reihenfolge:• Angriff0 (0,0070)• Mittelfeld1 (0,0064)• Angriff3 (0,0046)• Mittelfeld3 (0,0037)• Angriff4 (0,0036)• Abwehr3 (0,0030)• Abwehr1 (0,0027)• Abwehr0 (0,0025)

95

Page 105: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

• Angriff1 (0,0025)• Angriff5 (0,0024)• Mittelfeld0 (0,0023)• Mittelfeld2 (0,0023)• Mittelfeld4 (0,0022)• Abwehr2 (0,0017)• Abwehr4 (0,0010)• Angriff2 (0,0009)

Vergleicht man die Wichtigkeit der Cluster mit den identifizierten Clustern und ih-ren Eigenschaften so erkennt man, dass sich die vorgenommene Einstufung der Clus-ter in der Formel widerspiegelt.

Das wichtigste Cluster laut der Regressionsanalyse stellt Cluster 0 des Angriffs dar.Dieses Cluster beschreibt die Top-Mittelsturmer der Bundesliga. Dies sind die Spieler,welche mit Abstand die meisten Tore schießen und die meisten Torschusse abgeben.Im Mittelfeld erspielt Cluster 1 die meisten Punkte. Hierbei handelt es sich um diebesseren offensiven Mittelfeldspieler. Die Spieler dieses Clusters geben die meistenVorlagen und schießen die meisten Tore aller Mittelfeldspieler. An dritter Stelle stehtdas Cluster 3 des Angriffs, welches uberwiegend Mittelsturmer beinhaltet. Diese Spie-ler haben die zweitbeste Torquote der Cluster des Angriffs. Im Cluster 3 des Mittel-felds, welches in der Wichtigkeit dahinter folgt, ist die Top-Defensive der Mittelfeld-spieler zu finden. Dies sind die zweikampfstarksten Mittelfeldspieler mit den meis-ten Ballkontakten und den zweitmeisten Toren aller Mittelfeldspieler. Kurz dahinterfolgt Cluster 4 des Angriffs. Dies sind uberwiegend die Außensturmer mit vielen Ball-kontakten, bester Passquote und den meisten Vorlagen. Dahinter liegen die Abwehr-spieler aus Cluster 3 und Cluster 1. Cluster 3 beinhaltet Spieler, die gute Zweikampf-werte besitzen aber sonst keine besonderen Merkmale aufweisen. In Cluster 1 sinduberwiegend Innenverteidiger eingeteilt, welche verhaltnismaßig viele Tore schießen,gut passen und ein gutes Zweikampfverhalten aufweisen. Danach folgen die Top-Außenverteidiger in der Reihenfolge. Die restlichen Cluster der einzelnen Positionweisen keine besonderen Merkmale auf.

Mithilfe der Koeffizienten lasst sich nun die Wichtigkeit einzelner Spieler fur dieSaison bewerten. Im Folgenden Abschnitt soll die Wichtigkeit einzelner Spieler evalu-iert werden. Dies geschieht mit den beiden vorgestellten Methoden.

6.3 Wie wichtig ist ein Spieler?

Wie in Abschnitt 6.1 beschrieben, lassen sich durch die erlernten Modelle aus Kapitel5.4, die Punkte vergleichen, die laut den Regressionsanalysen tatsachlich erspielt wur-den und die Punkte, die ohne bestimmte Spieler erspielt worden waren. Die Differenzdieser Punkte gibt die Punkte wieder, welche der Spieler zur Leistung der Mannschaftbeigetragen hat.

Bei dem Ansatz, welcher die Cluster und Regressionsanalyse kombiniert, werdendie Koeffizienten des Cluster in dem ein Spieler in der betrachteten Runde gespielthat mit der Einsatzzeit des Spielers in der jeweiligen Runde multipliziert. Das Pro-dukt ergibt die erspielten Punkte fur die jeweilige Runde, welche der Spieler laut derAnalyse zur Gesamtpunktzahl beigetragen hat. In den Tabellen 43 und 44 sind diezehn Spieler der Saison 2010 und 2011, welche laut Kombination aus Clustering undRegression fur die meisten Punkte in der gesamten Saison zustandig waren. Diesebestehen ausschließlich aus Angreifern und Mittelfeldspielern.

Um die ermittelten Punkte im realen Einsatz zu testen, konnen einige vergangeneTransfers der Bundesliga als Beispiel hergenommen werden. Ein gutes Beispiel lieferndabei die Transfers von Borussia Dortmund in der Saison 2010. Wie bereits in dieser

96

Page 106: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabelle 43: Die Zehn besten Punktelieferanten 2010

Saison Spieler Position Punkte2010 Papiss Cisse Angriff (C0) 19,6282010 Srdjan Lakic Angriff (C0) 18,6552010 Marco Reus Mittelfeld (C1) 18,28482010 Thomas Muller Mittelfeld (C1) 17,89442010 Didier Konan Ya Angriff (C0) 17,2272010 Kevin Großkreutz Mittelfeld (C1) 16,65922010 Mario Gotze Mittelfeld (C1) 16,26242010 Milivoje Novakovic Angriff (C0) 13,57662010 Mario Gomez Angriff (C3) 13,53182010 Theofanis Gekas Angriff (C0) 13,0155

Tabelle 44: Die Zehn besten Punktelieferanten 2011

Saison Spieler Position Punkte2011 Klaas Jan Huntelaar Angriff (C0) 19,6212011 Marco Reus Mittelfeld (C1) 17,77922011 Thomas Muller Mittelfeld (C1) 17,282011 Robert Lewandowski Angriff (C0) 16,70482011 Shinji Kagawa Mittelfeld (C1) 15,46882011 Juan Arango Mittelfeld (C1) 15,33462011 Kevin Großkreutz Mittelfeld (C1) 14,9442011 Mario Gomez Angriff (C0) 14,56622011 Vedad Ibisevic Angriff (C0) 14,0982011 Claudio Pizarro Angriff (C0) 13,377

97

Page 107: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Arbeit erwahnt, war Nuri Sahin der Einzige der abgegebenen Spieler, welcher Stamm-spieler in der Mannschaft war. Er wurde zudem zum Spieler der Saison gewahlt. NuriSahin hat laut der Kombination insgesamt 9,6052 Punkte fur Borussia Dortmund inder Saison erspielt. Als Alternativ wurde Ilkay Gundogan vom 1. FC Nurnberg ver-pflichtet. Ilkay Gundogan hat in der Saison 2010 fur den 1. FC Nurnberg insgesamt8,5632 Punkte erspielt, wobei Ilkay Gundogan große Teile der Ruckrunde verletzungs-bedingt pausieren musste. Somit konnte Nuri Sahin durch den neuen Spieler im Sinneder Punkte sehr gut ersetzt werden.

Bei den Regressionsanalysen hat Nuri Sahin laut der linearen Regression 13,51 undlaut SMOreg 5,85 Punkte fur die Saison 2010 erspielt. Die Wichtigkeit des Spielerswird anhand aller drei Analysen aufgedeckt. Ilkay Gundogan war laut linearer Re-gression dagegen nur an 0,08 Punkten beteiligt. Laut SMOreg Methode waren ohneIlkay Gundogan sogar 0,05 Punkte mehr erspielt worden. Hier ist also ein klarer Un-terschied in den Analysen zu erkennen.

In der vorherigen Prognose aus Kapitel 5.4 wurde der Qualitatsunterschied vom 1.FC Kaiserslautern in der Saison 2010 durch die Spielerverkaufe nicht erkannt. Unter-sucht man die abgegebenen Stammkrafte vom 1. FC Kaiserslautern in den Regressi-onsanalysen separat, so hat Srdjan Lakic laut der linearen Regression die Saisonleis-tung mit -2,65 verlorenen Punkten negativ beeinflusst. Die SMOreg Methode schatztdie Wichtigkeit des Spielers auf 5,90 Punkten in der Saison 2010 ein. Eine weitereStammkraft, namlich Jan Moravek hatte laut den beiden Regressionen etwa 1 bis 2Punkte zur Saisonleistung beigesteuert. Laut der Kombination aus Clusteranalyse undRegression war Srdjan Lakic wesentlich am Erfolg der Mannschaft in der Saison 2010beteiligt. Er hat alleine 18,655 Punkte erspielt. Jan Moravek beispielsweise zusatzliche5,9134 Punkte.

Beim 1. FSV Mainz 05 wird der Verlust in der Saison 2010 der drei Stamm-krafte Andre Schurrle (10,561 Punkte), Lewis Holtby (8,6402) und Christian Fuchs(5,6502) ebenfalls durch Kombination aus Cluster- und Regressionsanalyse deutlich.Die lineare Regression sowie die SMOreg Methode haben in Kapitel 5.4 den Qua-litatsunterschied vom 1. FSV Mainz 05 zur Vorsaison sehr gut prognostiziert. In derseparaten Analyse hat Andre Schurrle seinem Verein dem 1. FSV Mainz 05 nach der li-nearen Regression -1,44 Punkte gekostet, Lewis Holtby 2,33 Punkte erspielt und Chris-tian Fuchs 7,41 Punkte gewonnen. Die SMOreg Methode schatzt Andre Schurrle mit4,69 erspielten Punkten positiv, Lewis Holtby mit -0,21 Punkten negativ und ChristianFuchs mit 3,45 Punkten positiv ein.

Analysiert man den beruhmtesten Transfer der Saison 2011, den von Marco Reusvon Borussia Monchengladbach zu Borussia Dortmund, so ergibt die Kombinationder Analysen, dass Marco Reus 2011 17,78 Punkte fur Borussia Monchengladbach er-spielt hat. Die beiden Regressionsanalysen werten den Spieler auf etwa 5 bis 6 erspiel-ten Punkte fur die Saison 2011. Es wurden einige neue Spieler fur Marco Reus transfe-riert, es konnte sich jedoch keiner dieser Spieler in der Saison 2012 wesentlich in denVordergrund spielen. Das Ergebnis fur Borussia Monchengladbach war, dass insge-samt 13 Punkte weniger gewonnen wurden als in der Saison 2011 mit Marco Reus.Der Transfer des wichtigen Spielers konnte nicht aufgefangen werden. Die Analysenliegen somit sehr nahe am Punkteverlust der durch den Transfer entstanden ist.

Borussia Dortmund dagegen konnte 2012 auch mit Marco Reus, der in den beidenSaisons davor uber 17 Punkte fur Borussia Monchengladbach erspielt hat, nicht mehrPunkte erreichen als in der Saison 2011. Dies kann daran liegen, dass mit Shinji Ka-gawa laut Clusteranalyse in Kombination mit der Regressionsanalyse ein Spieler ab-gegeben wurde der 15,4688 Punkte in der Saison 2011 erspielte. Also ein wesentlicherVerlust fur die Mannschaft. Die beiden Regressionen bewerten den Spieler mit etwa 3

98

Page 108: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

erspielten Punkten.Anhand der Beispiele scheint es, als wurde die Kombination aus Clustering und

Regression die Spieler, welche subjektiv betrachtet die Leistung ihrer Mannschaftenpositiv beeinflusst haben, naher an dieser subjektiven Betrachtung zu bewerten. Mankann sagen, dass Sturmer Srdjan Lakic mit insgesamt 16 erzielten Toren in der Saison2010 wesentlichen Anteil am Erfolg vom 1. FC Kaiserslautern hatte. Die Regressions-methoden bewerten ihn eher schlecht. Die Kombination der Analysen bewertet denSpieler dagegen mit 18 Punkten sehr positiv. Gleiches gilt auch fur Ilkay Gundogander aufgrund seiner Leistung in der Saison 2010 im August 2011 zum Nationalspielerberufen wurde. Die beiden Regressionsanalysen bewerten Ilkay Gundogan als einenSpieler, der die Punkte weder positiv noch negativ beeinflusst hat. Bei der Kombina-tion der Cluster- und Regressionsanalyse wird der Spieler sehr gut bewertet, was erauch in der nachfolgenden Saison bei Borussia Dortmund unter Beweis gestellt hat.

Anschließend an die beiden vorgestellten Ansatze zur Messung der Wichtigkeit ei-nes Spielers, sollen diese Ergebnisse mit den Resultaten aus den Anwendungen ausKapitel 5 fur eine Auswahl an Spielern aufgefuhrt werden. Dazu werden die zehnFeldspieler genommen, welche von den Mitgliedern der Vereinigung der Vertrags-fußballspieler (VDV) fur die Saison 2010 sowie 2011 in die Bundesliga-Mannschaftder Saisons gewahlt worden sind. Bei dieser Wahl konnen Mitglieder der VDV in-klusive aller Spieler der Bundesliga, 2. Bundesliga, 3. Liga und der Regionalligen, dieihrer Meinung nach besten Spieler der Saison wahlen. In Tabelle 45 und Tabelle 46sind die zehn besten Feldspieler fur die Saison 2010 bzw. 2011 aufgelistet. Zusatzlichist dargestellt, ob der Spieler als Nationalspieler der beiden Klassifikationsmethodenaus Kapitel 5.1 klassifiziert wurde, wie seine Note aus der in Kapitel 5.2 identifizier-ten linearen Regression fur die Saison aussieht, sowie die Punktzahl, die er in diesemKapitel innerhalb der linearen Regression, der SMOreg Methode sowie bei der Kom-bination aus Clustering und Regression fur seine Mannschaft erspielt hat.

Es zeigt sich, dass 2010 sechs bzw. funf der zehn Feldspieler als Nationalspielervom neuronalen Netzwerk bzw. der RandomForest Methode erkannt werden. Bei denNoten zeigt sich, dass sieben der zehn Spieler eine Note unter dem Durchschnitt er-halten. Bei beiden Regressionsmethoden sind die Mittelfeldspieler sowie die Angrei-fer uberdurchschnittlich wichtig fur ihren Verein. In der Abwehr sind die Ergebnisseunterschiedlich. Philipp Lahm ist der einzige Abwehrspieler in 2010 der laut beiderRegressionen uber dem Durchschnitt gepunktet hat. Innerhalb der Kombination vonClusteranalyse und Regression haben alle der zehn Feldspieler einen hoheren Einflussauf die Punkte als der Durchschnitt.

In der Saison 2011 werden sechs, der als bestgewahlten Feldspielern als National-spieler von beiden Klassifizierern eingeordnet. Beide Sturmer haben eine bessere Noteals der Durchschnitt. Im Mittelfeld und in der Abwehr gibt es jeweils zwei Spieler, dieim Mittel besser abschneiden. Bei der linearen Regression konnen sechs Spieler besserals der Durchschnitt punkten. Bei der SMOreg Methode sind dies funf Spieler. Inner-halb der Kombination punkten sieben der zehn Feldspieler im Schnitt besser als dierestlichen Spieler.

Die zusammengefassten Resultate zeigen sehr unterschiedliche Ergebnisse. Gehtman davon aus, dass die aufgelisteten zehn Spieler die tatsachlich besten Spieler derSaison sind, ist nicht von jeder Methode auf diese Tatsache zu schließen. In Tabel-le 47 und 48 sind die Spieler der Saison 2010 und Saison 2010 aufgelistet, welcheuberdurchschnittliche Ergebnisse auf ihrer Position in den vorgestellten Methoden er-reichen und von den beiden Klassifizierern aus Kapitel 5.1 als Nationalspieler einge-ordnet werden.

Abschließend ist zu erwahnen, dass eine Beurteilung von zukunftigen Trans-

99

Page 109: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabe

lle

45:Z

usam

men

fass

ung

der

Man

nsch

aftd

erSa

ison

2010

Posi

tion

Vere

inSp

iele

rN

MM

PN

MR

FN

ote

LinR

egSM

Ore

gK

ombi

Abw

ehr

FCBa

yern

Mun

chen

Phili

ppLa

hm1

1-1

9,09

4,13

2,88

5,66

Boru

ssia

Dor

tmun

dN

even

Subo

tic

10

-29,

40-3

,75

-1,4

95,

81Bo

russ

iaD

ortm

und

Mat

sH

umm

els

11

-27,

47-2

,18

1,89

7,65

Boru

ssia

Dor

tmun

dM

arce

lSch

mel

zer

00

-17,

281,

78-0

,47

5,20

Dur

chsc

hnit

t-2

0,36

0,60

-0,0

93,

50

Mit

telf

ed

Boru

ssia

Dor

tmun

dM

ario

Got

ze0

022

,05

11,0

23,

5516

,26

Baye

r04

Leve

rkus

enA

rtur

oV

idal

11

8,4

11,6

18,

3910

,03

Boru

ssia

Dor

tmun

dN

uriS

ahin

11

10,2

113

,51

5,85

9,61

FCBa

yern

Mun

chen

Arj

enR

obbe

n0

014

,25

4,17

2,79

7,25

Dur

chsc

hnit

t17

,83

0,38

0,01

5,52

Ang

riff

FCBa

yern

Mun

chen

Mar

ioG

omez

11

18,5

42,

094,

4613

,53

SCFr

eibu

rgPa

piss

Cis

se0

022

,68

2,32

10,2

119

,63

Dur

chsc

hnit

t28

,00

-1,0

71,

076,

66N

MM

P:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eM

ulti

laye

rPer

cept

onM

etho

dekl

assi

fizie

rtN

MR

F:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eR

ando

mFo

rest

Met

hode

klas

sifiz

iert

Not

e:N

ote

die

durc

hdi

elin

eare

Reg

ress

ion

bere

chne

twir

d(J

eni

edri

ger

dest

obe

sser

)Li

nReg

:Ers

piel

tePu

nkte

anha

ndde

rlin

eare

nR

egre

ssio

nbe

rech

net

SMO

reg:

Ersp

ielt

ePu

nkte

anha

ndde

rSM

Ore

gM

etho

debe

rech

net

Kom

bi:E

rspi

elte

Punk

tean

hand

der

Kom

bina

tion

aus

Clu

ster

ing

und

linea

rer

Reg

ress

ion

bere

chne

t

100

Page 110: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabe

lle

46:Z

usam

men

fass

ung

der

Man

nsch

aftd

erSa

ison

2011

Posi

tion

Vere

inSp

iele

rN

MM

PN

MR

FN

ote

LinR

egSM

Ore

gK

ombi

Abw

ehr

Boru

ssia

Mon

chen

glad

bach

Dan

te0

0-2

6,61

-2,7

0-1

,84

2,97

FCBa

yern

Mun

chen

Phili

ppLa

hm1

1-1

5,13

2,52

-0,3

62,

75Bo

russ

iaD

ortm

und

Mat

sH

umm

els

10

-30,

15-1

,30

-1,3

95,

38Bo

russ

iaD

ortm

und

Luka

szPi

szcz

ek0

0-2

0,11

7,31

2,82

7,00

Dur

chsc

hnit

t-2

0,36

0,74

0,06

3,23

Mit

telf

ed

Boru

ssia

Mon

chen

glad

bach

Mar

coR

eus

11

22,2

25,

576,

5717

,78

FCBa

yern

Mun

chen

Fran

ckR

iber

y1

116

,55

8,94

5,56

11,9

3FC

Baye

rnM

unch

enD

avid

Ala

ba1

114

,338

-2,2

3-2

,29

4,29

Boru

ssia

Dor

tmun

dSh

inji

Kag

awa

01

27,3

43,

002,

2615

,45

Dur

chsc

hnit

t17

,71

0,40

0,18

6,13

Ang

riff

FCSc

halk

e04

Kla

asJa

nH

unte

laar

00

17,7

94,

958,

7019

,62

FCBa

yern

Mun

chen

Mar

ioG

omez

11

22,9

1-1

,26

0,53

14,5

7D

urch

schn

itt

27,3

5-0

,74

1,03

6,37

NM

MP:

Spie

ler

wur

deal

sN

atio

nals

piel

erdu

rch

die

Mul

tila

yerP

erce

pton

Met

hode

klas

sifiz

iert

NM

RF:

Spie

ler

wur

deal

sN

atio

nals

piel

erdu

rch

die

Ran

dom

Fore

stM

etho

dekl

assi

fizie

rtN

ote:

Not

edi

edu

rch

die

linea

reR

egre

ssio

nbe

rech

netw

ird

(Je

nied

rige

rde

sto

bess

er)

LinR

eg:E

rspi

elte

Punk

tean

hand

der

linea

ren

Reg

ress

ion

bere

chne

tSM

Ore

g:Er

spie

lte

Punk

tean

hand

der

SMO

reg

Met

hode

bere

chne

tK

ombi

:Ers

piel

tePu

nkte

anha

ndde

rK

ombi

nati

onau

sC

lust

erin

gun

dlin

eare

rR

egre

ssio

nbe

rech

net

101

Page 111: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabe

lle

47:U

berd

urch

schn

ittl

iche

Spie

ler

der

Sais

on20

10

Posi

tion

Vere

inSp

iele

rN

MM

PN

MR

FN

ote

LinR

egSM

Ore

gK

ombi

Abw

ehr

VfL

Wol

fsbu

rgSa

scha

Rie

ther

11

-21,

212,

710,

854,

17M

itte

lfel

dBa

yer

04Le

verk

usen

Art

uro

Vid

al1

18,

4211

,61

8,39

10,0

3M

itte

lfel

d1.

FCK

aise

rsla

uter

nJa

nM

orav

ek1

116

,76

0,79

2,02

5,91

Mit

telf

eld

Boru

ssia

Dor

tmun

dN

uriS

ahin

11

10,2

113

,51

5,85

9,61

Mit

telf

eld

Baye

r04

Leve

rkus

enR

enat

oA

ugus

to1

115

,62

1,42

2,31

10,8

0M

itte

lfel

dBa

yer

04Le

verk

usen

Sim

onR

olfe

s1

110

,83

0,40

0,02

7,03

Mit

telf

eld

FCBa

yern

Mun

chen

Tho

mas

Mul

ler

11

15,8

35,

612,

1617

,89

Mit

telf

eld

VfB

Stut

tgar

tZ

drav

koK

uzm

anov

ic1

114

,52

2,56

4,21

8,87

Ang

riff

1.FC

St.P

auli

Ger

ald

Asa

moa

h1

127

,48

1,79

1,36

9,97

Ang

riff

1.FC

Kol

nLu

kas

Podo

lski

11

25,1

24,

115,

1313

,00

Ang

riff

FCBa

yern

Mun

chen

Mar

ioG

omez

11

18,5

42,

094,

4613

,53

Ang

riff

VfB

Stut

tgar

tM

arti

nH

arni

k1

127

,44

0,48

1,34

8,98

Ang

riff

Baye

r04

Leve

rkus

enSt

efan

Kie

ßlin

g1

123

,74

-0,5

61,

537,

26N

MM

P:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eM

ulti

laye

rPer

cept

onM

etho

dekl

assi

fizie

rtN

MR

F:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eR

ando

mFo

rest

Met

hode

klas

sifiz

iert

Not

e:N

ote

die

durc

hdi

elin

eare

Reg

ress

ion

bere

chne

twir

d(J

eni

edri

ger

dest

obe

sser

)Li

nReg

:Ers

piel

tePu

nkte

anha

ndde

rlin

eare

nR

egre

ssio

nbe

rech

net

SMO

reg:

Ersp

ielt

ePu

nkte

anha

ndde

rSM

Ore

gM

etho

debe

rech

net

Kom

bi:E

rspi

elte

Punk

tean

hand

der

Kom

bina

tion

aus

Clu

ster

ing

und

linea

rer

Reg

ress

ion

bere

chne

t

102

Page 112: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Tabe

lle

48:U

berd

urch

schn

ittl

iche

Spie

ler

der

Sais

on20

11

Posi

tion

Vere

inSp

iele

rN

MM

PN

MR

FN

ote

LinR

egSM

Ore

gK

ombi

Abw

ehr

Ham

burg

erSV

Hei

koW

este

rman

n1

1-2

8,60

0,88

2,46

5,57

Abw

ehr

Han

nove

r96

Kar

imH

aggu

i1

1-2

7,87

1,41

2,43

6,78

Mit

telf

eld

FCBa

yern

Mun

chen

Fran

ckR

iber

y1

116

,55

8,94

5,56

11,9

3M

itte

lfel

dBa

yer

04Le

verk

usen

Lars

Bend

er1

110

,04

2,39

0,91

8,82

Mit

telf

eld

1899

Hof

fenh

eim

Seja

dSa

lihov

ic1

116

,46

3,71

4,97

9,33

Ang

riff

1.FC

Kol

nLu

kas

Podo

lski

11

24,5

93,

685,

6812

,42

Ang

riff

FCSc

halk

e04

Rau

l1

121

,11

-0,1

24,

1110

,08

Ang

riff

Baye

r04

Leve

rkus

enSt

efan

Kie

ßlin

g1

121

,31

2,79

4,87

13,0

0N

MM

P:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eM

ulti

laye

rPer

cept

onM

etho

dekl

assi

fizie

rtN

MR

F:Sp

iele

rw

urde

als

Nat

iona

lspi

eler

durc

hdi

eR

ando

mFo

rest

Met

hode

klas

sifiz

iert

Not

e:N

ote

die

durc

hdi

elin

eare

Reg

ress

ion

bere

chne

twir

d(J

eni

edri

ger

dest

obe

sser

)Li

nReg

:Ers

piel

tePu

nkte

anha

ndde

rlin

eare

nR

egre

ssio

nbe

rech

net

SMO

reg:

Ersp

ielt

ePu

nkte

anha

ndde

rSM

Ore

gM

etho

debe

rech

net

Kom

bi:E

rspi

elte

Punk

tean

hand

der

Kom

bina

tion

aus

Clu

ster

ing

und

linea

rer

Reg

ress

ion

bere

chne

t

103

Page 113: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

fers mithilfe der beiden Ansatze nur bedingt zum Einsatz kommen kann. Da inder Zukunft viele Unwagbarkeiten vorherrschen, wie die Verletzung des Spielers,uberraschender Formverlust durch außerliche Einflusse oder andere Dinge, die aufdie Leistung eines Spielers einwirken, kann nicht von der erspielten Punktzahl aufzukunftige Leistungen geschlossen werden. Eine Auswahl an Spielern, wie in Tabelle47 und Tabelle 48 kann jedoch helfen, eine Vorauswahl von Spielern zu ermitteln unddiese mithilfe menschlicher Scouts weiter zu beobachten.

Vergangene Transfers konnen durch die beiden Ansatze jedoch auf ihre Qualitatuberpruft werden. Die ermittelten Werte konnen zudem bei Verhandlungen uber dieAblosesumme oder Vertragsgesprachen genutzt werden, um die Hohe der Ablosebzw. des Gehalts zu berechnen. Die Analysen mit erweitertem Datensatz konnen zu-dem noch detaillierte und bessere Ergebnisse liefern.

Die Quantifizierung der Wichtigkeit eines Spielers durch die von ihm erspieltenPunkte bietet eine leichte Darstellung des Wertes fur die Verantwortlichen eines Ver-eins an. Die beiden vorgestellten Ansatze sind dabei zwei Arten der Analyse diemoglich sind. Erweiterte Ansatze sind denkbar. So konnen einerseits andere Verfah-ren gewahlt und kombiniert werden. Andererseits ist eine veranderte Reprasentationder Mannschaften moglich.

104

Page 114: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

7 Die Zukunft des Data Mining im Fußball

Das Ziel der vorliegenden Arbeit bestand darin, mittels komplexer Datenanalyse,namlich dem Data Mining, den Wert eines Spielers fur einen Verein zu quantifizie-ren. Zu diesem Zweck wurden mehrere Data Mining Verfahren exemplarisch aufdie spielspezifischen Daten der Bundesligaspieler der beiden Saisons 2010/2011 und2011/2012 angewendet. Dies diente der Uberprufung, inwiefern Data Mining imSport und speziell im Fußball eingesetzt werden kann. Der Fokus lag dabei auf derBemessung der Wichtigkeit eines Spielers fur seinen Verein.

Im Laufe der Arbeit wurden Data Mining Verfahren angewendet, um Nationalspie-ler zu klassifizieren, die Beziehungen zwischen der Spielweise und der erhaltenenNote eines Spielers zu identifizieren, Spieler in homogene Gruppen einzuordnen undeine zukunftige Saison vorherzusagen. Um die Eingangsfrage zu beantworten wur-den zusatzlich zwei Data Mining Verfahren kombiniert.

Die Klassifikation von Nationalspielern diente der Entdeckung von Spielern, wel-che zwar auf dem Niveau eines Nationalspielers spielen, jedoch von den National-trainern nicht berucksichtigt werden. Es konnten dabei Klassifikationsraten von rund70 % erreicht werden. Die Precision und damit das Qualitatsmerkmal der richtigenKlassifizierung von Nationalspielern, ist jedoch nicht hoch genug, um in dem gezeig-ten Beispiel von einer zuverlassigen Klassifizierung von Nationalspielern auszuge-hen. Die Idee der Durchfuhrung einer solchen Klassifikation bietet jedoch eine realis-tische Moglichkeit zum Einsatz in der Realitat. Die Verwendung mehrerer Daten uberzahlreichere Saisons konnten die Ergebnisse des aufgezeigten Ansatzes positiv beein-flussen. Außerdem konnte die Idee aus anderen Blickwinkeln betrachtet werden. Indieser Arbeit werden Nationalspieler als Talente bzw. gute Spieler definiert. AndereBetrachtungen sind hier jedoch moglich. So konnten Spieler einer Liga beispielsweisevon Trainern eines Vereins in einer der beiden Kategorien ”gut” oder ”schlecht” einge-teilt werden. Aufgrund dieser Einteilung konnten dann Modelle erlernt werden undauf ungesehene Daten von Spielern angewendet werden.

Die Identifikation der Beziehungen zwischen den dargestellten Attributen einesSpielers und der Note, welche die Spieler von Redakteuren mehrerer Zeitschriftenoder Internetseiten erhalten, sollten klaren, welche Aktionen eines Spielers zu einerguten Beurteilung seiner Leistung fuhren. Die Analysen ergeben, dass vor allem dieoffensiven Aktionen eines Spielers die Beurteilung positiv beeinflussen. Die Qualitatder Ergebnisse ist kritisch zu betrachten. Eine Analyse mit erweiterter Datenbasiskonnte zu besseren Resultaten fuhren. Auch hier besteht die Moglichkeit weitere For-schungen anzuschließen. So konnen andere Werte als die Note als Zielwert fur dieRegression herhalten. Insgesamt lasst sich sagen, dass die Regression eine einfacheMoglichkeit bietet, die Zusammenhange von diversen Eingangsgroßen zur Ausgangs-große zu ermitteln. Somit ist eine Anwendung dieses Verfahrens im Sport in Zukunftsehr realistisch, was auch die Veroffentlichungen im Bereich der komplexen Daten-analyse zeigen.

Die Anwendung der Clusteranalyse in dieser Arbeit beweist ihre Anwen-dungsmoglichkeit im realen Einsatz. Es konnen nicht nur einzelne Mannschaftenin sinnvolle Kategorien eingeteilt werden, vor allem die Einordnung der Spieler indie verschiedenen Spielertypen kann Verantwortlichen von Vereinen bei der Zusam-mensetzung der Mannschaft helfen. So konnen gleichartige Spieler, aber auch un-terschiedlich agierende Spieler innerhalb der Liga identifiziert werden. Das Wissenuber die Spielweisen einzelner Spieler kann zur Kaderplanung genutzt werden. Da-durch konnen Spieler im Sinne ihrer Spielweise gleichwertig ersetzt werden bzw. einemoglichst heterogener Kader zusammengestellt werden.

105

Page 115: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Eine Vorhersage einer Saison mithilfe von Data Mining muss kritisch betrachtetwerden. Eine solche Vorhersage, genauso wie die Prognose einzelner Spielausgangenist immer schwierig, da die Leistung einer Mannschaft von vielen Dingen abhangt.So konnen beispielsweise Verletzungen von Spielern, die Schiedsrichterleistung oderaußerliche Einflusse, wie das Zuschaueraufkommen oder die Wetterbedingungen dieAusgange von Spielen beeinflussen, sind jedoch in einer Data Mining Anwendungschwer abbildbar. Auch die in dieser Arbeit dargestellten Ergebnisse der Prognosesind nicht zufriedenstellend und fur einen Einsatz in der Realitat nicht brauchbar.

Die Kernfrage dieser Arbeit, wie man den Wert eines Spielers fur seinen Verein imSinne der fußballerischen Leistung misst, wird mithilfe der Regression separat sowieeiner Kombination aus Clustering und Regression beantwortet. Dabei werden bei derisolierten Verwendung der Regressionsanalyse einerseits die ermittelten Punkte desVerfahrens mit einem gewissen Spieler errechnet, sowie die Punkte die laut der Ana-lyse ohne den Spieler erreicht worden waren. Die Differenz der beiden Punktevorher-sagen entspricht den erspielten Punkten eines einzelnen Spielers, die er laut Regressi-on zur Gesamtpunktzahl des Vereins beitragt. Diese reine Anwendung der Regressi-on basierte auf den Ergebnissen der Vorhersage, welche im vorangegangenen Kapitelunternommen wurde. Wie erwahnt, sind die Ergebnisse der Vorhersage nicht zufrie-denstellend. Demnach muss diese Art der Messung fur die Wichtigkeit eines Spielerebenfalls kritisch betrachtet werden.

Bei der Kombination aus Cluster- und Regressionsanalyse, werden nicht die einzel-nen Spieler in den Mittelpunkt gestellt, sondern ihre Art zu spielen. Hier wird mithilfeder Regression gelernt, welche Cluster und damit welche Spielweisen am ehesten dieerhaltenen Punkte des Vereins beeinflussen. Dabei wird erkannt, dass gewisse Spiel-weisen mehr zur Leistung beitragen als andere. Der Ansatz lasst es außerdem zu, diePunkte jeden Spielers zu errechnen, welche er zur Gesamtleistung der Mannschaftbeigetragen hat. Anhand der aufzeigten Beispiele, bei denen die ermittelten Punk-te gewisser Spieler mit der subjektiven Wahrnehmung der Leistung dieser Spielerverglichen werden, zeigt sich, dass sich der aufgefuhrte Ansatz zur Bemessung vonSpielern eignet. Es muss jedoch gesagt sein, dass nur wenige Daten fur die Analysenzur Verfugung stehen. Weitere Untersuchungen mit mehreren Attributen sowie Datenuber mehrere Saisons konnten weitere Erkenntnisse offenbaren und die Qualitat einersolchen Analyse detaillierter uberpruft werden.

Beide Ansatze der Quantifizierung der Wichtigkeit von Spielern zeigen auf, dasseine Analyse mittels Data Mining moglich ist. Durch die begrenzte Anzahl an Da-ten, konnen jedoch keine verlasslichen Aussagen uber die Qualitat der hier durch-gefuhrten Anwendungen gemacht werden. In weiteren Untersuchungen, konnten dieAnsatze mit erweiterten Datensatzen uberpruft werden. Auch eine Veranderung derBedingungen innerhalb der Durchfuhrung, wie beispielsweise ein anderer Aufbau derDatensatze oder eine anderer Auswahl von Data Mining Methoden konnen als weite-re Forschungen angedacht werden.

Die Quantifizierung des Wertes durch die erspielten Punkte eines einzelnen Spie-lers, kann von Verantwortlichen genutzt werden, um vergangene Transfers zu beur-teilen und kann als Anhaltspunkt uber Ablosesummen oder Gehalter bei Vertragsge-sprachen dienen. Dafur kann aufbauend auf den Ergebnissen ein Informationssystemerstellt werden, dass eine einfache Betrachtung der Ergebnisse sowie ein Vergleich vonSpielern fur Benutzer ermoglicht.

Das Potential zukunftiger Transfers zu Beurteilen ist als kritisch zu betrachten. Eskann nicht darauf geschlossen werden, dass ein Spieler den Wert, den er in einervergangenen Saison erreicht hat auch in zukunftigen Saisons halten oder verbessernkann. Wie auch bei der Vorhersage von Spielen oder einer ganzen Saison, liegen hier

106

Page 116: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

viele Unwagbarkeiten vor, wie beispielsweise die Verletzung eines Spielers oder an-dere Einflusse, welche die Form eines Spielers beeinflussen. Einen Anhaltspunkt uberden Wert eines Spielers konnen die Ergebnisse fur die Verantwortlichen eines Vereinstrotzdem bieten.

Zusatzlich zur Bemessung der Wichtigkeit der Spieler, konnen die Ergebnisse ausden aufgezeigten Analysen der Nationalspieler, der Noten sowie der Clusteranalysebetrachtet werden und Verantwortlichen als Entscheidungshilfe dienen.

Wie anhand des Einblickes in den derzeitigen Forschungsstand sowie der in die-ser Arbeit durchgefuhrten Analysen zu sehen ist, gibt es vielfaltige Moglichkeiten derAnwendung von Data Mining im Sport und Fußball. Durch die erweiterte und au-tomatisierte Aufnahme von Daten der Bundesliga, wird in Zukunft ein hoheres undgehaltvolleres Datenvolumen zur Verfugung stehen und damit einhergehend wirddie Nachfrage der manuellen, aber im Besonderen auch die der automatisierten Ana-lysen der Daten steigen. Die Anwendungen von Data Mining in dieser Arbeit fokus-sieren sich primar auf die Spieler einer Mannschaft. Die automatisierte Analyse bietetjedoch in den vielfaltigen Aufgabenbereichen eines Vereins, wie dem Training, derJugendforderung oder der Spielanalyse sinnvolle Anwendungsmoglichkeiten. In Zu-kunft kann somit die komplexe Datenanalyse, wie sie Data Mining darstellt, in vielenBereichen des Fußballs Verwendung finden und Vereinen als Entscheidungshilfe die-nen.

107

Page 117: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Anhang

Abbildung 23: SQL SpielerProSaison

SELECTfakten . saison , fakten . verein , fakten . s p i e l e r ,CAST(SUM( fakten . zweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS zweikampf ,CAST(SUM( fakten . verlZweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS verlZweikampf ,CAST(SUM( fakten . B a l l k o nt a k t e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Bal lkontakte ,CAST(SUM( fakten . e r f P a e s s e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS er fPaesse ,CAST(SUM( fakten . f e h l P a e s s e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS fehlPaesse ,CAST(SUM( fakten . Paesse ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Paesse ,CAST(SUM( fakten . er fPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS erfPassquote ,CAST(SUM( fakten . fehlPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS fehlPassquote ,CAST(SUM( fakten . Torschuesse ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Torschuesse ,CAST(SUM( fakten . vergTorschuesse ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS vergTorschuesse ,CAST(SUM( fakten . er fTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS erfTorschussquote ,CAST(SUM( fakten . fehlTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS fehlTorschussquote ,CAST(SUM( fakten . Torschussvorlagen ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS Torschussvorlagen ,CAST(SUM( fakten . Vorlage ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS Vorlage ,CAST(SUM( fakten . Tore ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Tore ,CAST(SUM( fakten . Gelb ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Gelb ,CAST(SUM( fakten . PassProBal lkontakt ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS PassProBal lkontakt ,CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( fakten . TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass ,(CASE WHEN ( n a t i o n a l s p i e l e r . sa ison2009 + n a t i o n a l s p i e l e r .

sa ison2010 ) > 1 THEN 1 ELSE 0 END) AS nm1,(CASE WHEN ( n a t i o n a l s p i e l e r . sa ison2011 ) > 1 THEN 1 ELSE 0 END)

AS nm,s p i e l e r e i g e n s c h a f t e n . s p i e l e r p o s i t i o n

FROM fakten , s p i e l e r e i g e n s c h a f t e n , n a t i o n a l s p i e l e rWHERE s p i e l e r e i g e n s c h a f t e n . sa ison = fakten . sa ison AND

s p i e l e r e i g e n s c h a f t e n . s p i e l e r = fakten . s p i e l e r

108

Page 118: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

AND n a t i o n a l s p i e l e r . s p i e l e r = fakten . s p i e l e r AND fakten . sa ison= 2010

GROUP BY fakten . saison , fakten . s p i e l e rUNIONSELECT fakten . saison , fakten . verein , fakten . s p i e l e r ,CAST(SUM( fakten . zweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS zweikampf ,CAST(SUM( fakten . verlZweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS verlZweikampf ,CAST(SUM( fakten . B a l l k o nt a k t e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Bal lkontakte ,CAST(SUM( fakten . e r f P a e s s e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS er fPaesse ,CAST(SUM( fakten . f e h l P a e s s e ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS fehlPaesse ,CAST(SUM( fakten . Paesse ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Paesse ,CAST(SUM( fakten . er fPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS erfPassquote ,CAST(SUM( fakten . fehlPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS fehlPassquote ,CAST(SUM( fakten . Torschuesse ) /SUM( fakten . g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Torschuesse ,CAST(SUM( fakten . vergTorschuesse ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS vergTorschuesse ,CAST(SUM( fakten . er fTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS erfTorschussquote ,CAST(SUM( fakten . fehlTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS fehlTorschussquote ,CAST(SUM( fakten . Torschussvorlagen ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS Torschussvorlagen ,CAST(SUM( fakten . Vorlage ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS Vorlage ,CAST(SUM( fakten . Tore ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Tore ,CAST(SUM( fakten . Gelb ) /SUM( fakten . g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Gelb ,CAST(SUM( fakten . PassProBal lkontakt ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS PassProBal lkontakt ,CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( fakten . TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass ,(CASE WHEN ( n a t i o n a l s p i e l e r . sa ison2010 + n a t i o n a l s p i e l e r .

sa ison2011 ) > 1 THEN 1 ELSE 0 END) AS nm1,(CASE WHEN ( n a t i o n a l s p i e l e r . sa ison2012 ) > 1 THEN 1 ELSE 0 END)

AS nm,s p i e l e r e i g e n s c h a f t e n . s p i e l e r p o s i t i o n

FROM fakten , s p i e l e r e i g e n s c h a f t e n , n a t i o n a l s p i e l e rWHERE s p i e l e r e i g e n s c h a f t e n . sa ison = fakten . sa ison AND

s p i e l e r e i g e n s c h a f t e n . s p i e l e r = fakten . s p i e l e r

109

Page 119: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

AND n a t i o n a l s p i e l e r . s p i e l e r = fakten . s p i e l e r AND fakten . sa ison= 2011

GROUP BY fakten . saison , fakten . s p i e l e r

Abbildung 24: SQL Spielernoten

SELECTfakten . saison , fakten . s p i e l t a g , fakten . verein , fakten . s p i e l e r ,fakten . Zweikampf ,fakten . verlZweikampf ,fakten . Bal lkontakte ,fakten . Paesse ,fakten . er fPaesse ,fakten . erfPassquote ,fakten . fehlPaesse ,fakten . fehlPassquote ,fakten . Torschuesse ,fakten . erfTorschussquote ,fakten . vergTorschuesse ,fakten . fehlTorschussquote ,fakten . Torschussvorlagen ,fakten . Tore ,fakten . Vorlage ,fakten . Gelb ,fakten . PassProBal lkontakt ,fakten . er fPassProBal lkontakt ,fakten . TorschussvorlageProPass ,s p i e l e r e i g e n s c h a f t e n . s p i e l e r p o s i t i o n ,noten . noteFROMfakten JOIN noten

ON fakten . sa ison = noten . sa ison AND fakten . s p i e l t a g = noten .s p i e l t a g AND fakten . s p i e l e r = noten . s p i e l e r

JOIN s p i e l e r e i g e n s c h a f t e nON s p i e l e r e i g e n s c h a f t e n . s p i e l e r = fakten . s p i e l e r AND

s p i e l e r e i g e n s c h a f t e n . sa ison = fakten . sa ison

Abbildung 25: SQL Verein pro Runde

SELECT fakten . saison , ’ Hinrunde ’ AS Runde , fakten . verein ,CAST(SUM( fakten . zweikampf ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

zweikampf ,CAST(SUM( fakten . verlZweikampf ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

verlZweikampf ,CAST(SUM( fakten . B a l l k o nt a k t e ) AS DECIMAL( 1 8 , 0 ) ) AS

Bal lkontakte ,CAST(SUM( fakten . e r f P a e s s e ) AS DECIMAL( 1 8 , 0 ) ) AS er fPaesse ,CAST(SUM( fakten . f e h l P a e s s e ) AS DECIMAL( 1 8 , 0 ) ) AS fehlPaesse ,CAST(SUM( fakten . Paesse ) AS DECIMAL( 1 8 , 0 ) ) AS Paesse ,CAST(SUM( fakten . er fPassquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

erfPassquote ,CAST(SUM( fakten . fehlPassquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

110

Page 120: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

fehlPassquote ,CAST(SUM( fakten . Torschuesse ) AS DECIMAL( 1 8 , 0 ) ) AS Torschuesse ,CAST(SUM( fakten . vergTorschuesse ) AS DECIMAL( 1 8 , 0 ) ) AS

vergTorschuesse ,CAST(SUM( fakten . er fTorschussquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )

AS erfTorschussquote ,CAST(SUM( fakten . fehlTorschussquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )

AS fehlTorschussquote ,CAST(SUM( fakten . Torschussvorlagen ) AS DECIMAL( 1 8 , 0 ) ) AS

Torschussvorlagen ,CAST(SUM( fakten . Vorlage ) AS DECIMAL( 1 8 , 0 ) ) AS Vorlage ,CAST(SUM( fakten . Tore ) AS DECIMAL( 1 8 , 0 ) ) AS Tore ,CAST(SUM( fakten . Gelb ) AS DECIMAL( 1 8 , 0 ) ) AS Gelb ,CAST(SUM( fakten . PassProBal lkontakt ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )

AS PassProBal lkontakt ,CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ) /COUNT( ∗ ) AS DECIMAL

( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( fakten . TorschussvorlageProPass ) /COUNT( ∗ ) AS DECIMAL

( 1 8 , 9 ) ) AS TorschussvorlageProPassFROM fakten WHERE fakten . s p i e l t a g > 0 AND fakten . s p i e l t a g < 18

AND fakten . s p i e l e r IN (SELECT s p i e l e r FROMs p i e l e r e i g e n s c h a f t e n WHERE s p i e l e r p o s i t i o n IN ( ’Abwehr ’ , ’M i t t e l f e l d ’ , ’ Angr i f f ’ ) )

GROUP BY fakten . saison , fakten . vere inunionSELECT fakten . saison , ’ Rueckrunde ’ AS Runde , fakten . verein ,CAST(SUM( fakten . zweikampf ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

zweikampf ,CAST(SUM( fakten . verlZweikampf ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

verlZweikampf ,CAST(SUM( fakten . B a l l k o nt a k t e ) AS DECIMAL( 1 8 , 0 ) ) AS

Bal lkontakte ,CAST(SUM( fakten . e r f P a e s s e ) AS DECIMAL( 1 8 , 0 ) ) AS er fPaesse ,CAST(SUM( fakten . f e h l P a e s s e ) AS DECIMAL( 1 8 , 0 ) ) AS fehlPaesse ,CAST(SUM( fakten . Paesse ) AS DECIMAL( 1 8 , 0 ) ) AS Paesse ,CAST(SUM( fakten . er fPassquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

erfPassquote ,CAST(SUM( fakten . fehlPassquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS

fehlPassquote ,CAST(SUM( fakten . Torschuesse ) AS DECIMAL( 1 8 , 0 ) ) AS Torschuesse ,CAST(SUM( fakten . vergTorschuesse ) AS DECIMAL( 1 8 , 0 ) ) AS

vergTorschuesse ,CAST(SUM( fakten . er fTorschussquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )

AS erfTorschussquote ,CAST(SUM( fakten . fehlTorschussquote ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )

AS fehlTorschussquote ,CAST(SUM( fakten . Torschussvorlagen ) AS DECIMAL( 1 8 , 0 ) ) AS

Torschussvorlagen ,CAST(SUM( fakten . Vorlage ) AS DECIMAL( 1 8 , 0 ) ) AS Vorlage ,CAST(SUM( fakten . Tore ) AS DECIMAL( 1 8 , 0 ) ) AS Tore ,CAST(SUM( fakten . Gelb ) AS DECIMAL( 1 8 , 0 ) ) AS Gelb ,

111

Page 121: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

CAST(SUM( fakten . PassProBal lkontakt ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) )AS PassProBal lkontakt ,

CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,

CAST(SUM( fakten . TorschussvorlageProPass ) /COUNT( ∗ ) AS DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass

FROM fakten WHERE fakten . s p i e l t a g > 17 AND fakten . s p i e l t a g <35 AND fakten . s p i e l e r IN (SELECT s p i e l e r FROMs p i e l e r e i g e n s c h a f t e n WHERE s p i e l e r p o s i t i o n IN ( ’Abwehr ’ , ’M i t t e l f e l d ’ , ’ Angr i f f ’ ) )

GROUP BY fakten . saison , fakten . vere in ;

Abbildung 26: SQL Spieler pro Runde

SELECT fakten . saison , ’ Hinrunde ’ AS Runde , fakten . verein ,fakten . s p i e l e r ,

CAST(SUM( fakten . zweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) ASDECIMAL( 1 8 , 9 ) ) AS zweikampf ,

CAST(SUM( fakten . verlZweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )AS DECIMAL( 1 8 , 9 ) ) AS verlZweikampf ,

CAST ( (SUM( fakten . B a l l k on t a k t e ) /SUM( fakten . g e s p i e l t ) ) ∗90 ASDECIMAL( 1 8 , 9 ) ) AS Bal lkontakte ,

CAST ( (SUM( fakten . e r f P a e s s e ) /SUM( fakten . g e s p i e l t ) ) ∗90 ASDECIMAL( 1 8 , 9 ) ) AS er fPaesse ,

CAST ( (SUM( fakten . f e h l P a e s s e ) /SUM( fakten . g e s p i e l t ) ) ∗90 ASDECIMAL( 1 8 , 9 ) ) AS fehlPaesse ,

CAST ( (SUM( fakten . Paesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL( 1 8 , 9 ) ) AS Paesse ,

CAST(SUM( fakten . er fPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) ASDECIMAL( 1 8 , 9 ) ) AS erfPassquote ,

CAST(SUM( fakten . fehlPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )AS DECIMAL( 1 8 , 9 ) ) AS fehlPassquote ,

CAST ( (SUM( fakten . Torschuesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 ASDECIMAL( 1 8 , 9 ) ) AS Torschuesse ,

CAST ( (SUM( fakten . vergTorschuesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 ASDECIMAL( 1 8 , 9 ) ) AS vergTorschuesse ,

CAST(SUM( fakten . er fTorschussquote ∗ g e s p i e l t ) /SUM( fakten .g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS erfTorschussquote ,

CAST(SUM( fakten . fehlTorschussquote ∗ g e s p i e l t ) /SUM( fakten .g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS fehlTorschussquote ,

CAST ( (SUM( fakten . Torschussvorlagen ) /SUM( fakten . g e s p i e l t ) ) ∗90AS DECIMAL( 1 8 , 9 ) ) AS Torschussvorlagen ,

CAST ( (SUM( fakten . Vorlage ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL( 1 8 , 9 ) ) AS Vorlage ,

CAST ( (SUM( fakten . Tore ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL( 1 8 , 9 ) ) AS Tore ,

CAST ( (SUM( fakten . Gelb ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL( 1 8 , 9 ) ) AS Gelb ,

CAST(SUM( fakten . PassProBal lkontakt ∗ g e s p i e l t ) /SUM( fakten .g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS PassProBal lkontakt ,

CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( fakten .g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,

112

Page 122: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

CAST(SUM( fakten . TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( fakten .g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass ,

s p i e l e r e i g e n s c h a f t e n . s p i e l e r p o s i t i o nFROM fakten , s p i e l e r e i g e n s c h a f t e n WHERE fakten . sa ison =

s p i e l e r e i g e n s c h a f t e n . sa ison AND fakten . s p i e l e r =s p i e l e r e i g e n s c h a f t e n . s p i e l e r AND fakten . s p i e l t a g > 0 ANDfakten . s p i e l t a g < 18 AND fakten . s p i e l e r IN (SELECT s p i e l e rFROM s p i e l e r e i g e n s c h a f t e n WHERE s p i e l e r p o s i t i o n IN ( ’

Abwehr ’ , ’ M i t t e l f e l d ’ , ’ Angr i f f ’ ) )GROUP BY fakten . saison , fakten . s p i e l e rHAVING SUM( fakten . g e s p i e l t ) >= 510unionSELECT fakten . saison , ’ Rueckrunde ’ AS Runde , fakten . verein ,

fakten . s p i e l e r ,CAST(SUM( fakten . zweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS zweikampf ,CAST(SUM( fakten . verlZweikampf∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS verlZweikampf ,CAST ( (SUM( fakten . B a l l k on t a k t e ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS

DECIMAL( 1 8 , 9 ) ) AS Bal lkontakte ,CAST ( (SUM( fakten . e r f P a e s s e ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS

DECIMAL( 1 8 , 9 ) ) AS er fPaesse ,CAST ( (SUM( fakten . f e h l P a e s s e ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS

DECIMAL( 1 8 , 9 ) ) AS fehlPaesse ,CAST ( (SUM( fakten . Paesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL

( 1 8 , 9 ) ) AS Paesse ,CAST(SUM( fakten . er fPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS erfPassquote ,CAST(SUM( fakten . fehlPassquote ∗ g e s p i e l t ) /SUM( fakten . g e s p i e l t )

AS DECIMAL( 1 8 , 9 ) ) AS fehlPassquote ,CAST ( (SUM( fakten . Torschuesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS

DECIMAL( 1 8 , 9 ) ) AS Torschuesse ,CAST ( (SUM( fakten . vergTorschuesse ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS

DECIMAL( 1 8 , 9 ) ) AS vergTorschuesse ,CAST(SUM( fakten . er fTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS erfTorschussquote ,CAST(SUM( fakten . fehlTorschussquote ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS fehlTorschussquote ,CAST ( (SUM( fakten . Torschussvorlagen ) /SUM( fakten . g e s p i e l t ) ) ∗90

AS DECIMAL( 1 8 , 9 ) ) AS Torschussvorlagen ,CAST ( (SUM( fakten . Vorlage ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL

( 1 8 , 9 ) ) AS Vorlage ,CAST ( (SUM( fakten . Tore ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL

( 1 8 , 9 ) ) AS Tore ,CAST ( (SUM( fakten . Gelb ) /SUM( fakten . g e s p i e l t ) ) ∗90 AS DECIMAL

( 1 8 , 9 ) ) AS Gelb ,CAST(SUM( fakten . PassProBal lkontakt ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS PassProBal lkontakt ,CAST(SUM( fakten . e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( fakten .

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( fakten . TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( fakten .

113

Page 123: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass ,s p i e l e r e i g e n s c h a f t e n . s p i e l e r p o s i t i o n

FROM fakten , s p i e l e r e i g e n s c h a f t e n WHERE fakten . sa ison =s p i e l e r e i g e n s c h a f t e n . sa ison AND fakten . s p i e l e r =s p i e l e r e i g e n s c h a f t e n . s p i e l e r AND fakten . s p i e l t a g > 17 ANDfakten . s p i e l t a g < 35 AND fakten . s p i e l e r IN (SELECT s p i e l e rFROM s p i e l e r e i g e n s c h a f t e n WHERE s p i e l e r p o s i t i o n IN ( ’

Abwehr ’ , ’ M i t t e l f e l d ’ , ’ Angr i f f ’ ) )GROUP BY fakten . saison , fakten . s p i e l e rHAVING SUM( fakten . g e s p i e l t ) >= 510

Abbildung 27: SQL Verein pro Runde gewichtet

SELECT saison , ’ Hinrunde ’ AS Runde , verein ,CAST(SUM( zweikampf∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS zweikampf ,CAST(SUM( verlZweikampf∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS verlZweikampf ,CAST(SUM( B a l l k on t a k t e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS Bal lkontakte ,CAST(SUM( e r f P a e s s e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS er fPaesse ,CAST(SUM( f e h l P a e s s e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS fehlPaesse ,CAST(SUM( Paesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Paesse ,CAST(SUM( er fPassquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS erfPassquote ,CAST(SUM( feh lPassquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS fehlPassquote ,CAST(SUM( Torschuesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Torschuesse ,CAST(SUM( vergTorschuesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS vergTorschuesse ,CAST(SUM( er fTorschussquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS erfTorschussquote ,CAST(SUM( fehlTorschussquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS fehlTorschussquote ,CAST(SUM( Torschussvorlagen ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Torschussvorlagen ,CAST(SUM( Vorlage∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Vorlage ,CAST(SUM( Tore∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Tore ,CAST(SUM( Gelb∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Gelb ,CAST(SUM( PassProBal lkontakt ∗ g e s p i e l t ) /SUM( g e s p i e l t ) as DECIMAL

( 1 8 , 9 ) ) AS PassProBal lkontakt ,CAST(SUM( e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( g e s p i e l t ) as

DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( g e s p i e l t ) as

DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPass

114

Page 124: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

FROM fakten WHERE s p i e l t a g > 0 AND s p i e l t a g < 18 AND s p i e l e rIN (SELECT s p i e l e r FROM s p i e l e r e i g e n s c h a f t e n WHEREs p i e l e r p o s i t i o n IN ( ’Abwehr ’ , ’ M i t t e l f e l d ’ , ’ Angr i f f ’ ) )

GROUP BY saison , vere inUNIONSELECT saison , ’ Rueckrunde ’ AS Runde , verein ,CAST(SUM( zweikampf∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS zweikampf ,CAST(SUM( verlZweikampf∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS verlZweikampf ,CAST(SUM( B a l l k on t a k t e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS Bal lkontakte ,CAST(SUM( e r f P a e s s e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS er fPaesse ,CAST(SUM( f e h l P a e s s e ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS fehlPaesse ,CAST(SUM( Paesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Paesse ,CAST(SUM( er fPassquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 )

) AS erfPassquote ,CAST(SUM( feh lPassquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS fehlPassquote ,CAST(SUM( Torschuesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) )

AS Torschuesse ,CAST(SUM( vergTorschuesse∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS vergTorschuesse ,CAST(SUM( er fTorschussquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) as DECIMAL

( 1 8 , 9 ) ) AS erfTorschussquote ,CAST(SUM( fehlTorschussquote ∗ g e s p i e l t ) /SUM( g e s p i e l t ) as DECIMAL

( 1 8 , 9 ) ) AS fehlTorschussquote ,CAST(SUM( Torschussvorlagen ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS Torschussvorlagen ,CAST(SUM( Vorlage∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Vorlage ,CAST(SUM( Tore∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Tore ,CAST(SUM( Gelb∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL( 1 8 , 9 ) ) AS

Gelb ,CAST(SUM( PassProBal lkontakt ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS DECIMAL

( 1 8 , 9 ) ) AS PassProBal lkontakt ,CAST(SUM( e r f P a s s P r o B a l l k o n t a k t ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS er fPassProBa l lkontakt ,CAST(SUM( TorschussvorlageProPass ∗ g e s p i e l t ) /SUM( g e s p i e l t ) AS

DECIMAL( 1 8 , 9 ) ) AS TorschussvorlageProPassFROM fakten WHERE s p i e l t a g > 17 AND s p i e l t a g < 35 AND s p i e l e r

IN (SELECT s p i e l e r FROM s p i e l e r e i g e n s c h a f t e n WHEREs p i e l e r p o s i t i o n IN ( ’Abwehr ’ , ’ M i t t e l f e l d ’ , ’ Angr i f f ’ ) )

GROUP BY saison , vere in ;

115

Page 125: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Abbildung 28: SQL Clusteredspieler pro Verein

SELECTsaison , runde , verein ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’Abwehr ’ AND c l u s t e r = ’c l u s t e r 0 ’ THEN g e s p i e l t ELSE 0 END) ) AS Abwehr0 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’Abwehr ’ AND c l u s t e r = ’c l u s t e r 1 ’ THEN g e s p i e l t ELSE 0 END) ) AS Abwehr1 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’Abwehr ’ AND c l u s t e r = ’c l u s t e r 2 ’ THEN g e s p i e l t ELSE 0 END) ) AS Abwehr2 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’Abwehr ’ AND c l u s t e r = ’c l u s t e r 3 ’ THEN g e s p i e l t ELSE 0 END) ) AS Abwehr3 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’Abwehr ’ AND c l u s t e r = ’c l u s t e r 4 ’ THEN g e s p i e l t ELSE 0 END) ) AS Abwehr4 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ M i t t e l f e l d ’ AND c l u s t e r = ’c l u s t e r 0 ’ THEN g e s p i e l t ELSE 0 END) ) AS M i t t e l f e l d 0 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ M i t t e l f e l d ’ AND c l u s t e r = ’c l u s t e r 1 ’ THEN g e s p i e l t ELSE 0 END) ) AS M i t t e l f e l d 1 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ M i t t e l f e l d ’ AND c l u s t e r = ’c l u s t e r 2 ’ THEN g e s p i e l t ELSE 0 END) ) AS M i t t e l f e l d 2 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ M i t t e l f e l d ’ AND c l u s t e r = ’c l u s t e r 3 ’ THEN g e s p i e l t ELSE 0 END) ) AS M i t t e l f e l d 3 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ M i t t e l f e l d ’ AND c l u s t e r = ’c l u s t e r 4 ’ THEN g e s p i e l t ELSE 0 END) ) AS M i t t e l f e l d 4 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 0 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angriff0 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 1 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angriff1 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 2 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angriff2 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 3 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angriff3 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 4 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angriff4 ,

SUM( (CASE WHEN s p i e l e r p o s i t i o n = ’ Angr i f f ’ AND c l u s t e r = ’c l u s t e r 5 ’ THEN g e s p i e l t ELSE 0 END) ) AS Angri f f5

FROM(SELECTf . saison , c . runde , f . verein , f . s p i e l e r , f . g e s p i e l t , c .

s p i e l e r p o s i t i o n , c . c l u s t e rFROM (SELECT saison , ’ Hinrunde ’ AS runde , verein , s p i e l e r , SUM

( g e s p i e l t ) AS g e s p i e l t FROM faktenWHERE s p i e l t a g > 0 AND s p i e l t a g < 18GROUP BY saison , verein , s p i e l e r ) f ,c l u s t e r e d s p i e l e r c WHERE c . s p i e l e r = f . s p i e l e r AND c . sa i son =

f . sa i son AND c . runde = f . rundeUNIONSELECTf . saison , c . runde , f . verein , f . s p i e l e r , f . g e s p i e l t , c .

s p i e l e r p o s i t i o n , c . c l u s t e rFROM (SELECT saison , ’ Rueckrunde ’ AS runde , verein , s p i e l e r ,

116

Page 126: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

SUM( g e s p i e l t ) AS g e s p i e l t FROM faktenWHERE s p i e l t a g > 17 AND s p i e l t a g < 35GROUP BY saison , verein , s p i e l e r ) f ,c l u s t e r e d s p i e l e r c WHERE c . s p i e l e r = f . s p i e l e r AND c . sa i son =

f . sa i son AND c . runde = f . runde ) aGROUP BY saison , runde , vere in ;

117

Page 127: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

Literaturverzeichnis

[1] Wladimir Awerbuch. ”Anwendung von Data Mining zu statistischen Auswer-tungen und Vorhersagen im Sport“. Diplomarbeit. TU Darmstadt, Knowled-ge Engineering Group, 2009. URL: http://www.ke.tu-darmstadt.de/lehre/arbeiten/diplom/2009/Awerbuch_Wladimir.pdf.

[2] Mathew Beckler, Hingfei Wang und Michael Papamicheal. NBA Oracle. Zuletztbesucht am 17.06.2013. URL: http://www.mbeckler.org/coursework/2008-2009/10701_report.pdf.

[3] Christoph Biermann. Digitales Scouting: Wundersturmer gesucht. Zuletzt besuchtam 14.03.2013. URL: http : / / www . spiegel . de / sport / fussball /digitales-scouting-wunderstuermer-gesucht-a-688624.html.

[4] BUNDESLIGA.de. Ligavorstand vergibt Auftrag zur Erhebung offizieller Spieldaten.Zuletzt besucht am 03.06.2013. URL: http://www.bundesliga.de/de/liga/news/2010/index.php?f=0000176864.php.

[5] BUNDESLIGA.de. System = Erfolg: bundesliga.de nutzt Opta Index. Zuletzt be-sucht am 23.06.2013. URL: http://www.bundesliga.de/de/liga/news/2007/index.php?f=79974.php.

[6] Chenjie Cao. Sports Data Mining Technology Used in Basketball Outcome Prediction.Athens, Gerogia, 2012.

[7] Timothy C. Y. Chan, Justin A. Cho und David C. Novati. ”Quantifying the Con-tribution of NHL Player Types to Team Performance“. In: Interfaces 42.2 (Marz2012), S. 131–145.

[8] Timothy C. Y. Chan und David C. Novati. ”Split personalities of NHL players:Using clustering, projection and regression to measure individual point sha-res“. In: MIT Sloan Sports Analytics Conference. 2012. URL: http : / / www .sloansportsconference.com/wp-content/uploads/2012/02/59-Chan_Novati_Split-personalities-of-NHL-players.pdf.

[9] Nitesh V. Chavla. ”Data Mining For Imbalanced Datasets: An Overview“. In:Data Mining and Knowledge Discovery Handbook. Hrsg. von Oded Z. Maimon undLior Rokach. Berlin, Heidelberg: Springer, 2005, S. 853–863.

[10] Hsinchun Chen, Peter Buntin Rinde, Linlin She, Siunie Sutjahjo, Chris Sommerund Daryl Neely. ”Expert Prediction, Symbolic Learning, and Neural Networks:An Experiment on Greyhound Racing“. In: IEEE Expert: Intelligent Systems andTheir Applications 9.6 (Dez. 1994), S. 21–27.

[11] Barak Chizi und Oded Maimon. ”Dimension Reduction and Feature Selection“.In: Data Mining and Knowledge Discovery Handbook. Hrsg. von Oded Z. Maimonund Lior Rokach. Berlin, Heidelberg: Springer, 2005, S. 93–109.

[12] COMUNIO.de. Spielregeln. Zuletzt besucht am 08.04.2013. URL: http://www.comunio.de/rules.phtml.

[13] Gabriel B. Costa, Michael R. Huber und John T. Saccoman. Understanding Sa-bermetrics – An Introduction to the Science of Baseball Statistics. North Carolina:McFarland, 2008.

[14] DFL. Report 2012: Die wirtschaftliche Situation im Lizenzfußball. Zuletzt besuchtam 04.07.2013. URL: http : / / www . bundesliga . de / media / native /autosync/report_2013_dt_72dpi.pdf.

118

Page 128: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

[15] David Dyte und Stephen R. Clarke. ”A Ratings Based Poisson Model for WorldCup Soccer Simulation“. In: The Journal of the Operational Research Society 51.8(2000), S. 993–998.

[16] Usama M. Fayyad, Gregory Piatetsky-Shapiro und Ramasamy Uthurusamy.

”From Data Mining to Knowldge Discovery: An Overview“. In: Advances inKnowledge Discovery and Data Mining. Hrsg. von Usama M. Fayyad, GregoryPiatetsky-Shapiro und Ramasamy Uthurusamy. Cambridge: MIT Press, 1996.

[17] FIFA. Reglement: FIFA Fussball–Weltmeisterschaft Brasilien 2014. Zuletzt besuchtam 18.03.2013. URL: http://de.fifa.com/mm/document/tournament/competition/01/47/38/17/regulationsfwcbrazil2014_de.pdf.

[18] Karl Flinders. Football injuries are rocket science. Zuletzt besucht am 23.06.2013.URL: http://www.v3.co.uk/v3- uk/news/1950164/football-injuries-rocket-science.

[19] John F. Gantz und David Reinsel. The Digital Universe Decade – Are You Ready?2010. URL: http://www.emc.com/collateral/analyst-reports/idc-digital-universe-are-you-ready.pdf.

[20] John F. Gantz und David Reinsel. The Digital Universe in 2020: Big Data, Bigger Di-gital Shadows, and Biggest Growth in the Far East. 2012. URL: http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf.

[21] SPORTAL GmbH. Bundesliga–Noten von sportal.de fur Comunio. Zuletzt besuchtam 08.04.2013. URL: http://www.sportal.de/bundesliga-noten-von-sportalde-fuer-comunio-1-2012082423294600000.

[22] Mark A. Hall. ”Correlation-based Feature Subset Selection for Machine Lear-ning“. Diss. Hamilton, New Zealand: University of Waikato, 1998.

[23] Nikolaus Heindl. Scouting 2.0. Zuletzt besucht am 13.03.2013. URL: http://www.fcbayern.telekom.de/de/aktuell/news/2010/24055.php.

[24] Christian Hornung. Favre legt sich mit Eberl an: Zoff um 12–Mio–Sturmer de Jong.Zuletzt besucht am 22.04.2013. URL: http : / / www . bild . de / sport /fussball / lucien - favre / zoff - mit - eberl - wegen - 12 - mio -stuermer-de-jong-25796910.bild.html.

[25] HTTRACK.com. HTTrack Website Copier. Zuletzt besucht am 03.06.2013. URL:http://www.httrack.com/.

[26] Fabio Huber. 1899 Hoffenheim: Forsche Tone von Markus Babbel. Zuletzt besuchtam 30.05.2013. URL: http://www.echo-online.de/sport/fussball/1bundesliga/buli2012./1899-Hoffenheim-Forsche-Toene-von-Markus-Babbel;art2400,3117714.

[27] IMPIRE. Die IMPIRE AG. Zuletzt besucht am 03.06.2013. URL: http://www.bundesliga-datenbank.de/de/aboutus/.

[28] IMPIRE. Offizielle Spieldaten der Bundesliga. Zuletzt besucht am 03.06.2013. URL:http://www.bundesliga-datenbank.de/fileadmin/impire/home/Kommunikation_offizielle_Spieldaten_impire.de.pdf.

[29] IMPIRE. Produkte. Zuletzt besucht am 03.06.2013. URL: http : / / www .bundesliga-datenbank.de/de/products/.

[30] IMPIRE. Willkommen bei IMPIRE. Zuletzt besucht am 03.06.2013. URL: http://www.bundesliga-datenbank.de/index.php?topic=Unternehmen.

119

Page 129: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

[31] INSPECT-ONLINE.de. Fußballer unter der Lupe. Zuletzt besucht am 04.06.2013.URL: http://www.inspect-online.com/topstories/automation/fussballer-unter-der-lupe.

[32] Zdravko Ivankovic, Milos Rackovic, Branko Markoski, Dragica Radosav undMiodrag Ivkovic. ”Appliance of Neural Networks in Basketball Scouting“. In:ACTA POLYTECHNICA HUNGARICA 7.4 (2010), S. 167–180.

[33] Philipp Koster. Noten fur Fußballer: Setzen, Sechs! Zuletzt besucht am 08.04.2013.URL: http : / / www . spiegel . de / sport / fussball / noten - fuer -fussballer-setzen-sechs-a-543832.html.

[34] Ullrich Kroemer. Kicker-Noten – Die Zeugnisse der Profis. Zuletzt besucht am08.04.2013. URL: http : / / www . news . de / sport / 855093240 / die -zeugnisse-der-profis/1/.

[35] Rene Kubler. Wie der SC Freiburg nach Talenten sucht – auf der ganzen Welt. Zuletztbesucht am 13.03.2013. URL: http://www.badische-zeitung.de/sport/scfreiburg/wie-der-sc-freiburg-nach-talenten-sucht-auf-der-ganzen-welt--40857783.html.

[36] Simon Kuper. Milan Lab’s secret of youth. Zuletzt besucht am 23.06.2013. URL:http://www.ft.com/intl/cms/s/0/c56b9be6-e6ff-11dc-b5c3-0000779fd2ac.html#axzz2ZOx9LJyX.

[37] Simon Kuper und Stefan Szymanski. Soccernomics - Why England Loses, WhySpain, Germany, and Brazil Win, and Why the US, Japan, Australia, Turkey-And EvenIraq-Are Destined to Become the Kings of the World’s Most Popular Sport. NationBooks, 2012.

[38] Bernard Loeffelholz, Earl Bednar und Kenneth W Bauer. ”Predicting NBA Ga-mes Using Neural Networks“. In: Journal of Quantitative Analysis in Sports 5.1(2009), S. 1–17.

[39] Arlo Lyle. Baseball Prediction Using Ensemble Learning. Athens, Gerogia, 2007.

[40] Oded Z. Maimon und Lior Rokach. ”Clustering Methods“. In: Data Mining andKnowledge Discovery Handbook. Hrsg. von Oded Z. Maimon und Lior Rokach.Berlin, Heidelberg: Springer, 2005, S. 321–349.

[41] Oded Maimon und Lior Rokach. ”Introduction To Knowledge Discovery In Da-tabases“. In: Data Mining and Knowledge Discovery Handbook. Hrsg. von Oded Z.Maimon und Lior Rokach. Berlin, Heidelberg: Springer, 2005, S. 1–13.

[42] Oded Maimon und Lior Rokach. ”Introduction to Supervised Methods“. In: Da-ta Mining and Knowledge Discovery Handbook. Hrsg. von Oded Z. Maimon undLior Rokach. Berlin, Heidelberg: Springer, 2005, S. 149–162.

[43] AC Milan. Milan Lab. Zuletzt besucht am 23.06.2013. URL: http : / / www .acmilan.com/en/club/milan_lab.

[44] Thomas M. Mitchell. Machine Learning. 1. Aufl. New York, USA: McGraw-Hill,Inc., 1997.

[45] Bret R. Myers. ”A Proposed Decision Rule for the Timing of Soccer Substituti-ons“. In: Journal of Quantitative Analysis in Sports 8.1 (2012), S. 1–24.

[46] John Naisbitt. Megatrends – Ten New Directions Transforming Our Lives. WarnerBooks, 1982.

[47] Joel Oberstone. ”Comparing Team Performance of the English Premier League,Serie A, and La Liga for the 2008-2009 Season“. In: Journal of Quantitative Analysisin Sports 7.1 (2011), S. 1–18.

120

Page 130: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

[48] Joel Oberstone. ”Differentiating the Top English Premier League Football Clubsfrom the Rest of the Pack: Identifying the Keys to Success“. In: Journal of Quanti-tative Analysis in Sports 5.3 (2009), S. 1–29.

[49] OPTA. Company history. Zuletzt besucht am 04.06.2013. URL: http://www.optasports.com/en/about/who-we-are/company-history.aspx.

[50] John C. Platt. Fast Training of Support Vector Machines using Sequential Mini-mal Optimization. Zuletzt besucht am 09.06.2013. URL: http://research.microsoft.com/en-us/um/people/jplatt/smo-book.pdf.

[51] Gunter Daniel Rey und Karl F. Wender. Neuronale Netze: Eine Einfuhrung in dieGrundlagen, Anwendungen und Datenauswertung. 1. Aufl. Bern, Schweiz: Huber,2008.

[52] Alexander P. Rotshtein, Morton Posner und Hanna B. Rakityanskaya. ”FootballPredictions Based on a Fuzzy Model with Genetic and Neural Tuning“. In: Cy-bernetics and Systems Analysis 41.4 (Juli 2005), S. 619–630.

[53] Lothar Sachs. Angewandte Statistik – Planung und Auswertung – Methoden undModelle. 4. Aufl. Berlin: Springer DE, 1974.

[54] Robert P. Schumaker, Osama K. Solieman und Hsinchun Chen. Sports Data Mi-ning. 1st. Springer Publishing Company, Incorporated, 2010.

[55] Paola Sebastiani, Maria M. Abad und Marco F. Ramoni. ”Bayesian Networks“.In: Data Mining and Knowledge Discovery Handbook. Hrsg. von Oded Z. Maimonund Lior Rokach. Berlin, Heidelberg: Springer, 2005, S. 193–226.

[56] Armin Shmilovici. ”Support Vector Machines“. In: Data Mining and KnowledgeDiscovery Handbook. Hrsg. von Oded Z. Maimon und Lior Rokach. Berlin, Hei-delberg: Springer, 2005, S. 257–273.

[57] Alex J. Smola und Scholkopf Bernhard. A Tutorial on Support Vector Regression.Zuletzt besucht am 09.06.2013. URL: http://alex.smola.org/papers/2003/SmoSch03b.pdf.

[58] SPIEGEL.de. Fußball-WM: Lehmanns Geheimnis geluftet. Zuletzt besucht am24.06.2013. URL: http://www.spiegel.de/sport/fussball/fussball-wm-lehmanns-geheimnis-gelueftet-a-438988.html.

[59] TAGESBLATT.de. Wie die Firma Impire die Spieldaten in der Fußball-Bundesligaerfasst. Zuletzt besucht am 03.06.2013. URL: http://www.tagblatt.de/Home/sport/ueberregionaler-sport_artikel,-Wie-die-Firma-Impire-die-Spieldaten-in-der-Fussball-Bundesliga-erfasst-_arid,170716.html.

[60] Ben Van Calster, Smits Tim und Sabine Van Huffel. ”The Curse of ScorelessDraws in Soccer: The Relationship with a Team’s Offensive, Defensive, andOverall Performance“. In: Journal of Quantitative Analysis in Sports 4.1 (2008),S. 1–24.

[61] Claude B. Vincent und Byron Eastman. ”Defining the Style of Play in the NHL:An Application of Cluster Analysis“. In: Journal of Quantitative Analysis in Sports5.1 (2009), S. 1–23.

[62] Lars Wallrodt und Udo Muras. Die Trainer Tuchel und Klopp zeigen, wie es geht. Zu-letzt besucht am 05.05.2013. URL: http://www.welt.de/sport/fussball/bundesliga/1-fsv-mainz/article9886638/Die-Trainer-Tuchel-und-Klopp-zeigen-wie-es-geht.html.

121

Page 131: Data Mining im Fußball - OPUS 4 | Home · Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches Wissen auto-¨ matisch aus einer großen Menge von

[63] Bjorn Wannhoff. Ist Herrmann das neue Super-Fohlen? Zuletzt besucht am05.05.2013. URL: http : / / www . t - online . de / sport / fussball /bundesliga / id _ 53378844 / patrick - herrmann - tritt - in - die -fussstapfen-von-marco-reus.html.

[64] WELT.de. BVB–Star Nuri Sahin wechselt zu Real Madrid. Zuletzt besucht am12.05.2013. URL: http://www.welt.de/sport/fussball/bundesliga/borussia - dortmund / article13360770 / BVB - Star - Nuri - Sahin -wechselt-zu-Real-Madrid.html.

[65] WELT.de. Gotze wechselt fur 37 Millionen zum FC Bayern. Zuletzt besuchtam 12.05.2013. URL: http : / / www . welt . de / sport / fussball /article115517510/Goetze-wechselt-fuer-37-Millionen-zum-FC-Bayern.html.

[66] Brady T. West und Madhur Lamsal. ”A New Application of Linear Modelingin the Prediction of College Football Bowl Outcomes and the Development ofTeam Ratings“. In: Journal of Quantitative Analysis in Sports 4.3 (2008), S. 1–21.

[67] Ian H. Witten, Eibe Frank und Mark A. Hall. Data Mining: Practical Machine Lear-ning Tools and Techniques – Practical Machine Learning Tools and Techniques. 3. Aufl.Amsterdam: Elsevier, 2011.

[68] Andreas Zell. Simulation neuronaler Netze. 1. Aufl. Deutschland: Addison-Wesley, 1994.

122