Knowledge DiscoveryErzeugung künstlicher Telekommunikationsdaten
(Teil II)
Markus Höchstötter
Michael Wenzelburger
Agenda
Problemstellung Lösungsansatz Implementierung Performance Feedback
Problemstellung
Generierung von TelKo Daten Input:
Verteilung, Parameter Wahrscheinlichkeitsmodell
Output: TelKo Mikrodaten (Gespräche) Beginn, Dauer, Tarifzone
Problemstellung
TelKo Datenstruktur Gesprächsdauer/ Belegungsdauer Einfallsabstand
ln-Normalverteilung durch Transformation
2exp
2
1)(
2uxfy
) ln(
) ln( ) ln(
x
m
Q
x xu
ProblemstellungGesprächsdauerdichte
0 1 2 3 4 5 6 7 8
Gesprächsdauer in Minuten
Rel
ativ
e H
äufig
keit
Agenda
Problemstellung Lösungsansatz Implementierung Performance Feedback
Lösungsansatz
Erzeugung von einzelnen Kunden
Erzeugung von einzelnen Gesprächsdaten für jeden Kunden mit Zeitstrahlmodell
Erzeugung von Kunden
Kundengruppen unterteilt nach Telfonierverhalten
Ziehung der kundenspezifi-schen Parameter mit ZV aus Kundengruppen
Erzeugung von Gesprächsdaten Generierung für einzelnen
Kunden Beginn bei Null Fortlaufende Ziehung von
Gesprächsdauer und Zwischengesprächsabstand
Ermittlung der Tarifstruktur vor jeder Ziehung
Zeitenstrahl
t=0
}Zwischenzeit 1
t1
Gespräch 1
t2
Ziehung:•Tarifzone (Ort, Nah, Fern)•Gesprächsdauer
} Abhängig vom
Startzeitpunkt
t3
}Zwischenzeit 2
...
Agenda
Problemstellung Lösungsansatz Implementierung Performance Feedback
Implementierung
Eingabe Ziehung Generierung Ausgabe
Eingabe
Festlegung der Rahmen-bedingungen Klassen Tarifzonen Anschlussarten Zeitfenster WoEnde / Werktag Dirac
Eingabe
Einlesen der Verteilungs-parameter SHV: diskrete Verteilung Mittelwert/Streuung für Gesprächs-
dauer und Einfallabstand Prozentsatz der gleichverteilten
Gesprächsdauern
Ziehung
Diskretes Ziehen: Kundenklasse Anschlussart Tarifzone
Gleichverteilte Z-Zahl zwischen 0 und 1
Ziehung
Beispiel:
Zufallszahlen:
Tarifzone Ort Nah FernP(x) absolut 22 15 18P(x) relativ 0,4 0,27 0,33P(x) kumuliert 0,4 0,67 1
0,44 => Nah
0,76 => Fern
0,54 => Nah
0,01 => Ort
Ziehung
Stetiges Ziehen: Gesprächdauer Zwischenankunftszeit
Normalverteilte Z-Zahl Transformation
)*exp( )1,0( NLN xx
Ziehung
Beispiel: µ = 2, = 1.5 Z-Zahl xN(0,1) = -0.7
Transformation
xLN = exp(1.5*(-0.7) +2) = 2.59
Generierung
Bestimmung des Kunden Klasse Anschlussart
Alternierende Ziehung von ZAK und Gesprächsdauer
Generierung
ZAK durch Ziehung einer ZZ und deren Transformation
Dirac Tarifzone in abh der akt Zeit
und Klasse Gesprächslänge unter
Berücksichtigung von Zeitfensterüberlauf
Augabe
Kunde Kunden ID Klasse Anschluss
Gespräch Kunden ID Tarifzone Beginn Dauer
Agenda
Problemstellung Lösungsansatz Implementierung Performance Feedback
Performance
Abbildungsgenauigkeit Bandbreite Datenvolumen
Abbildungsgenauigkeit
Gesprächsdauer 100 Kunden 8 * 86400 sec = 8 Tage kein Dirac
soll ist AbweichungMue 1 1,09 9%Sigma 1 0,82 18%Mue 2 1,97 2%Sigma 1 1,12 12%Mue 5 4,99 0%Sigma 1 0,99 1%Mue 3 2,95 2%Sigma 1 1,08 8%Mue 7 7,07 1%Sigma 1 1,25 25%
5. Versuch
1. Versuch
2. Versuch
3. Versuch
4. Versuch
Abbildungsgenauigkeit
Tarifzonen 100 Kunden 8 * 86400 sec = 8 Tage
soll ist AbweichungOrt 60% 59,8% 0,4%Nah 15% 15,2% 1,3%R50 10% 10,4% 3,7%R200 10% 9,7% 2,7%DE 5% 4,9% 1,5%Summe 100% 100,0% 0,0%
Abbildungsgenauigkeit
Klassen 10000 Kunden 3 Anschlussarten 2 Klassen
soll ist AbweichungAnzahl 3000 2970 1%AS 1 2400 2341 2%AS 2 450 469 4%AS 3 150 160 7%Anzahl 7000 7030 0%AS 1 4200 4071 3%AS 2 2100 2229 6%AS 3 700 730 4%
Klasse 2
Klasse 1
Abbildungsgenauigkeit
Sehr exakte Abbildung der Tarifzonen bzw. Klassen
Ausreichend genaue Abbildung der Gesprächsdauer bzw. ZAK große Werte genauer abgebildet
als kleine
Bandbreite / Datenvolumen 1000 Kunden mit
realitätsnahen Parametern 5 Kundenklassen 5 Tarifzonen
650 sec Laufzeit 26.000 kB Gesprächsdaten 10 kB Kundendaten
Agenda
Problemstellung Lösungsansatz Implementierung Performance Feedback
Feedback
Wahrscheinlich zu detaillierte Parameterstruktur
Hindernis Datenschutz Datenbankanbindung Zeitfenster alle gleichlang
Fragen