Upload
raimonda-frigerio
View
216
Download
1
Embed Size (px)
Citation preview
Analisi di dati altamente dimensionati per la
previsione dell’ascolto televisivo
Daniele ImparatoMauro Gasparini
Dipartimento di Matematica del Politecnico di Torino
Sco2005 – Bressanone, 16 Settembre 2005
Una collaborazione
RAI sede di Torino, Divisione ICT
ICTeam, una software house con sedi a Bergamo e a Torino
Dipartimento di Matematica del Politecnico di Torino
Scopo del progetto
Data warehouse dei dati sull’audience televisiva ormai assodato
Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del
palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello
Gasparini-Imparato 16/09/05
Database management
Dati prelevati dai database RAI tramite SQL SQL acronimo per Structured Query Language
Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. Linguaggio non procedurale (facile accesso ai dati) Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle
interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R
Gasparini-Imparato 16/09/05
Misurazione dell’ascolto televisivo
Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo
Misure d’ascolto: copertura lorda CL: numero di contatti al lordo delle
duplicazioni ascolto medio Am su un intervallo T: Am:= CL /T share su un intervallo T: proporzione di ascolto medio
normalizzato rispetto alla platea, in percentuale
Misure già riportate alla popolazione totale (ascolto esteso)
Gasparini-Imparato 16/09/05
Previsione dell’ascolto televisivo Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto?
(shareRAI1, shareRAI2, shareRAI3, sharealtro)
(ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) share è una composizione nel simplesso tridimensionale
mentre ascolto è una risposta in +3
Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori:
minuto: fattore di 24 livelli (ore) o predittore quantitativo? giorno della settimana: fattore di 7 livelli genere trasmesso e controprogrammazione: fattori di
17 livelli ?? mese / stagione
Gasparini-Imparato 16/09/05
Trasformazione dello share Alla generica osservazione n, poni
si dice che Y è una trasformazione logit additivo il vettore share vive nel simplesso, la trasformazione Y vive
in tutto lo spazio 3
trasformazione usata da Consonni e Giudici (1998)
Gasparini-Imparato 16/09/05
Distribuzioni normali logistiche
La sua inversa è detta logit additivo:
Trasformazione logistica additiva:
Una composizione x ha distribuzione normale logistica additiva se
Lavorando su Y si possono trattare i dati trasformati come normali multivariate
Gasparini-Imparato 16/09/05
Trasformazione dell’ascolto Alla generica osservazione n, poni semplicemente
y in= log (ascoltoin) i=1,2,3
la trasformazione Y vive in tutto lo spazio 3
utile quando la platea (il normalizzante dello share) è variabile
noi useremo questa trasformazione e la supporremo normale
platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato
dalla stima dell’ascolto ricostruiremo una stima dello share
Gasparini-Imparato 16/09/05
Modello previsivo finale
parametrico modello di regressione lineare: utile in presenza di
“buchi” e di scarsa numerosità di occorrenze passate
non parametrico media opportuna dei valori di share attraverso
proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate
Implementazione di un modello ibrido parametrico - non parametrico
Gasparini-Imparato 16/09/05
Modello parametrico finale
Scelta della risposta:
Y=log (ascoltoRAI1)
Scelta e codifica dei predittori: minuto: fattore di 24 livelli (ore del giorno)
giorno della settimana: fattore di 7 livelli genere di RAI1: fattore di 17 livelli genere di Can5: fattore di 17 livelli (controprogrammazione) log (platea): dato quantitativo inputato
Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1
Gasparini-Imparato 16/09/05
Controprogrammazione e platea L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5
RAI2 vs. Italia1 RAI3 vs. Rete4
Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati:
[platea2005]i = (0.3) *[platea2004]i + 0.25) *[platea2003]i +
+ *[platea2002]i + *[platea2001]i
(0.3) (0.25)
(0.25) (0.2)
Gasparini-Imparato 16/09/05
Scelta delle interazioni
Testati modelli con più interazioni con il test F: interazione giorno - minuto: significativa
interazione giorno - genere: non significativa
interazione genere RAI1- genere CANALE5: significativa
Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato.
Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente...
Gasparini-Imparato 16/09/05
Formulazione del modello
Modello con interazione giorno-minuto e genere1-genere5:
i=1,…,njkpm (variabile a seconda del campionamento)
j=1,…,6 ,
k,p=1,…,16,
m=1,…,23
[log(asc_individui)]ijkpm = a0 + [min]m + [giorno]j + [genere1 a0 [min]m [giorno]j [genere1]k
[genere5]p aplatea
[min:giorno]mj [genere1:genere5]kp
+ errore
+ + +
+
Gasparini-Imparato 16/09/05
+
log(platea)
Prelevamento dei dati
Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004.
sotto-campionamento casuale del DB: 2004: un dato/15 min. 2003-2002: un dato/30min 2001: un dato/1h 2000: un dato/2h
prove di sensitività al variare del sotto-campionamento casuale
Gasparini-Imparato 16/09/05
Andamento dei box-plot dell’errore per fascia oraria
Analisi dei residui
possibilità di eteroschedascticità
omogeneità alternata durante il mattino
out-liers in tarda mattinata, prime-time e second-time
Grande omogeneità nel pomeriggio e di notte
Gasparini-Imparato 16/09/05
Validazione del modello Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e
confrontato con i valori reali ad una granularità del quarto d’ora
Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello
l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005
Gasparini-Imparato 16/09/05
Risultati 7-9 marzo 2005 Confronto dell’andamento dello share reale con quello
stimato per il modello parametrico :
share reale
share stimato
il trend stimato corrisponde
grosso modo a quello reale !
Gasparini-Imparato 16/09/05
Errore e intervalli previsivi
In media l’errore è pari a 4.5 % nel 75% dei casi inferiore a 5 %
Andamento dell’errore:
Intervallo previsivo per la stima dello share:
Intervallo previsivo al 68% media dev. standard 68% delle volte lo share reale è compreso nell’intervallo
previsivo
~~ +_
I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share
Gasparini-Imparato 16/09/05
Risultati 4-6 marzo 2005 Confronto dell’andamento dello share reale con quello
stimato per il modello parametrico :
share reale
share stimato
valori anomali in prime time
e second time dovuti a Sanremo
Il modello cade in difetto !
Gasparini-Imparato 16/09/05
Il modello non parametrico
media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori
l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate
anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo
Gasparini-Imparato 16/09/05
Scelta del modello ibrido
Creiamo un modello ibrido che prenda il meglio di ognuno dei due!
Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ?
Modello parametrico: minimizza gli errori in presenza di scarse
osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato
Gasparini-Imparato 16/09/05
Calibrazione empirica del modello
modello parametrico se N < N0
modello non parametrico altrimenti
Le analisi congiunte sui due modelli suggeriscono la scelta di
N0 ~ 50 come parametro ottimale
analisi 7-9 marzo 2005 e ottobre-novembre 2004:
Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli
ulteriore riduzione degli errori:
In media l’errore è pari a 0.035 nel 75% dei casi inferiore a 0.04
Gasparini-Imparato 16/09/05
Front-end grafico del sistema prototipale
Genere in programmazio
ne
Variazione %
SHARE
Fascia oraria 16.00 – 17..00
SHARE medio
22,75
Numero di
occorrenze
SHARE atteso
Esporta
TUTTI
TUTTI
Front-end grafico nel sistema prototipale
fasciaFascia oraria
Risultati SPERIMENTALI
Numero occorren
ze
SHARE medio Varianza
%25,7725,77 3,833,83
Esporta
13121312
Lavoro futuro
Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo)
Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti)
Analisi suddivisa per target
Satellitare + digitale terrestre: cambierà tutto.
Gasparini-Imparato 16/09/05