Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico

Analisi di dati altamente dimensionati per la

previsione dell’ascolto televisivo

Daniele ImparatoMauro Gasparini

Dipartimento di Matematica del Politecnico di Torino

Sco2005 – Bressanone, 16 Settembre 2005

Una collaborazione

RAI sede di Torino, Divisione ICT

ICTeam, una software house con sedi a Bergamo e a Torino

Dipartimento di Matematica del Politecnico di Torino

Scopo del progetto

Data warehouse dei dati sull’audience televisiva ormai assodato

Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del

palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello

Gasparini-Imparato 16/09/05

Database management

Dati prelevati dai database RAI tramite SQL SQL acronimo per Structured Query Language

Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. Linguaggio non procedurale (facile accesso ai dati) Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle

interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R


Misurazione dell’ascolto televisivo

Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo

Misure d’ascolto: copertura lorda CL: numero di contatti al lordo delle

duplicazioni ascolto medio Am su un intervallo T: Am:= CL /T share su un intervallo T: proporzione di ascolto medio

normalizzato rispetto alla platea, in percentuale

Misure già riportate alla popolazione totale (ascolto esteso)


Previsione dell’ascolto televisivo Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto?

(shareRAI1, shareRAI2, shareRAI3, sharealtro)

(ascoltoRAI1, ascoltoRAI2, ascoltoRAI3, ascoltoaltro) share è una composizione nel simplesso tridimensionale

mentre ascolto è una risposta in +3

Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori:

minuto: fattore di 24 livelli (ore) o predittore quantitativo? giorno della settimana: fattore di 7 livelli genere trasmesso e controprogrammazione: fattori di

17 livelli ?? mese / stagione


Trasformazione dello share Alla generica osservazione n, poni

si dice che Y è una trasformazione logit additivo il vettore share vive nel simplesso, la trasformazione Y vive

in tutto lo spazio 3

trasformazione usata da Consonni e Giudici (1998)


Distribuzioni normali logistiche

La sua inversa è detta logit additivo:

Trasformazione logistica additiva:

Una composizione x ha distribuzione normale logistica additiva se

Lavorando su Y si possono trattare i dati trasformati come normali multivariate


Trasformazione dell’ascolto Alla generica osservazione n, poni semplicemente

y in= log (ascoltoin) i=1,2,3

la trasformazione Y vive in tutto lo spazio 3

utile quando la platea (il normalizzante dello share) è variabile

noi useremo questa trasformazione e la supporremo normale

platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato

dalla stima dell’ascolto ricostruiremo una stima dello share


Modello previsivo finale

parametrico modello di regressione lineare: utile in presenza di

“buchi” e di scarsa numerosità di occorrenze passate

non parametrico media opportuna dei valori di share attraverso

proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate

Implementazione di un modello ibrido parametrico - non parametrico


Modello parametrico finale

Scelta della risposta:

Y=log (ascoltoRAI1)

Scelta e codifica dei predittori: minuto: fattore di 24 livelli (ore del giorno)

giorno della settimana: fattore di 7 livelli genere di RAI1: fattore di 17 livelli genere di Can5: fattore di 17 livelli (controprogrammazione) log (platea): dato quantitativo inputato

Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI1


Controprogrammazione e platea L’effetto della contro-programmazione dipende dalla rete: RAI1 vs. Canale5

RAI2 vs. Italia1 RAI3 vs. Rete4

Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati:

[platea2005]i = (0.3) *[platea2004]i + 0.25) *[platea2003]i +

+ *[platea2002]i + *[platea2001]i

(0.3) (0.25)

(0.25) (0.2)


Scelta delle interazioni

Testati modelli con più interazioni con il test F: interazione giorno - minuto: significativa

interazione giorno - genere: non significativa

interazione genere RAI1- genere CANALE5: significativa

Problema: l’interazione gen1-gen5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato.

Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente...


Formulazione del modello

Modello con interazione giorno-minuto e genere1-genere5:

i=1,…,njkpm (variabile a seconda del campionamento)

j=1,…,6 ,

k,p=1,…,16,

m=1,…,23

[log(asc_individui)]ijkpm = a0 + [min]m + [giorno]j + [genere1 a0 [min]m [giorno]j [genere1]k

[genere5]p aplatea

[min:giorno]mj [genere1:genere5]kp

+ errore

+ + +

+


+

log(platea)

Prelevamento dei dati

Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004.

sotto-campionamento casuale del DB: 2004: un dato/15 min. 2003-2002: un dato/30min 2001: un dato/1h 2000: un dato/2h

prove di sensitività al variare del sotto-campionamento casuale


Andamento dei box-plot dell’errore per fascia oraria

Analisi dei residui

possibilità di eteroschedascticità

omogeneità alternata durante il mattino

out-liers in tarda mattinata, prime-time e second-time

Grande omogeneità nel pomeriggio e di notte


Validazione del modello Metodo di cross-validation: stimato lo share su RAI1 per i giorni 4-9 marzo 2005 e

confrontato con i valori reali ad una granularità del quarto d’ora

Attenzione: 4-5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello

l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4-6 e 7-9 marzo 2005


Risultati 7-9 marzo 2005 Confronto dell’andamento dello share reale con quello

stimato per il modello parametrico :

share reale

share stimato

il trend stimato corrisponde

grosso modo a quello reale !


Errore e intervalli previsivi

In media l’errore è pari a 4.5 % nel 75% dei casi inferiore a 5 %

Andamento dell’errore:

Intervallo previsivo per la stima dello share:

Intervallo previsivo al 68% media dev. standard 68% delle volte lo share reale è compreso nell’intervallo

previsivo

~~ +_

I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share


Risultati 4-6 marzo 2005 Confronto dell’andamento dello share reale con quello

stimato per il modello parametrico :

share reale

share stimato

valori anomali in prime time

e second time dovuti a Sanremo

Il modello cade in difetto !


Il modello non parametrico

media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori

l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate

anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7-9 marzo ed è caduto in difetto durante Sanremo


Scelta del modello ibrido

Creiamo un modello ibrido che prenda il meglio di ognuno dei due!

Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ?

Modello parametrico: minimizza gli errori in presenza di scarse

osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato


Calibrazione empirica del modello

modello parametrico se N < N0

modello non parametrico altrimenti

Le analisi congiunte sui due modelli suggeriscono la scelta di

N0 ~ 50 come parametro ottimale

analisi 7-9 marzo 2005 e ottobre-novembre 2004:

Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli

ulteriore riduzione degli errori:

In media l’errore è pari a 0.035 nel 75% dei casi inferiore a 0.04


Front-end grafico del sistema prototipale

Genere in programmazio

ne

Variazione %

SHARE

Fascia oraria 16.00 – 17..00

SHARE medio

22,75

Numero di

occorrenze

SHARE atteso

Esporta

TUTTI

TUTTI

Front-end grafico nel sistema prototipale

fasciaFascia oraria

Risultati SPERIMENTALI

Numero occorren

ze

SHARE medio Varianza

%25,7725,77 3,833,83

Esporta

13121312

Lavoro futuro

Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo)

Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti)

Analisi suddivisa per target

Satellitare + digitale terrestre: cambierà tutto.


Documents

Analisi di dati altamente dimensionati per la previsione dellascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico