22
Classification Classification automatique en automatique en Web Web Usage Mining Usage Mining Alzennyr Da Silva Alzennyr Da Silva CAPES Brésil CAPES Brésil Université Paris Dauphine Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Projet AxIS, INRIA Rocquencourt [email protected] [email protected]

Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt [email protected]

Embed Size (px)

Citation preview

Page 1: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

Classification automatique Classification automatique en en Web Usage MiningWeb Usage Mining

Alzennyr Da SilvaAlzennyr Da Silva

CAPES BrésilCAPES Brésil

Université Paris DauphineUniversité Paris Dauphine

Projet AxIS, INRIA RocquencourtProjet AxIS, INRIA Rocquencourt

[email protected][email protected]

Page 2: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

22

PlanPlan

MotivationMotivation ObjectifsObjectifs Description des donnéesDescription des données ClassificationsClassifications RésultatsRésultats ConclusionsConclusions

Page 3: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

33

MotivationMotivation

• Dans de nombreuses situations, les utilisateurs d’un site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple :

– les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site.

– La présence d’hyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche d’utilisateurs indécis.

Page 4: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

44

ObjectifsObjectifs

Les parcours des utilisateurs seront modélisés par des navigations

• Rechercher et découvrir des groupes de navigations afin de définir des comportements d’utilisateurs sur ce site.

• Grouper les pages d’un site Web en appliquant la méthode de classification classification sur les données d’usage

• Etablir des liens ou des corrélations entre ces comportements d’utilisateurs et des groupes de pages du site Web en fonction de l’usage.

Page 5: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

55

Description des Description des données «données «clickstream»»

• Le site du Centre d’Informatique (CIn) de Recife/Brésil: www.cin.ufpe.br nous servira d’exemple. Ce site est réalisé à partir d’un ensemble de servlets programmées en Java• Le site est petit et bien organisé :

91 pages arbre de pages d’une hauteur maximale de 5

• Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes

Page 6: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

66

Description des données Description des données (site Web)(site Web)

Page 7: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

77

Description des données Description des données (structure sémantique)(structure sémantique)

Par la Par la conception des conception des pages nous pages nous avons une avons une grande diversité grande diversité de liens.de liens.

Page 8: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

88

194.78.232.8 - - [10/Sep/2001:15:33:43 +0200] "GET /orion/liens.htm HTTP/1.1" 200 1893 "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"

lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/ HTTP/1.0" 200 1012 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)"

lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/home.html HTTP/1.0" 200 483 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)"

lucy.ins.cwi.nl - - [10/Sep/2001:15:34:09 +0200] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)"

194.78.232.8 - - [10/Sep/2001:15:34:09 +0200] "GET /orion/Telescope/Telescope.html HTTP/1.1" 200 4433 "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"

lucy.ins.cwi.nl - - [10/Sep/2001:15:34:10 +0200] "GET /stacs2002/cfp.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)"

194.78.232.8 - - [10/Sep/2001:15:34:23 +0200] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"

Fragment d’un fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction d’une navigation

Exemple de fichier log WebExemple de fichier log Web

Page 9: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

99

Format standard d’un fichier logFormat standard d’un fichier log

[ip] [name] [login] [date] [url] [status] [size] [referrer] [agent]

ipip adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise

name/loginname/login supposent que l’utilisateur se soit lui-même identifié

datedate  date et heure précises de réception de la requête.

URLURL adresse de la page visitée sur le site (www.<…>)

statutstatut code retour qui indique si l’action s’est bien déroulée.

size size  indique la taille du fichier retourné.

referrerreferrer  signale l’adresse de laquelle a effectué la requête, la page de provenance

agentagent  le navigateur et le type de système d’exploitation de l’utilisateur

Page 10: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1010

Schéma des méthodesSchéma des méthodes

navi

gatio

nsna

viga

tions

pagespages

n1

n2

n3

.

.

.

(p1 p2 p3…)(p1 p2 p3…) (p1 p2 p3…)

.

.

.typologie de navigations

dissimilarité entre pages

d2,1 d3,1 d3,2

d4,1 d4,2 d4,3

classification croisée

Page 11: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1111

Navigation Pages visitées (nombre de réquisitions)

Navigation 1Home (1),The Informatics' center (3),PhD (2), ...

Navigation 2People (1),Professor (2), Post-graduation (3), ...

Navigation 3Post-graduation (2),Specialization (2),Research (3), ...

Navigation 4How to be a student (2),Registrations and Information (4), Coordination/Secretariat (1), ...

… …

Le tableau de donnéesLe tableau de données

11241124 navigations navigations ont été réalisées en ont été réalisées en

Octobre 2002Octobre 2002

91 91 pages

Page 12: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1212

Trois approches classificatoires

• (1) Construction d’une typologie de comportements d’utilisateurs

• (2) Visualisation des interactions entre les pages via les données de l’usage

• (3) Analyse de l’interaction entre des groupes de pages et des comportements d’utilisateurs

Page 13: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1313

(1) RésultatsRésultats

Registrations and Information [54%][54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration

Information [3%][3%] SpecializationConcentration areas

Graduation [9%][9%] ProfessorsPeople The Informatics' center Phones News Services HomeInfrastructureSectors

Publications [35%][35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent

Page 14: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1414

(1) Confirmation par l’analyse Confirmation par l’analyse factorielle des correspondancesfactorielle des correspondances

Page 15: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1515

(2) Choix de la dissimilarité

Jaccard

binaire

Cosinus

comptage

Tf x idf

comptage

Page 16: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1616

(2) Visualisation des distances Visualisation des distances entre pagesentre pages

Page 17: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1717

(3) Classification croiséeClassification croisée

Cette méthode a été proposée par Gérard Govaert (1995)

Objectif: – classer simultanément les lignes et les colonnes d’un

tableau de comptages

Modèle relationnel BD: facile d’extraire un tableau de comptage

Ligne: une navigation représente l’ensemble des clics d’un utilisateur

pendant un parcours sur le site (30mn)

Colonne: une page représente le nombre de visites de cette page

durant une navigation

Page 18: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1818

(3) Table de confusion entre les thèmes et les comportements

Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications

Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total

Navigation_ 1 328 1390 140 466 381 2705

Navigation_ 2 48 81 14 128 618 889

Navigation_ 3 133 86 63 1223 163 1668

Navigation_ 4 41 58 625 67 56 847

Navigation_ 5 31 3686 45 118 40 3920

Navigation_ 6 480 151 18 126 43 818

Total 1061 5452 905 2128 1301 10847

Page 19: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

1919

(3) Relations entre les thèmes et les comportements

The

me_

1

The

me_

2

The

me_

3

The

me_

4

The

me_

5

Navigation_ 1

Navigation_ 3

Navigation_ 5

0

1

2

3

4

5

6

7

8

9

Navigation_ 1

Navigation_ 2

Navigation_ 3

Navigation_ 4

Navigation_ 5

Navigation_ 6

Thème 3

Navigation 4

Page 20: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

2020

(3) Les pages dans les différents thèmes

Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives

In the region In the informatics' center

Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources

Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000

New internal regiment

Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications

Classe : 5 People Professors Administrative Coordinators Direction Support Management

Page 21: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

2121

ConclusionsConclusions

• Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à l’ensemble à classer

• Nous avons identifié quatre groupes dominants d’utilisateurs

• Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing

Page 22: Classification automatique en Web Usage Mining Alzennyr Da Silva CAPES Brésil Université Paris Dauphine Projet AxIS, INRIA Rocquencourt Alzennyr.Da_Silva@inria.fr

RIA’s 2006RIA’s 2006

2222

Merci de votre attention.Merci de votre attention.