Upload
auben-pons
View
106
Download
2
Tags:
Embed Size (px)
Citation preview
Classification automatique Classification automatique en en Web Usage MiningWeb Usage Mining
Alzennyr Da SilvaAlzennyr Da Silva
CAPES BrésilCAPES Brésil
Université Paris DauphineUniversité Paris Dauphine
Projet AxIS, INRIA RocquencourtProjet AxIS, INRIA Rocquencourt
RIA’s 2006RIA’s 2006
22
PlanPlan
MotivationMotivation ObjectifsObjectifs Description des donnéesDescription des données ClassificationsClassifications RésultatsRésultats ConclusionsConclusions
RIA’s 2006RIA’s 2006
33
MotivationMotivation
• Dans de nombreuses situations, les utilisateurs d’un site Web doivent suivre des chemins tortueux pour atteindre les pages qu'ils recherchent, par exemple :
– les utilisateurs intéressés par des matières qui sont vues comme des matières indépendantes par le Webmaster. Elles sont donc éparpillées sur le site.
– La présence d’hyperliens peu employés car ils lient les documents qui ne sont jamais consultés ensembles. Ces hyperliens brouillent la piste de recherche d’utilisateurs indécis.
RIA’s 2006RIA’s 2006
44
ObjectifsObjectifs
Les parcours des utilisateurs seront modélisés par des navigations
• Rechercher et découvrir des groupes de navigations afin de définir des comportements d’utilisateurs sur ce site.
• Grouper les pages d’un site Web en appliquant la méthode de classification classification sur les données d’usage
• Etablir des liens ou des corrélations entre ces comportements d’utilisateurs et des groupes de pages du site Web en fonction de l’usage.
RIA’s 2006RIA’s 2006
55
Description des Description des données «données «clickstream»»
• Le site du Centre d’Informatique (CIn) de Recife/Brésil: www.cin.ufpe.br nous servira d’exemple. Ce site est réalisé à partir d’un ensemble de servlets programmées en Java• Le site est petit et bien organisé :
91 pages arbre de pages d’une hauteur maximale de 5
• Nous avons récupéré les accès au site du 26 Juin 2002 au 26 Juin 2003: le fichier de « logs » contient environ 2 Gbytes de données brutes qui, après prétraitement et nettoyage, représente 1.2 Gbytes
RIA’s 2006RIA’s 2006
66
Description des données Description des données (site Web)(site Web)
RIA’s 2006RIA’s 2006
77
Description des données Description des données (structure sémantique)(structure sémantique)
Par la Par la conception des conception des pages nous pages nous avons une avons une grande diversité grande diversité de liens.de liens.
RIA’s 2006RIA’s 2006
88
194.78.232.8 - - [10/Sep/2001:15:33:43 +0200] "GET /orion/liens.htm HTTP/1.1" 200 1893 "http://www-sop.inria.fr/orion/index.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"
lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/ HTTP/1.0" 200 1012 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)"
lucy.ins.cwi.nl - - [10/Sep/2001:15:34:07 +0200] "GET /stacs2002/home.html HTTP/1.0" 200 483 "[unknown origin]" "Mozilla/4.74 [en] (WinNT; U)"
lucy.ins.cwi.nl - - [10/Sep/2001:15:34:09 +0200] "GET /stacs2002/Images/affiche_vierge.jpg HTTP/1.0" 200 281281 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)"
194.78.232.8 - - [10/Sep/2001:15:34:09 +0200] "GET /orion/Telescope/Telescope.html HTTP/1.1" 200 4433 "http://www-sop.inria.fr/orion/liens.htm" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"
lucy.ins.cwi.nl - - [10/Sep/2001:15:34:10 +0200] "GET /stacs2002/cfp.html HTTP/1.0" 200 10334 "http://www-sop.inria.fr/stacs2002/home.html" "Mozilla/4.74 [en] (WinNT; U)"
194.78.232.8 - - [10/Sep/2001:15:34:23 +0200] "GET /orion/Telescope/Videosurveillance.html HTTP/1.1" 200 2979 "http://www-sop.inria.fr/orion/Telescope/Telescope.html" "Mozilla/4.0 (compatible; MSIE 5.0b1; Mac_PowerPC)"
Fragment d’un fichier log Web contenant 7 requêtes HTTP (unités élémentaires): Construction d’une navigation
Exemple de fichier log WebExemple de fichier log Web
RIA’s 2006RIA’s 2006
99
Format standard d’un fichier logFormat standard d’un fichier log
[ip] [name] [login] [date] [url] [status] [size] [referrer] [agent]
ipip adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise
name/loginname/login supposent que l’utilisateur se soit lui-même identifié
datedate date et heure précises de réception de la requête.
URLURL adresse de la page visitée sur le site (www.<…>)
statutstatut code retour qui indique si l’action s’est bien déroulée.
size size indique la taille du fichier retourné.
referrerreferrer signale l’adresse de laquelle a effectué la requête, la page de provenance
agentagent le navigateur et le type de système d’exploitation de l’utilisateur
RIA’s 2006RIA’s 2006
1010
Schéma des méthodesSchéma des méthodes
navi
gatio
nsna
viga
tions
pagespages
n1
n2
n3
.
.
.
(p1 p2 p3…)(p1 p2 p3…) (p1 p2 p3…)
.
.
.typologie de navigations
dissimilarité entre pages
d2,1 d3,1 d3,2
d4,1 d4,2 d4,3
classification croisée
RIA’s 2006RIA’s 2006
1111
Navigation Pages visitées (nombre de réquisitions)
Navigation 1Home (1),The Informatics' center (3),PhD (2), ...
Navigation 2People (1),Professor (2), Post-graduation (3), ...
Navigation 3Post-graduation (2),Specialization (2),Research (3), ...
Navigation 4How to be a student (2),Registrations and Information (4), Coordination/Secretariat (1), ...
… …
Le tableau de donnéesLe tableau de données
11241124 navigations navigations ont été réalisées en ont été réalisées en
Octobre 2002Octobre 2002
91 91 pages
RIA’s 2006RIA’s 2006
1212
Trois approches classificatoires
• (1) Construction d’une typologie de comportements d’utilisateurs
• (2) Visualisation des interactions entre les pages via les données de l’usage
• (3) Analyse de l’interaction entre des groupes de pages et des comportements d’utilisateurs
RIA’s 2006RIA’s 2006
1313
(1) RésultatsRésultats
Registrations and Information [54%][54%] Subjects for Master 2003 Documents Post-graduation Masters Lines of research School registration and pre-registration
Information [3%][3%] SpecializationConcentration areas
Graduation [9%][9%] ProfessorsPeople The Informatics' center Phones News Services HomeInfrastructureSectors
Publications [35%][35%] Theses and dissertations Research Technician reports Groups of research Projects of research Tutorials, manuals and class notes Honors and prizes Events of interest Events related to the Informatics' cent
RIA’s 2006RIA’s 2006
1414
(1) Confirmation par l’analyse Confirmation par l’analyse factorielle des correspondancesfactorielle des correspondances
RIA’s 2006RIA’s 2006
1515
(2) Choix de la dissimilarité
Jaccard
binaire
Cosinus
comptage
Tf x idf
comptage
RIA’s 2006RIA’s 2006
1616
(2) Visualisation des distances Visualisation des distances entre pagesentre pages
RIA’s 2006RIA’s 2006
1717
(3) Classification croiséeClassification croisée
Cette méthode a été proposée par Gérard Govaert (1995)
Objectif: – classer simultanément les lignes et les colonnes d’un
tableau de comptages
Modèle relationnel BD: facile d’extraire un tableau de comptage
Ligne: une navigation représente l’ensemble des clics d’un utilisateur
pendant un parcours sur le site (30mn)
Colonne: une page représente le nombre de visites de cette page
durant une navigation
RIA’s 2006RIA’s 2006
1818
(3) Table de confusion entre les thèmes et les comportements
Theme _3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications
Partition Theme_1 Theme_2 Theme_3 Theme_4 Theme_5 total
Navigation_ 1 328 1390 140 466 381 2705
Navigation_ 2 48 81 14 128 618 889
Navigation_ 3 133 86 63 1223 163 1668
Navigation_ 4 41 58 625 67 56 847
Navigation_ 5 31 3686 45 118 40 3920
Navigation_ 6 480 151 18 126 43 818
Total 1061 5452 905 2128 1301 10847
RIA’s 2006RIA’s 2006
1919
(3) Relations entre les thèmes et les comportements
The
me_
1
The
me_
2
The
me_
3
The
me_
4
The
me_
5
Navigation_ 1
Navigation_ 3
Navigation_ 5
0
1
2
3
4
5
6
7
8
9
Navigation_ 1
Navigation_ 2
Navigation_ 3
Navigation_ 4
Navigation_ 5
Navigation_ 6
Thème 3
Navigation 4
RIA’s 2006RIA’s 2006
2020
(3) Les pages dans les différents thèmes
Classe : 4 Graduation Home The Informatics' center News Releases Contacts Departments Localization Infrastructure Services Tunnel of the time Organization chart Resolutions Partners Clipping Courses Mission In the world In the university In the country Objectives
In the region In the informatics' center
Classe : 1 Events Events of interest Phones Extension Sectors Honors and prizes Employees Specialization Course's Structure Information Events related to the Informatics' cen UFPE for all Concentration areas Computational Resources
Classe : 2 Professors group Registrations and Information Post-graduation PhD Lines of research Subjects for Master 2005 Masters Documents Masters results Disciplines summaries Financial resources School registration and pre-registratio Address Description Orientation of School registration School registration 1/2001 APG PhD results Norms of qualification and theses propo School registration 2/2000 School registration 1/2000
New internal regiment
Classe : 3 Groups of research Research Projects of research Tutorials, manuals and class notes Technician reports Theses and dissertations Publications
Classe : 5 People Professors Administrative Coordinators Direction Support Management
RIA’s 2006RIA’s 2006
2121
ConclusionsConclusions
• Nous avons présenté plusieurs approches classificatoires, chacune a été adaptée à l’ensemble à classer
• Nous avons identifié quatre groupes dominants d’utilisateurs
• Ce type de connaissance peut être utile pour le commerce électronique en ce qui concerne les définitions de nouvelles stratégies de marketing
RIA’s 2006RIA’s 2006
2222
Merci de votre attention.Merci de votre attention.