View
4.570
Download
0
Category
Preview:
DESCRIPTION
Citation preview
BIGDATA ET DONNÉES SEO
Vincent Heuschling@vhe74
mercredi 5 décembre 12
AGENDA AFFINI-TECH
SEO ?
TRAITER et ANALYSER
MESURER
OUTILS
EVOLUTION DES MOYENS
mercredi 5 décembre 12
© 2012 Affini-Tech - Diffusion restreinte
3 PILIERS
3
Une démarche intégrée de bout en boutIntégration, Mise en Oeuvre, Conseil et Formation
Business&
Analyses
Technos SciencesBigDataHadoopNoSQL
Cloud
Méthodes projetsOutils de reporting& Data-visualisation
ModélisationStatistiques (R)Machine Learning
mercredi 5 décembre 12
© 2012 Affini-Tech - Diffusion restreinte 4
BigData Data-Science Décisionnel
CollecterStocker Traiter
AnalyserValoriser
PrésenterOrganiser
Votre infrastructure Notre Cloud
mercredi 5 décembre 12
SEO ?
Optimiser le trafic d'un site web issu des moteurs de recherche.
Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches
Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence
mercredi 5 décembre 12
CONTEXTE 100 millions de visites par mois
Patrimoine informationnel très riche
Business model basé sur la pub
Marché ultra concurrentiel
Plus de 15 Go de log par jour (sous-traités)
Appliance Teradata de 12 To compressés + SAS
mercredi 5 décembre 12
COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source
mercredi 5 décembre 12
DÉMARCHE SEO
Collecter
AnalyserProduire
Mesurer
mercredi 5 décembre 12
Similarités et Classifications
Recommandation & intelligence collective
OpenData
TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ?
mercredi 5 décembre 12
OUTILS
Collecter
Pig
Traiter Analyser
mercredi 5 décembre 12
TYPES DE REQUETES
Analyse par zones de géographique
Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité fine)
Impact du Crawl sur les visites
mercredi 5 décembre 12
PIPELINE
Logs Visitesseo
Data géo-écoInsee
Crawlseo
Similarit. Urls.
mercredi 5 décembre 12
IMPACT DU CRAWL
Projection et croisement de 2 sources Visites Crawl
Pig COGROUP
Patterns sur TS
mercredi 5 décembre 12
LONG TAIL
Très grosses concentrations d’activités sur certaines localités.
1: 30032: 39910: 24350: 100100: 54500: 4
Map/Reduce !!
PIG Skewed joins
mercredi 5 décembre 12
HEATMAPS
Activités (10500)
Départements(96)
Volume de visites
mercredi 5 décembre 12
MESURER : RANKINGS
Collecte des réponses Google (30x par recherche = dizaines de millions par mois)
Forte croissance de la volumétrie
Classifier et Segmenter par produit, par thématiques.
mercredi 5 décembre 12
mercredi 5 décembre 12
OUTILS
Collecter
Pig
Traiter
D3.js
VisualiserStocker
Analyser
mercredi 5 décembre 12
MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails
{ univers : ‘‘restaurants’’,métrique : 250,regions : [‘‘idf ’’, ‘‘paca’’],sousMétriques : [
{petitesVilles : 80},{moyennesVilles : 70},{grandesVilles : 100},]
}
Univers Catégories
n n
Métriques
Localités
n
n
mercredi 5 décembre 12
RÉSULTATS
mercredi 5 décembre 12
EVOLUTIONS ?
Plus de temps réel : Impala, Spark/Shark ?
Bases de données colonnes pour les données pure SQL ?
Utilisation d’Elasticsearch pour indexer les données raffinées ?
mercredi 5 décembre 12
GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR)
mercredi 5 décembre 12
© 2012 Affini-Tech - Diffusion restreinte
MERCI !
Vincent Heuschling
Gsm : 06 61 88 76 71
Email : vhe@affini-tech.com
Web : http://www.affini-tech.com
Twitter : @affinitech & @vhe74
24
mercredi 5 décembre 12
Recommended