Faculté Polytechnique
Étudiant d'un jour en PolytechDe l'annuaire de sites à la recherche sociale: 15 ans
d'évolution
Dr Ir Robert Viseur
Etudiant d'un jour en Polytech - L'informatique, une affaire d'ingénieur! - Entre réseaux sociaux, vie privée et infrastructure.Mons, le 23 février 2012.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 2
De l'annuaire à la recherche sociale
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 3
1994 : création de Yahoo!
Yahoo! démarre comme annuaire de sites Internet.
Principe des « Pages Jaunes » adapté à la recherche de sites.
Problèmes ? Fastidieux travail humain...
De classement des sites dans des catégories.
De mise à jour des informations (évolution des contenus, liens morts).
Pas de prise en compte du contenu textuel du site.
Croissance rapide du nombre de sites Internet.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 4
1995 : création d'Altavista
Premier moteur de recherche Web commercial.
Deux parties importantes : Le « spider » qui parcourt le Web en passant
de lien hypertexte en lien hypertexte, et découvre ainsi les pages Web disponibles.
L' « indexeur » qui structure le texte contenu dans les pages Web d'une manière qui facilite la recherche par mot-clef.
Points forts : Il découvre les contenus et procède aux
mises à jour de manière automatique. Il permet la recherche « plein texte »
(fulltext). Pour chaque recherche, les documents
sont classés en fonction de la fréquence d'apparition du mot-clef recherché.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 5
1998 : création de Google
Premier moteur de recherche prenant en compte la popularité des pages Web.
Même principe qu'Altavista mais... Google analyse en plus les relations
entre pages Web. Les pages les plus souvent citées sont
jugées plus intéressantes. Chaque page est ainsi associée à un
score d'autorité (= Pagerank). Pour chaque recherche, les pages sont
classées en fonction de leur pertinence (fréquence d'apparition du mot-clef recherché et Pagerank).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 6
Les autres innovations de Google
Cluster de PC : Pour « motoriser » son moteur, Google
renonce aux coûteux serveurs haut de gamme (serveurs « Alpha » chez Altavista) et utilise un cluster (groupe) d'ordinateurs standards à bas prix.
« Light is better » : Google passe d'une page portail
(Altavista) à une simple « boîte » de recherche.
Publicité contextuelle : Google comprend très vite l'intérêt de
proposer une publicité discrète et contextualisée. Google AdWords est lancé en 2000 ;
Google Adsense, en 2003.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 7
Quelques raisons au succès initial de Google
Une gestion raisonnable de la propriété industrielle. Le brevet du Pagerank a été déposé par l'Université Stanford en
1997.
Une pertinence supérieure à celle des concurrents. Google présente en 1998 une pertinence supérieure à son principal
concurrent, Altavista.
Une capacité d'indexation supérieure à celle des concurrents.
Les performances de l'algorithme de classement et la flexibilité du cluster de PC permettent l'augmentation rapide de la taille de l'index (nombre de pages enregistrées).
Une rentabilité rapidement atteinte. Google est rentable dès 1998 et dépasse les 100 millions de dollars
de CA dès 2001.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 8
Google aujourd'huiDiversification des activités. Moteurs spécialisés (Google News,
Google Images, Google Books, Google Scholar,...).
Vidéos (achat de Youtube). Cartographie (Google Maps). Mails (Gmail) et bureautique en mode
SaaS (Google Docs). Outils : navigateur Chrome et OS
mobile Android (maîtrise de l'expérience utilisateur).
...
Évolution continue de l'algorithme de classement.
Ajout de filtres, évolution du Pagerank (Trustrank ?), recherche universelle,...
Un échec (?) : les réseaux sociaux.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 9
2004 : création de Facebook
Réseau social (synchrone) permettant :
la création d'un profil détaillé (plus ou moins privé),
la publication d'informations (statuts, vidéos, photos,...).
Facebook pourrait atteindre 1 milliard d'utilisateurs inscrits à l'été 2012 !
Microsoft commence à exploiter les « Like » / « J'aime » de Facebook.
But : personnaliser les résultats des recherches dans le moteur de recherche Bing...
Et améliorer la pertinence globale des résultats de recherche ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 10
2006 : création de Twitter (1/2)
Twitter est un outil de réseau social (asymétrique) et de microblogage.
Les utilisateurs postent des messages de 140 caractères (max.). Le « tweet » (gazouillis) est comparable
à un SMS.
Application du principe « Keep it Simple, Stupid ».
Twitter laisse les pratiques émerger (plutôt que de les « forcer »), et les accompagne.
Twitter permet aux utilisateurs de développer leurs propres services via une API publique.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 11
2006 : création de Twitter (2/2)
De 2009 à 2011, Google a indexé les tweets publics.
Surtout, Twitter a émergé comme plate-forme de recherche d'information « temps réel »
Complément aux moteurs de recherche d'actualités comme Google News.
Exemple : séisme du 12 janvier 2010 en Haïti.
Les informations « chaudes » sont « retweetées » (« RT », « hashtags »). La révolution égyptienne sur Twitter ↑
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 12
Chercher... Oui, mais quoi, et comment ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 13
Bien utiliser les outils de recherche
Les outils de recherche sont : diversifiés, puissants, éphémères (parfois).
Donc, il faut être capable de : les découvrir, en exploiter les fonctionnalités cachées (ou peu
connues), croiser l'information.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 14
Diversité des outils de recherche
Exemples : Infobel : annuaire de personnes et d'entreprises. Banque Carrefour des Entreprises : documents officiels des
entreprises. Who is : recherche d'information sur les noms de domaine. Facebook, Twitter, LinkedIn,... : recherche de profils utilisateurs. Google Images : recherche avancée d'images et de photos. Google Books : recherche dans les livres. Google Scholar : recherche dans les articles scientifiques. Google Web : recherche d'informations générales (principe de la
« recherche universelle »). Google Maps / Streetview : vue satellite / vidéo des villes. ...
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 15
Fonctions avancées des outils de recherche
Exemple (Bing) : Par défaut : recherche par mot-clef. Opérateurs booléens : AND, OR, NOT. Opérateurs avancés (support variable dans le temps!) :
« site: » : permet de cibler la recherche sur un site. « filetype: » : permet de restreindre la recherche à un type de
fichier. « feed: » : permet de trouver des flux RSS. « loc: » : permet de restreindre la recherche aux sites associés
à un pays donné. « ip: » : permet de lister les sites hébergés à la même adresse
IP (= adresse associée à chaque ordinateur connecté). ...
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 16
Croisement d'informations
Voir la recherche d'informations comme une enquête policière...
Existence d'outils intégrés.
Exemple: recherche d'informations personnelles. 123People (cf. www.123people.com).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 17
Exemple n°1 – Spam « Euro Software » (1/2)
280 euros sur une licence Windows Vista, 900 euros sur une licence Photoshop...
Bonne affaire ou véritable arnaque ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 18
Exemple n°1 – Spam « Euro Software » (2/2)
Que dit whois.org ? Le nom de domaine a été déposé le 16/05/2008 par un certain
liu bin / wu han huoche zhan / 410214, semble-t-il basé à Beijing (Chine).
Que dit loc8ip.com ? Le site a pour adresse « 211.49.115.57 » et est hébergé en
Corée du Sud.
Que dit bing.com ? Le serveur « 211.49.115.57 » (opérateur « ip: ») héberge des
sites clones (comme zasofta.com ou dasofte.com) mais aussi plusieurs sites de casino en ligne (netgamemagic.com, eurocasinoajy.com, gamenetmagic.net, casinorichdot.net, www.eurocasinoajn.com,...).
→ conclusion : à éviter...[Test fait le 31 mai 2008]
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 19
Sur DH.Net : « Voici l'accusatrice de Koekelberg » (cf. shrl.be/000087).
Pas de nom, uniquement un prénom et une photo (avec un bandeau sur les yeux). Anonymat respecté ?
Exemple n°2 - « Voici l'accusatrice de Koekelberg » (1/2)
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 20
Exemple n°2 - « Voici l'accusatrice de Koekelberg » (2/2)
Procédure: Ouvrir un onglet Google Images. Transférer la photo dans la zone de
recherche. Prendre le premier résultat (page avec
photo originale sans bandeau) :
Laurence Vxxxxxxxxr
GSM : 0476/6x.xx.x1
Remarque: la photo originale a depuis été retirée du site.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 21
Du cluster au réseaux de fermes d'ordinateurs
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 22
Altavista en 1998
140 millions de documents indexés.
13 millions de requêtes par jour.
20 serveurs multiprocesseurs 64 bits Digital Alpha.
(chiffres : wikipedia.org, searchenginewatch.com)
← Évolution des citationsdans les livres (via Google Books).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 23
Google en 2011
40 milliards de pages indexées. Contre 8 milliards de pages indexées et 1 billion d'URLs
traitées en 2008
Trafic : 1 milliard de requêtes par jour sur Google.com.
Plus d'un million de serveurs (ordinateurs). Pour faire quoi ?
Gérer (= collecter, indexer, mettre à jour, etc.) le volume croissant de données. Moteur de recherche mais aussi services annexes : Google Mail, Google
Docs, Picassa, etc. Répondre aux requêtes des utilisateurs.
A comparer aux 6.000 serveurs détenus en 2003, et 400.000 en 2006 (wikipedia.org).
Soit ~2% des ordinateurs au monde (!).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 24
Datacenters Google
Installation de Ghlin : plus de 250 millions d'investissements locaux, et la mobilisation de multiples métiers de l'ingénieur !
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 25
Pourquoi s'installer à Ghlin ?
Plus de 100ha de zoning encore disponibles.
Zoning bien fourni en infrastructures.
Alimentation électrique, fibre optique,...
Présence du canal en bordure de zoning.
Important pour le refroidissement !
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 26
Un challenge : le refroidissement
Comment refroidir 100.000 ordinateurs fonctionnant en parallèle ?
Par de la climatisation ? Trop coûteux ! Solution ?
Le refroidissement par eau !
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 27
L'installation près de l'eau
Le datacenter est construit le long d'un canal ou d'un fleuve.
L'eau y est pompée, puis épurée.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 28
L'évacuation de la chaleur
Les ordinateurs (modèle conçu par Google) sont installés dans des containers optimisant la circulation et l'évacuation de la chaleur.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 29
L'évacuation de la chaleur
La chaleur des machines est extraite dans le datacenter via un système de refroidissement (air → eau), puis...
L'eau chaude est refroidie à l'extérieur du datacenter via un système de refroidissement (eau → air).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 30
La quête de l'efficacité énergétique
But de ce dispositif ? Améliorer l'efficacité
énergétique du datacenter. C'est-à-dire abaisser son
PUE (Power Usage Effectiveness).
Intérêt pour Google ? Moins de CO² émis... Et coûts d'exploitation plus
faibles !
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 31
Que peut-on faire d'autre ?
Optimiser les logiciels utilisés dans les datacenters. Exemple : Facebook (30.000 ordinateurs en 2011) utilise une version
compilée du langage PHP (compilateur HipHop).
Développer des ordinateurs ayant besoin de moins d'électricité et chauffant moins.
Exemple : Google utilise son propre modèle de serveur.
Placer au maximum les centres de données dans des pays froids, et y concentrer la charge.
Exemple : Google a récemment construit un datacenter à Hamina en Finlande (alimenté par l'eau de la mer).
Investir dans les énergies renouvelables. Exemple : OVH (Roubaix, France ; premier hébergeur européen)
dispose d'éoliennes pour son datacenter de Strasbourg.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 32
Et si vous expérimentiez par vous-mêmes ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 33
Le Web en tant que plate-forme
Évolution : 1995 : l'utilisateur d'Internet est un consommateur passif de
contenu. 2005 : l'utilisateur d'Internet peut être co-producteur de
contenus et de services (« Web 2.0 »). Il est en contact permanent avec les autres utilisateurs
→ Réseaux sociaux. Il rédige des articles sur des journaux participatifs, poste des
commentaires sur les blogs, alimente l'encyclopédie collaborative Wikipédia, etc. → Co-création, « User Generated Contents », « crowdsourcing », etc.
Il peut développer de nouveaux services en s'aidant des Interfaces de Programmation d'Applications (APIs) proposée par certains sites Internet. → Co-création, « Web as a Platform », mashups, etc.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 34
Application Programming Interfaces ?
La face cachée des moteurs de recherche...
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 35
Bing API (1/2)
Que permet de faire Bing API ? Récupérer, sous une forme structurée, les résultats
d'une requête par mot-clef. Adresse : code.google.com, www.bing.com/toolbox/bingdeveloper/ . Les opérateurs, classiques ou avancés, des moteurs de
recherche sont utilisables. Exemples : « + », « - », « ip: », « loc: », etc.
Ces APIs fonctionnent généralement pour le Web (pages) mais aussi pour les actualités et les images.
Concurrents : Google Custom Search, Yahoo! Boss, etc.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 36
Bing API (2/2)
↑ Étapes :
- Récupérer les résultats d'une recherche par mot-clef sur plusieurs moteurs de recherche. - Les fusionner (les plus fréquents, les plus populaires, etc.). - Afficher un nouveau classement des résultats (principe du « métamoteur »).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 37
Que permet de faire la Twitter API ? Piloter la plate-forme sociale Twitter (dev.twitter.com).
Exemples : Récupérer les tweets postés sur la « timeline » en fonction de
mots-clefs, d'une langue ou d'une zone géographique. A condition de s'être authentifié :
Poster un tweet sur un compte Twitter depuis une application extérieure.
Récupérer l'information relative à un profil utilisateur.
... Concurrent : Facebook API.
Twitter API (1/2)
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 38
Twitter API (2/2)
← Étapes :
- Collecte des tweets par API.- Identification des sujets (i.e. news citées dans les tweets via une URL raccourcie) les plus tweetés (ici : crash d'un avion).- Sélection d'utilisateurs (pour chaque sujet).
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 39
HostIP.info API (1/2)
Que permet de faire l'API de Hostip.info ? Récupérer la localisation associée à une adresse IP
(www.hostip.info). L'adresse IP identifie « grossièrement » votre ordinateur.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 40
HostIP.info API (2/2)
← Étapes : - Localisation d'un visiteur ou d'un serveur Web sur base de l'IP (ville et pays) avec HostIP. - Géolocalisation de la ville (longitude et latitude). - Affichage sur une carte Google Maps. - Autre usage possible : affichage de publicité locale sur un site Internet.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 41
Google Maps API (1/2)
Que permet de faire Google Maps API ? Géolocaliser une adresse postale. Afficher une carte localisant un point d'intérêt à partir
de ses coordonnées GPS.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 42
Google Maps API (2/2)
← Étapes :
- Pré-requis : base de données de terrils (RW). - Conversion des coordonnées géographiques (Lambert → WGS84). - Récupération des altitudes via l'U.S. Geological Survey (API). - Affichage des terrils sur Google Maps. - Exemples d'usage : trouver des terrils exploitables pour les schistes rouges (gravier décoratif), trouver des terrils hauts et chauves pour la photographie de panoramas,... ↓
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 43
Pour passer à l'action (1/2)
Programmable Web (www.programmableweb.com).
Répertoire d'APIs (plus de 5000) et de « mashups » (plus de 6000).
(mashups = combinaison d'APIs)
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 44
Pour passer à l'action (2/2)
Il y a les APIs mais aussi : Les logiciels Open Source
(logiciels librement utilisables et modifiables). Exemple : Apache Lucene
(indexeur, permettant la création de moteurs de recherche personnalisés).
L'Open Data (bases de données téléchargeables et réutilisables). Exemple : DBPedia, la version
structurée (Web sémantique) de l'éncyclopédie en ligne Wikipédia.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 45
Conclusions
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 46
Conclusions (1/2)
Trois phases dans l'histoire des moteurs de recherche :
La collecte manuelle (annuaires). L'indexation automatique de l'information
(moteurs de recherche « plein texte »). La mise en œuvre progressive de la recherche
sociale.Les outils de recherche sont nombreux, parfois
éphémères, et proposent des fonctionnalités de recherches souvent méconnues.
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 47
Conclusions (2/2)
La mise en œuvre d'un moteur de recherche mondial suppose l'exploitation d'infrastructures importantes et énergivores.
Ces infrastructures mobilisent plusieurs métiers de l'ingénieur : production locale d'électricité, création d'ordinateurs économes, optimisation des programmes informatiques, conception de systèmes de refroidissement efficaces, ...
Les moteurs de recherche mettent souvent à disposition des interfaces de programmation d'applications.
Elles vous permettent, moyennant quelques compétences informatiques, d'expérimenter leur fonctionnement.
Elles permettent de répondre à des besoins diversifiés (pour des métiers parfois éloignés de l'informatique).
Et vous, quand commencez-vous ;-) ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 48
Quizz
Combien de serveurs étaient utilisés par le moteur de recherche Altavista en 1998 ?
Réponses : 20, 30 mille ou 100 mille ?
Quel nombre d'utilisateurs inscrits le réseau social Facebook devrait-il atteindre à l'été 2012 ?
Réponses : 100 mille, 100 millions ou 1 milliard ?
Combien d'URLs le moteur de recherche Google traitait-t-il officiellement en 2008 ?
Réponses : 140 millions, 8 milliards ou 1 billion ?
Comment les datacenters Google sont-ils refroidis ? Réponses : Par évacuation naturelle de la chaleur (convection), avec des
climatiseurs, avec de l'eau du robinet ou avec de l'eau « sale » ?
Combien d'APIs publiques pouvez-vous utiliser sur Internet ? Réponses : plus de 100, plus de 5 mille, ou plus de 100 mille ?
Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 49
Merci pour votre attention.
Des questions?