Upload
webcampday
View
203
Download
0
Embed Size (px)
Citation preview
QWANT VS GOOGLE : !
QUELLES DIFFÉRENCES ENTRE LES DEUX
MOTEURS ?
Sylvain Peyronnet
SYLVAIN PEYRONNET
chief scientist @Qwanthead @the machine in the middle
head @ix-labs
@speyronnet
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
L’ALTERNATIVE ?DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersenchief scientist des deux
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
L’ALTERNATIVE ?DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersenchief scientist des deux
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
Même type d’algorithmes, même vision du search, même vision éthique, même gestion des données utilisateurs, et même : même personnel (le jeu des
chaises de la silicon valley)
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2007, opérationnel à partir de 2010
Le mécanisme à son paroxysme (algo+humain)
Maintenant fermé, devenu la brique de crawl de IBM
Watson
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2009, technos d’inférence de Mathematica
Moteur de réponses
En frontal face au knowledge graph désormais
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Vison éthique différente : respect de la vie privée et des
données users
Pas de filter bubble
Mais pub via Yahoo!-Bing ^^et metamoteur principalement
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Parlons en…
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente : respect TOTALE de la vie
privée et des données users
Cela implique une algorithmique différente…
Neutralité des résultats
L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente : respect TOTALE de la vie
privée et des données users
Protection de la jeunesse
Qwant junior ce n’est pas un safe search, c’est un safe index
QWANT L’INSTANT CORPORATE
9Le moteur de recherche qui respecte la vie privée© Copyright Qwant 2015, tous droits réservés
Les réalisationsde Qwant à ce jour
développement centrée sur l’optimisation de ses produits et de sa technologie.
2011/12 2013 2014 2015Les promesses de QwantSécurité, confidentialité et
respect de la vie privée
Année de création de Qwant
Développement & Lancement
Première version
Nouveau lancement
Le nouveau Qwant
Optimisation
Produits & Technologies
Etap
esde
s pr
odui
tsEt
apes
de la
soc
iété
Phas
esde
dév
elop
pem
ent
Mai 2013Lancement de la 1ère
version de Qwant en France
Avril 2015Le nouveau Qwant est lancé en France
et en Allemagne
Janvier 2016Lancement de Qwant Junior
dans les écoles
Mars 2014Lancement de la 1ère version de Qwant en
Allemagne
Juin 2014Axel Springer Digital
Ventures investit
Résultats généraux et réseaux sociaux intégrés
ensemble dans la recherche
Ajout de nouveaux produits
Création des carnets permettant aux utilisateurs de collecter et partager des
informations sur Qwant
Préparation pour l’internationalisation
Priorité à l’infrastructure, la sécurité et le crawling
Qualité des résultats optimisés et nouvelle interface utilisateur
Structure responsive optimisée pour les mobiles
Amélioration de la partinence des algorithmes
et de la sémantique
QWANT L’INSTANT CORPORATE
France : presque 16 M, DDG en France : moins de 10 M
RECHERCHE ET ALGOS UNE VISION QUI A UN IMPACT TECHNIQUE
Vison éthique différente : respect TOTALE de la vie
privée et des données users
Neutralité des résultats
Protection inconditionnelle de la jeunesse
RECHERCHE ET ALGOS PROTÉGER LA JEUNESSE
93% des garçons et 62% des filles voient du des contenus inappropriés pendant l’adolescence, depuis du porn « standard » jusqu’à des contenus extrêmes (violence, animaux, etc.)
La première exposition est majoritairement accidentelle (pour tous les types de contenus)
RECHERCHE ET ALGOS PROTÉGER LA JEUNESSE
NDD in the blacklist?
is there an adult disclaimer?
TLD is .xxx?
Decision forest
C0 C1 C2 C3 C4 C5 C6 C7 C8 C9
Score computation
Score > thresold?
URL
ADULT
SAFE
YES
YES
YES
YES
Blacklist update
NO
99,7% de réussite (meilleur score mondial)!
Faux négatif 2,1%Faux positif 4,5%!
Et ça suffit car l’index étant « safe » on tue le « PR » des sites adultes survivants, et ils n’ont pas de texte borderline donc…
RECHERCHE ET ALGOS FAIRE AUSSI BIEN, PLUS VITE ET MOINS CHER
Priorité des moteurs : trouver les pages de qualité
• Il faut travailler le dyptique popularité-pertinence. • Pour TOUS les moteurs, la popularité vient d’un modèle de
surfeur aléatoire. Qwant ne fait pas exception à la règle!• Nous avons développé notre propre algorithme, nommé
Iceberg, qui classe les pages par importance, en utilisant les propriétés structurelles du graphe du web.
• Cet algorithme est extrêmement rapide : un gain de performance de 20% est atteint par notre prototype.
RECHERCHE ET ALGOS PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages de qualité
• Il faut attraper les tricheurs ;)• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Prop
ortio
n du
buc
ket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2Densité du terme le plus fréquent
Prop
ortio
n du
dat
aset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are thousands of them
Rule 0/1: (10, lift 6.9)V5 <= 0.04518272V7 = frV10 > 30V11 > 3.217044V21 > 0.6142424V27 > 0.3736264-> class A [0.917]
Rule 0/2: (8, lift 6.8)V7 in {asso.fr, com.fr, gouv.fr}-> class A [0.900]
Rule 0/3: (8, lift 6.8)V4 > 161V4 <= 293V5 > 0.03825137V7 = comV10 > 27V11 > 3.36462V11 <= 4.018884V27 > 0.3108108-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)V4 > 161V5 <= 0.03825137V7 = comV10 <= 35-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)V7 in {co.uk, co.za, gov, net, tv}V27 <= 0.09433962-> class D [0.800]
Rule 0/40: (3, lift 8.0)V4 > 42V4 <= 157V5 > 0.04518272V7 = frV10 > 27V10 <= 30V11 <= 3.547176-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)V4 <= 232V7 = comV10 <= 30V11 > 5.681883V21 > 0.6461539V27 > 0.09433962-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)V4 <= 293V5 > 0.07861369V7 = comV10 > 30V10 <= 34V11 > 4.261965-> class E [0.842]
Rule 6/62: (4, lift 3.3)V5 > 0.0659824V7 = comV10 <= 34V11 <= 4.261965V27 > 0.2943089-> class E [0.833]
RECHERCHE ET ALGOS PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages de qualité
• Il faut attraper les tricheurs ;)• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Prop
ortio
n du
buc
ket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2Densité du terme le plus fréquent
Prop
ortio
n du
dat
aset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are thousands of them
Rule 0/1: (10, lift 6.9)V5 <= 0.04518272V7 = frV10 > 30V11 > 3.217044V21 > 0.6142424V27 > 0.3736264-> class A [0.917]
Rule 0/2: (8, lift 6.8)V7 in {asso.fr, com.fr, gouv.fr}-> class A [0.900]
Rule 0/3: (8, lift 6.8)V4 > 161V4 <= 293V5 > 0.03825137V7 = comV10 > 27V11 > 3.36462V11 <= 4.018884V27 > 0.3108108-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)V4 > 161V5 <= 0.03825137V7 = comV10 <= 35-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)V7 in {co.uk, co.za, gov, net, tv}V27 <= 0.09433962-> class D [0.800]
Rule 0/40: (3, lift 8.0)V4 > 42V4 <= 157V5 > 0.04518272V7 = frV10 > 27V10 <= 30V11 <= 3.547176-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)V4 <= 232V7 = comV10 <= 30V11 > 5.681883V21 > 0.6461539V27 > 0.09433962-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)V4 <= 293V5 > 0.07861369V7 = comV10 > 30V10 <= 34V11 > 4.261965-> class E [0.842]
Rule 6/62: (4, lift 3.3)V5 > 0.0659824V7 = comV10 <= 34V11 <= 4.261965V27 > 0.2943089-> class E [0.833]
RECHERCHE ET ALGOS LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité • Il faut faire vite• mais une fois que vous choisissez un sujet qui vous intéresse,
Qwant vous propose toutes les sources là où d’autres moteurs ne propose que la source principale selon l’algorithme.
• Il faut attraper les tricheurs ;)• Pour cela on a crée un
classifieur qui prédit la qualité des pages (haut, bas, spam)
RECHERCHE ET ALGOS LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité !
• Une brique de crawl et récupération des données • Un système de création de l’index des news qui s’appellent
Mozart.• Une chaîne de traitement algorithmique du nom de Tweezer,
concentre les principaux algos : • extraction du contenu des pages,• analyse du texte et catégorisation• extraction des médias• clustering• repérage des entités (« ils font l’actu »)
Questions ?
Loutre priant les dieux du Search - circa 2016