22
QWANT VS GOOGLE : QUELLES DIFFÉRENCES ENTRE LES DEUX MOTEURS ? Sylvain Peyronnet

Qwant sylvain peyronnet Webcampday 2016 Angers

Embed Size (px)

Citation preview

Page 1: Qwant sylvain peyronnet Webcampday 2016 Angers

QWANT VS GOOGLE : !

QUELLES DIFFÉRENCES ENTRE LES DEUX

MOTEURS ?

Sylvain Peyronnet

Page 2: Qwant sylvain peyronnet Webcampday 2016 Angers

SYLVAIN PEYRONNET

chief scientist @Qwanthead @the machine in the middle

head @ix-labs

@speyronnet

Page 3: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

• Y a-t-il une réalité au delà du marketing ?

Page 4: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?DES ALTERNATIVES QUI N’EN SONT PAS…

Jan Pedersenchief scientist des deux

(et de altavista)

powered by depuis oct 2015

powered by de 2009 à oct 2015

Marissa Mayer

Page 5: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?DES ALTERNATIVES QUI N’EN SONT PAS…

Jan Pedersenchief scientist des deux

(et de altavista)

powered by depuis oct 2015

powered by de 2009 à oct 2015

Marissa Mayer

Même type d’algorithmes, même vision du search, même vision éthique, même gestion des données utilisateurs, et même : même personnel (le jeu des

chaises de la silicon valley)

Page 6: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

• Y a-t-il une réalité au delà du marketing ?

Crée en 2007, opérationnel à partir de 2010

Le mécanisme à son paroxysme (algo+humain)

Maintenant fermé, devenu la brique de crawl de IBM

Watson

Page 7: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

• Y a-t-il une réalité au delà du marketing ?

Crée en 2009, technos d’inférence de Mathematica

Moteur de réponses

En frontal face au knowledge graph désormais

Page 8: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

• Y a-t-il une réalité au delà du marketing ?

Vison éthique différente : respect de la vie privée et des

données users

Pas de filter bubble

Mais pub via Yahoo!-Bing ^^et metamoteur principalement

Page 9: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

• Y a-t-il une réalité au delà du marketing ?

Parlons en…

Page 10: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

Vison éthique différente : respect TOTALE de la vie

privée et des données users

Cela implique une algorithmique différente…

Neutralité des résultats

Page 11: Qwant sylvain peyronnet Webcampday 2016 Angers

L’ALTERNATIVE ?UNE ALTERNATIVE C’EST QUELQUE CHOSE DE

DIFFÉRENT !

Vison éthique différente : respect TOTALE de la vie

privée et des données users

Protection de la jeunesse

Qwant junior ce n’est pas un safe search, c’est un safe index

Page 12: Qwant sylvain peyronnet Webcampday 2016 Angers

QWANT L’INSTANT CORPORATE

9Le moteur de recherche qui respecte la vie privée© Copyright Qwant 2015, tous droits réservés

Les réalisationsde Qwant à ce jour

développement centrée sur l’optimisation de ses produits et de sa technologie.

2011/12 2013 2014 2015Les promesses de QwantSécurité, confidentialité et

respect de la vie privée

Année de création de Qwant

Développement & Lancement

Première version

Nouveau lancement

Le nouveau Qwant

Optimisation

Produits & Technologies

Etap

esde

s pr

odui

tsEt

apes

de la

soc

iété

Phas

esde

dév

elop

pem

ent

Mai 2013Lancement de la 1ère

version de Qwant en France

Avril 2015Le nouveau Qwant est lancé en France

et en Allemagne

Janvier 2016Lancement de Qwant Junior

dans les écoles

Mars 2014Lancement de la 1ère version de Qwant en

Allemagne

Juin 2014Axel Springer Digital

Ventures investit

Résultats généraux et réseaux sociaux intégrés

ensemble dans la recherche

Ajout de nouveaux produits

Création des carnets permettant aux utilisateurs de collecter et partager des

informations sur Qwant

Préparation pour l’internationalisation

Priorité à l’infrastructure, la sécurité et le crawling

Qualité des résultats optimisés et nouvelle interface utilisateur

Structure responsive optimisée pour les mobiles

Amélioration de la partinence des algorithmes

et de la sémantique

Page 13: Qwant sylvain peyronnet Webcampday 2016 Angers

QWANT L’INSTANT CORPORATE

France : presque 16 M, DDG en France : moins de 10 M

Page 14: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS UNE VISION QUI A UN IMPACT TECHNIQUE

Vison éthique différente : respect TOTALE de la vie

privée et des données users

Neutralité des résultats

Protection inconditionnelle de la jeunesse

Page 15: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS PROTÉGER LA JEUNESSE

93% des garçons et 62% des filles voient du des contenus inappropriés pendant l’adolescence, depuis du porn « standard » jusqu’à des contenus extrêmes (violence, animaux, etc.)

La première exposition est majoritairement accidentelle (pour tous les types de contenus)

Page 16: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS PROTÉGER LA JEUNESSE

NDD in the blacklist?

is there an adult disclaimer?

TLD is .xxx?

Decision forest

C0 C1 C2 C3 C4 C5 C6 C7 C8 C9

Score computation

Score > thresold?

URL

ADULT

SAFE

YES

YES

YES

YES

Blacklist update

NO

99,7% de réussite (meilleur score mondial)!

Faux négatif 2,1%Faux positif 4,5%!

Et ça suffit car l’index étant « safe » on tue le « PR » des sites adultes survivants, et ils n’ont pas de texte borderline donc…

Page 17: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS FAIRE AUSSI BIEN, PLUS VITE ET MOINS CHER

Priorité des moteurs : trouver les pages de qualité

• Il faut travailler le dyptique popularité-pertinence. • Pour TOUS les moteurs, la popularité vient d’un modèle de

surfeur aléatoire. Qwant ne fait pas exception à la règle!• Nous avons développé notre propre algorithme, nommé

Iceberg, qui classe les pages par importance, en utilisant les propriétés structurelles du graphe du web.

• Cet algorithme est extrêmement rapide : un gain de performance de 20% est atteint par notre prototype.

Page 18: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS PETIT OURSON DE CHINE

Priorité des moteurs : trouver les pages de qualité

• Il faut attraper les tricheurs ;)• Pour cela on a crée un classifieur qui

prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM

0.00

0.25

0.50

0.75

1.00

0.0 0.1 0.2

Prop

ortio

n du

buc

ket

Qualité Spam Basse Haute

0.00

0.05

0.10

0.15

0.0 0.1 0.2Densité du terme le plus fréquent

Prop

ortio

n du

dat

aset

C5.0 WITH BOOSTING : RULES EXAMPLES

Warning there are thousands of them

Rule 0/1: (10, lift 6.9)V5 <= 0.04518272V7 = frV10 > 30V11 > 3.217044V21 > 0.6142424V27 > 0.3736264-> class A [0.917]

Rule 0/2: (8, lift 6.8)V7 in {asso.fr, com.fr, gouv.fr}-> class A [0.900]

Rule 0/3: (8, lift 6.8)V4 > 161V4 <= 293V5 > 0.03825137V7 = comV10 > 27V11 > 3.36462V11 <= 4.018884V27 > 0.3108108-> class A [0.900]

Rule 0/38: (8/1, lift 8.0)V4 > 161V5 <= 0.03825137V7 = comV10 <= 35-> class D [0.800]

Rule 0/39: (8/1, lift 8.0)V7 in {co.uk, co.za, gov, net, tv}V27 <= 0.09433962-> class D [0.800]

Rule 0/40: (3, lift 8.0)V4 > 42V4 <= 157V5 > 0.04518272V7 = frV10 > 27V10 <= 30V11 <= 3.547176-> class D [0.800]

Rule 6/60: (4.4, lift 3.4)V4 <= 232V7 = comV10 <= 30V11 > 5.681883V21 > 0.6461539V27 > 0.09433962-> class E [0.843]

Rule 6/61: (4.3, lift 3.4)V4 <= 293V5 > 0.07861369V7 = comV10 > 30V10 <= 34V11 > 4.261965-> class E [0.842]

Rule 6/62: (4, lift 3.3)V5 > 0.0659824V7 = comV10 <= 34V11 <= 4.261965V27 > 0.2943089-> class E [0.833]

Page 19: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS PETIT OURSON DE CHINE

Priorité des moteurs : trouver les pages de qualité

• Il faut attraper les tricheurs ;)• Pour cela on a crée un classifieur qui

prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM

0.00

0.25

0.50

0.75

1.00

0.0 0.1 0.2

Prop

ortio

n du

buc

ket

Qualité Spam Basse Haute

0.00

0.05

0.10

0.15

0.0 0.1 0.2Densité du terme le plus fréquent

Prop

ortio

n du

dat

aset

C5.0 WITH BOOSTING : RULES EXAMPLES

Warning there are thousands of them

Rule 0/1: (10, lift 6.9)V5 <= 0.04518272V7 = frV10 > 30V11 > 3.217044V21 > 0.6142424V27 > 0.3736264-> class A [0.917]

Rule 0/2: (8, lift 6.8)V7 in {asso.fr, com.fr, gouv.fr}-> class A [0.900]

Rule 0/3: (8, lift 6.8)V4 > 161V4 <= 293V5 > 0.03825137V7 = comV10 > 27V11 > 3.36462V11 <= 4.018884V27 > 0.3108108-> class A [0.900]

Rule 0/38: (8/1, lift 8.0)V4 > 161V5 <= 0.03825137V7 = comV10 <= 35-> class D [0.800]

Rule 0/39: (8/1, lift 8.0)V7 in {co.uk, co.za, gov, net, tv}V27 <= 0.09433962-> class D [0.800]

Rule 0/40: (3, lift 8.0)V4 > 42V4 <= 157V5 > 0.04518272V7 = frV10 > 27V10 <= 30V11 <= 3.547176-> class D [0.800]

Rule 6/60: (4.4, lift 3.4)V4 <= 232V7 = comV10 <= 30V11 > 5.681883V21 > 0.6461539V27 > 0.09433962-> class E [0.843]

Rule 6/61: (4.3, lift 3.4)V4 <= 293V5 > 0.07861369V7 = comV10 > 30V10 <= 34V11 > 4.261965-> class E [0.842]

Rule 6/62: (4, lift 3.3)V5 > 0.0659824V7 = comV10 <= 34V11 <= 4.261965V27 > 0.2943089-> class E [0.833]

Page 20: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS LA NEUTRALITÉ ET LES NEWS

Les news : besoin de réactivité et de neutralité • Il faut faire vite• mais une fois que vous choisissez un sujet qui vous intéresse,

Qwant vous propose toutes les sources là où d’autres moteurs ne propose que la source principale selon l’algorithme.

• Il faut attraper les tricheurs ;)• Pour cela on a crée un

classifieur qui prédit la qualité des pages (haut, bas, spam)

Page 21: Qwant sylvain peyronnet Webcampday 2016 Angers

RECHERCHE ET ALGOS LA NEUTRALITÉ ET LES NEWS

Les news : besoin de réactivité et de neutralité !

• Une brique de crawl et récupération des données • Un système de création de l’index des news qui s’appellent

Mozart.• Une chaîne de traitement algorithmique du nom de Tweezer,

concentre les principaux algos : • extraction du contenu des pages,• analyse du texte et catégorisation• extraction des médias• clustering• repérage des entités (« ils font l’actu »)

Page 22: Qwant sylvain peyronnet Webcampday 2016 Angers

Questions ?

Loutre priant les dieux du Search - circa 2016