Upload
sfsic-association
View
130
Download
0
Tags:
Embed Size (px)
DESCRIPTION
Big Data, Big machines, Big Science : vers une société sans sujet et sans causalité ? Fidelia Ibekwe-SanJuan Elico
Citation preview
Big Data, Big machines, Big Science : vers une société sans
sujet et sans causalité ?
Fidelia Ibekwe-SanJuan
1. Big Data
Just how big is BIG??
Just how big is BIG?? En 2011: 1,8 zetta-octets de données numériques disponibles
Just how big is BIG??
Just how big is BIG??
Les 4 ‘V’ du Big Data
http://www.datasciencecentral.com/profiles/blogs/data-veracity
Bref retour terminologique
Big Data
Linked Data
Open Data
Vers BOLD (Big Open Linked Data)
2. Big machines
Big Science ?
- Jim Gray, Microsoft Corporation, 2007
Big Data : 4ème paradigme scientifique ?
- Jim Gray on eScience, The Fourth Paradigm, Microsoft Corporation, 2009
La science du 21ème siècle n’est plus “science as usual”
e-Science Architecture de grille informatique en réseau Collaboration à l’échelle mondiale Génération et traitement de données massives Outils sophistiqués d’exploration des données
« e-Science n’est pas une nouvelle discipline scientifique à proprement parler : e-Science est un raccourci pour désigner l’ensemble d’outils et de technologies nécessaires pour soutenir une science dans un environnement collaboratif et réseauté. L’infrastructure de e-Science a pour but de permettre aux scientifiques de faire leurs recherches, plus vite et mieux. » - Jessie Hey (2006)
Accélérateur de particles : The Large Hadron Collider
• Construit par 10 000 scientifiques • De plus de 100 pays • Questions les lois basiques qui gouvernent les interactions et les forces entre objets élémentaires ? la structure profonde du temps et de l’espace ? l’intersection de la mécanique quantique et la théorie de la relativité générale ?
150 millions de senseurs qui délivrent des données 40 million de fois per seconde. 150 millions de péta-octets de données par an ou 500 exa-octets par jour 500 quintillions (5×1020) octets par jour, soit près de 200 fois plus que toutes les sources de données combinées au monde - http://en.wikipedia.org/wiki/Big_data
Astronomie Sloan Digital Sky Survey (SDSS)
• Début 2000 • Données récoltées : 200 GB par nuit, soit 140 téra-octets depuis le début • Large Synoptic Survey Telescope (2016) devrait acquérir ce volume de données tous les 5 jours
Astronomie Sloan Digital Sky Survey (SDSS)
http://www.ascensionnow.co.uk/is-the-universe-a-fractal.html
Le Big Data et Big Science dans les Humanités (SHS)
Défi : « Que feriez-vous avec un million de livres ou un million de pages de journaux ou de photographies ? » étant donné que vous ne pouvez pas les lire même si vous deviez y passer toute une vie ?
« investiguer comment des techniques informatiques peuvent être appliquées au “big data” afin de changer la nature des recherches en SHS »
http://www.diggingintodata.org/
3. Les paradoxes du Big Data
#1 L’industrialisation de la personnalisation
Le Big Data permet de faire du très “small”
Quand le
rentre en politique
Présidentielle américaine de 2012
vs
Orca
Narwhal
"The real innovation in 2012 is that we had world-class technologists inside a campaign’’ - Reed (Obama chief Tech)
Big Data permet de faire de la personnalisation extrême : “Les très grandes données vous permettent d’être très fin. Elles vous permettent de faire des interventions très précises et ciblées. (...) Vous voulez que votre équipe d’analyse des données soit capable de dire aux militants : “Appelez ces numéros, frappez sur ces portes, aller dans ces quartiers.” Le militant n’a pas besoin de savoir pourquoi; ils ont juste besoin de savoir qu’ils frappent sur les bonnes portes.”
Alexis C. Madrigal, When the Nerds Go Marching In, The Atlantic, 16 nov. 2012.
La présidentielle américaine 2012
#2 L’ère de la “gouvernementalité
algorithmique’’ Rouvroy et Thomas Berns (2013)
Vers une gouvernance sans gouvernés
" Big Data or Big Brother?
http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html
« Beware of filter bubbles! » - Eli Pariser
#3 Vers des savoirs immanents aux données, sans causalité et sans sujets connaissants ?
« un nouveau rapport au savoir, qui donne “l’impression d’avoir abandonné un petit peu les ambitions de la rationalité moderne, qui visait à comprendre les phénomènes en les reliant à leur cause, au profit d’une rationalité post-moderne, qui est fondée sur une logique purement statistique, donc sur la découverte de corrélations entre des données recueillies dans des contextes extrêmement divers, hétérogènes les uns aux autres, et qui sont reliés entre eux par aucun lien de causalité (...) C’est l’abandon du « savoir causal, la dévaluation de l’expérience sensible elle-même au profit du calcul.»
Rouvroy, Du rôle prédictif des données à la gouvernementalité algorithmique, 16/12/2010. http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-gouvernementalite-algorithmique/
« la donnée brute est un oxymore et une mauvaise idée. Au contraire, les données doivent être cuisinées avec beaucoup de soin» - Jeffrey Bowker (2005)
les données sont toujours insérées dans un contexte qu’il faut comprendre pour identifier les limites et les biais des jeux de données sociales manquent de profondeur et de contexte
#4 Vers des connaissances scientifiques infalsifiables ?
Science avant 21ème siècle
Science du 21ème siècle: une science expérimentale et “ad-hoc”
#5
La fin des théories scientifiques ?
- Problème de sur-ajustement important (over-fitting) - L’exigence de la reproductibilité conduit à la simplification - de réalités complexes et multidimensionnelles
Mais c’est ignorer la dimension physique et sociale des savoirs scientifiques. « Je peux encoder une belle simulation sur mon écran dans laquelle il n’y a aucune théorie de la gravité, mais si je tente de conduire ma voiture au-delà du bord d’une falaise, l’empirisme va mordre mon derrière dans ma chute.’’ - John Wilbanks (2009)
« Si l’idéal de l'apprentissage automatique est de réussir le test de Turing, c'est-à-dire qu’on n’arrive
plus à faire la différence entre le comportement d’une machine et d’un humain, alors la science a
perdu ». - Christophe Prieur (2014) Dominique Boullier, Christophe Prieur, Milad Doueihi, in Atelier Data science ? Colloque pour les 30 ans de la revue : Paris INHA 8 au 10 janvier 2014 http://revue-reseaux.univ-paris-est.fr/fr/actualites-colloque-pour-les-30-ans-de-la-revue-reseaux/document-1775.html
La science a besoin de théories !
#6 Le mythe des algorithmes
infallibles
Illusions algorithmiques
Problème de BIAIS Données collectées représentent-elles le
phénomène mesuré ? Ex. analyse des tweets durant l’ouragan Sandy
(octobre 2012) sur la côte est américaine
« Des biais cachés du Big Data » - Kate Crawford (2012)
Problème de SIGNAL
“La carte n’est pas le territoire” Alfred Korzybski (1956)
Même les cartes ne sont pas neutres, elles peuvent être partisanes !
« Des biais cachés du Big Data » - Kate Crawford
Problème d’ECHELLE - Vision panoramique d’un phénomène - Il y a des illusions de perspective - Manque de profondeur “Travailler avec le big data, c’est voir le monde à 30 000m d’altitude.”
« Des biais cachés du Big Data » - Kate Crawford
Problème d’ECHELLE
« Des biais cachés du Big Data » - Kate Crawford
Un vieux problème qui oppose sciences physiques et sciences sociales depuis le 19ème siècle - Gabriel Tarde, criminologiste.
Problème d’ECHELLE
« Des biais cachés du Big Data » - Kate Crawford
“C’est toujours la même erreur qui se fait jour : celle de croire que, pour voir peu à peu apparaître la régularité, l’ordre, la marche logique, dans les faits sociaux, il faut sortir de leur détail, essentiellement irrégulier, et s’élever très haut jusqu’à embrasser d’une vue panoramique de vastes ensembles » - Gabriel Tarde, Les lois sociales, 1898 »
Problème d’ECHELLE : en langage Latour…
« Des biais cachés du Big Data »
“To be a good sociologist one should refuse to go up, to take a larger view, to compile huge vistas! Look down, you sociologists. Be even more blind, even more narrow, even more down to earth, even more myopic » http://bruno-latour.fr/sites/default/files/82-TARDE-JOYCE-SOCIAL-GB.pdf (p. 9) »
Nécessité de demander le “pourquoi” ou le “comment” et non seulement le “combien”.
Le deuil de l’exhaustivité Le deuil de la représentativité Le deuil de l’objectivité
« 3 Deuils du Big Data » - Dominique Bouiller (2014)
Attention au data fundamentalism Attention au data mythology
Conjuguer Big Data et Small Data
Conjuguer la science du Big data et méthodes qualtiatives traditionnelles en sciences sociales Tiny data can be cute!
Des illusions algorithmiques - Kate Crawford
« J’ai vu le 4ème paradigme, et c’est nous ! »
- John Wilbanks (2009)
Merci de votre attention !
Des alternatifs ?
Infant science
Kid science
http://old.richarddawkins.net/articles/646693-17-year-old-girl-builds-artificial-brain-to-detect-breast-cancer
Citizen Science
http://www.galaxyzoo.org/
We are trying something new! Come help us understand a very specific type of galaxy and experience science from start to end. Take part
Citizen Science
Universit of Cornel Lab of Ornithology - http://ebird.org/content/ebird/
Citizen Science
www.tela-botanica.org
Créer et diffuser des biens communs au service de la connaissance et de la protection de l’environnement
Crowdsourcing culturel
Flickr Commons : espace de co-construction d’artefacts culturels numériques entre musées, bibliothèques & archives et le public