7
Démonstration Big Data avec Hadoop Rémy DUBOIS – Component team manager Rémy DUBOIS – Component team manager

DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

Démonstration Big Data avec Hadoop

Rémy DUBOIS – Component team managerRémy DUBOIS – Component team manager

Page 2: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

© Talend 2012 2

Agenda

Hadoop en quelques mots

� HDFS: le système de fichier distribué

� MapReduce: le modèle de programmation

� L’écosystème d’Hadoop

Démonstration

Page 3: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

© Talend 2012 3

Hadoop en quelques mots

HDFS: le système de fichier distribué

� Hadoop est un framework qui permet de traiter des données distribuées.

� HDFS est le système de fichier d’Hadoop.� Les données sont répliquées.

� La donnée est localisée en fonction de son accessibilité.

� L’avantage d’Hadoop:� Extensibilité/Scalabilité du framework

Page 4: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

© Talend 2012 4

Hadoop en quelques mots

MapReduce: le modèle de programmation

� Modèle de programmation adapté à un système de fichier distribué.

� Deux étapes:� Map: Tâche réalisée sur un sous-ensemble des données.

� Reduce: Fusion des différents résultats produits par les différentes phases de Map.

Page 5: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

© Talend 2012 5

Hadoop en quelques mots

L’écosystème d’Hadoop

HBase

(ColumnarNoSQLSto

re)

Pig(Data Flow)

Hive(SQL)

MapReduce(Distributing Programming Framework)

HCatalog

(Table & Schema Management)

HDFS(Hadoop Distributed File System)

Page 6: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

© Talend 2012 6

Démonstration

Page 7: DémonstrationBig Data avec Hadoopinfo.talend.com/rs/talend/images/Talend Connect... · Hadoop en quelquesmots MapReduce: le modèlede programmation Modèle de programmation adapté

Impossible d’afficher l’image.

Merci