Apache Hadoop

Introdução

Apache Hadoop

Anne KellyDiógenes Peçanha

Glauco Vinicius

16 de Novembro de 2010

Tópicos

Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas

Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo

90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final

00's ???

O que é NoSQL?

Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal

O que é Hadoop?

Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de

dados através de computadores 'commodity'.

Dois principais componentes

HDFS Map/Reduce

Tolerância a falhasProcessamento distribuído

Auto-recuperaçãoAlto consumo de banda

Armazenamento em cluster

O que torna o Hadoop especial?

Máquinas são confiáveis

Máquinas possuem identidades

Sua análise permanece em apenas uma máquina

Como isso é possível?

Componentes

NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do

NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)

O Modelo de Map/Reduce

Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante

Hands on

O que é Hive?

Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces

próprios Ótimo para processamento em lote de

dados imutáveis

O que Hive não é?

Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL

Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time

Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados

Hands on

Dúvidas?

Referências

Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/

Obrigado!

Apache Hadoop - Introdução

Technology

Apache Hadoop Security - Ranger

Apache Hadoop Email Lists

Apache Hadoop Today & Tomorrow · 2019-12-21 · Apache Hadoop Projects . Programming Languages . Computation Object Storage Zookeeper (Coordination) Core Apache Hadoop Related Apache

Apache Hadoop Developer Training

Introduction Apache oozie (Hadoop workflow engine)€¦ · Hadoop Professional Training 4. Apache OOZie HandsOn Professional Training INTRODUCTION APACHE OOZIE (HADOOP WORKFLOW ENGINE)

Apache Hadoop Java API

MapReduce & Apache Hadoop

Apache Hadoop Tutorial

Apache Hadoop 3 Current Status Ajisaka - schd.wsschd.ws/hosted_files/apachebigdata2016/0d/Apache Hadoop 3 Current... · Apache Hadoop 3, Current Status Apache: ... n metrics2 sink

Apache Hadoop Releaseshadoop.apache.org/old/releases.pdf · Apache Hadoop 2.9.0 is the first release of Hadoop 2.9 line and will be the starting release for Apache Hadoop 2.9.x line

Apache hadoop q&a

Making Apache Hadoop Secure

Apache Hadoop 2.0

20100130 hadoop apache

Intro to Apache Hadoop

BIG DATA: Apache Hadoop

Python 3 + apache hadoop

Apache Spark & Hadoop

Apache hadoop hbase