Apache Hadoop - Introdução

Preview:

DESCRIPTION

Apresentação realizada na aula de TIN no dia 16 de novembro de 2010.

Citation preview

Introdução

Apache Hadoop

Anne KellyDiógenes Peçanha

Glauco Vinicius

16 de Novembro de 2010

Tópicos

Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas

Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo

90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final

00's ???

O que é NoSQL?

Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal

O que é Hadoop?

Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de

dados através de computadores 'commodity'.

Dois principais componentes

HDFS Map/Reduce

Tolerância a falhasProcessamento distribuído

Auto-recuperaçãoAlto consumo de banda

Armazenamento em cluster

O que torna o Hadoop especial?

Máquinas são confiáveis

Máquinas possuem identidades

Sua análise permanece em apenas uma máquina

Como isso é possível?

Componentes

NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do

NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)

HDFS

O Modelo de Map/Reduce

Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante

Hands on

O que é Hive?

Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces

próprios Ótimo para processamento em lote de

dados imutáveis

O que Hive não é?

Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL

Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time

Hive

Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados

Hands on

Dúvidas?

Referências

Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/

Obrigado!