Hadoop 2.x HDFS Cluster Installation (VirtualBox)

کارگاه پردازش داده توزیع شده

پردیس- شهیدبهشتی

دانشکده علوم و مهندسی کامپیوتر

پایگاه داده توزیع شدهدرس:

دکتر هادی طباطباییاستاد:

ابوالفضل صدیقی ارائه: ۱۳۹۳آذر

Apache Hadoop 2.x Cluster Installation

Amir Sedighi@amirsedighi

http://hexican.com

Dec 2014

References

● http://hadoop.apache.org/docs/r2.2.0/

● http://www.vasanthivuppuluri.com/hadoop/installing-hadoop-2-5-1-on-64-bit-ubuntu-14-01/

● https://sites.google.com/site/hadoopandhive/home

Topics

● Assumptions

● First Node

– Installing Java

– Downloading and Extracting Hadoop

– Hadoop and Java Env Variables

– Disabling IP6

– Configuring Hadoop

● Cloning

● HDFS– Starting HDFS

● HDFS Health● FS Commands● Reclaiming Space● Reducing Replication Factor

Assumptions

● You already know about Linux.

– http://www.slideshare.net/AmirSedighi/distrinuted-data-processing-workshop-sbu

Installing Java

● $ sudo apt-get install default-jdk

Downloading and Extracting

● http://hadoop.apache.org/releases.html

● $ tar -zxvf hadoop-2.2.0.tar.gz

Hadoop and Java Env Variables

● Append the following definitions to /etc/profile or ~/.bashrc

export HADOOP_PREFIX="/home/amir/hadoop-2.2.0"

export HADOOP_HOME=$HADOOP_PREFIX

export HADOOP_COMMON_HOME=$HADOOP_PREFIX

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

export HADOOP_HDFS_HOME=$HADOOP_PREFIX

export HADOOP_MAPRED_HOME=$HADOOP_PREFIX

export HADOOP_YARN_HOME=$HADOOP_PREFIX

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

export JAVA_HOME=/usr/java/jdk1.7.0_55

export PATH=$PATH:$JAVA_HOME/bin:/home/amir/hadoop-2.2.0/bin:/home/amir/hadoop-2.2.0/sbin

Disabling IP6

● $ sudo nano /etc/sysctl.conf

# Disable IPv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

Hadoop Configuration

● You would need to create or modify the following files inside hadoop/etc/hadoop:

– slaves

– core-site.xml

– yarn-site.xml

– hdfs-site.xml

– hadoop-env.sh

slaves

● List all DataNodes in slaves file.

slave1

slave2

slave3

slaves

Create slaves in hadoop/etc/hadoop folder:

etc/hosts and hadoop/etc/hadoop/slaves

core-site.xml

● Edit core-site.xml and apply the following:

<name>fs.defaultFS</name>

<description>NameNode URI</description>

</property>

</configuration>

core-site.xml

yarn-site.xml<configuration>

<name>yarn.resourcemanager.hostname</name>

<description>The hostname of the RM.</description>

</property>

<name>mapreduce.framework.name</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

</configuration>

yarn-site.xml

hdfs-site.xml

<name>dfs.datanode.data.dir</name>

<value>file:///home/amir/hadoop-2.2.0/hdfs/datanode</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///home/amir/hadoop-2.2.0/hdfs/namenode</value>

</property>

</configuration>

hdfs-site.xml

hadoop-env.sh

● Add the following:

– export JAVA_HOME=/usr/java/jdk1.7.0_55

Reboot

● $ sudo reboot

Cloning

● Extend the cluster by cloning.

– NOTE: Find the instruction here:● http://www.slideshare.net/AmirSedighi/distrinuted-data-

processing-workshop-sbu

● The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.

● It has many similarities with existing distributed file systems. However, the differences from other distributed file systems are significant.

● HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware.

● HDFS provides high throughput access to application data and is suitable for applications that have large data sets.

● HDFS relaxes a few POSIX requirements to enable streaming access to file system data.

● HDFS was originally built as infrastructure for the Apache Nutch web search engine project. HDFS is part of the Apache Hadoop Core project.

HDFS Architecture

DataNodes

start-dfs.sh

HDFS Health

● $ jps

– NameNode

– DataNode

● Check log files● Web UI

– http://u01:50070

HDFS Health

HDFS Health, Live Nodes

Hadoop FS Commands

● cat

● chmod

● chown

● copyFromLocal

● copyToLocal

● cp

● du

● expunge

● get

● ls

● mkdir

● put

● rm

● tail

HDFS Commands

Space Reclamation

● Delete Files

– $ hadoop fs -rm /filename

– $ hadoop fs -expunge

● Decrease Replication Factor

How to change replication factor of existing files in HDFS

● To set replication of an individual file to 4:

– hadoop dfs -setrep -w 4 /path/to/file

● You can also do this recursively. To change replication of entire HDFS to 1:

– hadoop dfs -setrep -R -w 1 /

Questions?

Hadoop 2.x HDFS Cluster Installation (VirtualBox)

Data & Analytics

Hadoop with Python - apphosting.io · 2016-10-11 · Hadoop Distributed File System (HDFS) The Hadoop Distributed File System (HDFS) is a Java-based dis‐ tributed, scalable, and

HDFS HA セミナー #hadoop

Apache Hadoop - A Deep Dive (Part 1 - HDFS)

Apache Hadoop YARN, NameNode HA, HDFS Federation

Hadoop, HDFS and MapReduce

Hadoop Distributed File System(HDFS) : Behind the scenes

Hadoop & HDFS for Beginners

Überblick Hadoop Einführung HDFS und MapReduce - doag.org · Inhalt Seite 3 1 Apache Hadoop 2 Hadoop Distributed File System (HDFS) 3 MapReduce Überblick Hadoop 4 MapReduce im

HDFS: Hadoop Distributed File Systemeecs.csuohio.edu/~sschung/cis612/LectureNotes_HadoopFinal_1.pdf · Hadoop Distributed File System (HDFS) p: HDFS • HDFS Consists of data blocks

Hadoop with Python · 2018. 7. 19. · Hadoop Distributed File System (HDFS) The Hadoop Distributed File System (HDFS) is a Java-based dis‐ tributed, scalable, and portable filesystem

Hadoop & HDFS Final

JerrinJoseph Hadoop ppt - · PDF fileRelies on principles of Distributed File System. HDFS have a Master-Slave ... Non-Posted Write by Hadoop HDFS OPERATION. HDFS ... Architecture

Map reduce & HDFS with Hadoop

Einführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem · Inhalt Seite 3 1 Was ist Hadoop? 2 Hadoop Distributed File System (HDFS) 3 MapReduce Einführung in die Hadoop-Welt

Introduction to Hadoop and HDFS

Hadoop Interacting with HDFS

Session2 - Hadoop Distributed File System...Hadoop Distributed File System (HDFS) What For Today!!! HDFS Features & Design Goals HDFS Operation Principle Data Locality, Rack Awareness

What's new in Hadoop Common and HDFS

HADOOP Interacting with HDFS - Meetupfiles.meetup.com/18978602/University Program - Interacting With HDFS.pdf · HADOOP Interacting with HDFS 1 For University Program on Apache Hadoop

Hadoop with Python - Amazon Web Services · CHAPTER 1 Hadoop Distributed File System (HDFS) The Hadoop Distributed File System (HDFS) is a Java-based dis‐ tributed, scalable, and