Ept0 D Hadoop X tÜ (I) Installation and Application Guide of Hadoop …pearl.cs.pusan.ac.kr/~wiki/images/f/ff/TR13-02-ocs.pdf · 2015-01-18 · Ept0 —˛D \Hadoop $X \' tÜ(I) Installation

$Page 1: Ept0 D Hadoop X tÜ (I) Installation and Application Guide of Hadoop …pearl.cs.pusan.ac.kr/~wiki/images/f/ff/TR13-02-ocs.pdf · 2015-01-18 · Ept0 —˛D \Hadoop $X \' tÜ(I) Installation$
빅데이터 분석을 위한 Hadoop 설치 및 활용가이드 (I)

Installation and Application Guide of Hadoopfor Big-data Analysis (I)

옥창석

부산대학교 컴퓨터공학과, 그래픽스 응용 연구실

[email protected]

Abstract

최근 전 세계적으로 빅데이터가 이슈화되고 있다. 소셜 네트워크의 발달로 글로벌화된정보들이 수없이 생겨나고 있고 이렇게 방대한 데이터를 처리하기 위한 다양한 방법들이

제시되고있다.그중 Hadoop이라는맵리듀스기반의분산처리프레임워크는오픈소스이며설치 및 사용이 간단하여 많은 사람들이 사용하고 있다. 본 보고서에서는 Hadoop의 응용에앞서 Hadoop을설치하고시스템의환경을설정하는방법을소개한다.그리고 Hadoop을이용하여 기본적인 분산처리환경을 구축하고 단어 수 계산하기 예제를 구동해 봄으로써 실제

Hadoop이 어떻게 동작하는지를 알아본다.

Keywords: Big-data, Hadoop, Map-Reduce, Distributed processing system

1 서론

최근소셜네트워크는물론활발한인터넷정보교류로인해방대한데이터들이생성되고있다.

이러한흐름에따라방대한데이터를분석하여시장의추세,사용자들의성격등을예측하는빅

데이터가 각광을 받고있다. 하지만 수 TB의 초 대용량 데이터를 분석하는 것은 엄청난 시스템

요구사항을필요로하기때문에기존의일반적인처리방식을사용하는것은불가능하다.따라서

다수의 소규모 시스템을 엮어 서로 상호작용하며 처리하는 방식인 분산처리기법이 다시 활발

히 연구되고 있으며, 그 중 Hadoop이라는 맵리듀스기반의 분산처리 프레임워크가 오픈소스로

공개되면서 빅데이터의 진입장벽이 낮아졌다.

Hadoop은 서버같이 대규모 시스템과 달리 비교적 불안정한 소규모 PC를 대상으로 분산처

리작업을 하도록 설계되었기 때문에 안정성이 뛰어나며 설치 및 사용에 있어 편리하다. 또한

맵리듀스를 기반으로 하는 분산처리환경으로 인해 실제 프로그래머는 맵과 리듀스부분만을

프로그래밍하면 작업의 분할 및 할당, 결과 종합은 Hadoop 프레임워크에서 모두 자동으로 처

1

리한다. 그리고 오픈소스이기 때문에 소규모 회사 및 단체에서도 무료로 사용할 수 있으며

디버깅, 모니터링을 위한 환경도 제공한다.

본 보고서에서는 Hadoop의 사용에 앞서 Hadoop을 설치하고 기본적인 분산처리환경을 구

축하는 방법을 소개한다. Hadoop은 오픈소스이므로 웹페이지에서 무료로 다운받을 수 있으며

리눅스체제의 시스템에 설치하여 간단한 환경설정을 하는 것으로 기본적인 설치는 완료할 수

있다. 다음으로 실제 다수의 리눅스 시스템을 엮어 분산처리환경을 구축하는 방법을 소개하고

간단한 단어세기 예제를 구동해 봄으로써 정상동작 여부를 확인한다.

2 배경 지식

Hadoop은 총 세 가지 모드로 나누어진다. 첫 번째는 standalone mode로 데몬 프로세스가 동

작하지 않고 모두 단독의 JVM 내에서 동작하는 모드이다. 이 모드는 테스트와 디버그가 쉽기

때문에 개발에 적합하다. 두 번째는 pseudo-distributed mode로 Hadoop 데몬 프로세스가 로컬

컴퓨터에서 동작하므로 클러스터를 시뮬레이션 할 수 있다. 세 번째는 Fully distributed mode

로 하둡 데몬 프로세스가 여러 컴퓨터로 구성된 그룹에서 동작한다.

Standalone mode는 하둡을 설치하면 기본으로 설정된 값을 사용하면 바로 사용할 수 있

다. Pseudo-distributed mode는 약간의 설정파일을 수정함으로써 환경을 구축할 수 있고, Fully

distributed mode는 pseudo-distributed mode에서 약간의 인터페이스를 조절하고, 환경설정을

수정함으로써 구축할 수 있다.

본격적인 설치과정에 들어가기에 앞서, 간단하게 Hadoop에서 사용하는 용어를 정리하면

아래의 표 1과 같다.

표 1: Hadoop에서 사용하는 용어 목록.

영문표기 한글표기 의미

HDFS 하둡 분산 파일시스템 다수의 클러스터를 제어하는 분산 파일시스템

NameNode 네임노드 파일시스템 메타데이터 관리와 컨트롤 서비스 제공

DataNode 데이터노드 블록 저장과 읽기 서비스 제공

Master 마스터 파일시스템을 관리하고 클라이언트의 접근을 통제

Slave 슬레이브 마스터에 의해 제어되는 클라이언트

Map 맵 각각의 입력 레코드를 병렬로 처리

Reduce 리듀스 모든 관련 레코드는 하나의 개체로 처리

JobTracker 잡트레커 Job의 제출, 모니터링, task 관리TaskTracker 테스크트레커 Map/Reduce task 관리

2

3 Hadoop의 설치 및 환경설정

Hadoop은 Java기반으로 동작하기 때문에 Java를 다룰 수 있는 JDK가 설치되어 있어야 한

다. JDK는 아래의 사이트에서 다운받아 바로 설치하면 된다 [1]. 본 보고서에서는 java-1.6.0-

openjdk-1.6.0.0.x86 64를 리눅스상에서 yum을 이용하여 설치하였다.

http://www.oracle.com/technetwork/java/javase/downloads/index.html

[ #yum install java-1.6.0-openjdk java-1.6.0-openjdk-devel ]

Apache Hadoop은다양한버전이존재하며다음의사이트에서다운받을수있다 [2].다음의

사이트 아무데서나 다운받으면 된다.

http://hadoop.apache.org/releases.html#Download

http://ftp.daum.net/apache/hadoop/common/

현재 2.0.3-alpha버전까지릴리즈되었으며,안정적인버전으로는 1.0.4까지릴리즈되어있다.

본보고서에서는안정적인버전인 Hadoop-1.0.4를이용하여설치및환경설정과정을진행한다.

기본적인설치방법은아래의사이트에영문으로잘나타나있으며,본보고서에서는이를요약

및 정리하여 실제 환경에 적용하는 과정을 설명한다. 또한 본 보고서에서 다루는 Hadoop의

모드는 리눅스 (CentOS 6.2) 기반의 pseudo-distributed mode이며 향후 fully-distributed mode

를 설치하고 설정하는 방법을 다룰 예정이다.

Hadoop을 설치하는 방법은 다음과 같은 순서로 진행된다 [3].

1. Hadoop 다운로드 (hadoop-1.0.4.tar.gz) 및 압축해제

2. Hadoop 환경변수 등록

3. Hadoop configuration 파일 수정

4. Hadoop 네임노드 포멧

3.1 Hadoop 다운로드 및 압축해제

hadoop-1.0.4.tar.gz버전을 아래의 사이트에서 다운받는다.

http://mirror.apache-kr.org/hadoop/common/stable/hadoop-1.0.4.tar.gz

3

다운받은파일을리눅스가설치된시스템으로옮긴다.이과정은리눅스시스템에서바로다

운받으면생략가능하다.다운받은파일을원하는위치로옮긴후다음의명령어를통해압축을

풀어준다. 본 보고서에서는 CentOS 6.2버전에서 csock계정을 이용하여 /home/csock/hadoop/

을 작업 디렉토리로 설정하였다.

[ csock#tar -xvzf hadoop-1.0.4.tar.gz ]

만약 파일에 대한 접근 권한이 없다면 관리자계정을 이용하여 권한을 풀어준다.

[ root#chmod 777 hadoop-1.0.4.tar.gz ]

3.2 Hadoop 환경변수 등록

압축해제가완료되었으면, csock계정의 profile을수정하여 hadoop의바이너리파일을디렉토리

지정없이 사용할 수 있도록 한다.

[ csock#cd ]

[ csock#vi .bash profile ]

.bash profile 파일의 내용을 아래와 같이 수정한다.

export JAVA HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86 64

export PATH=$PATH:/home/csock/hadoop/hadoop-1.0.4/bin

현재 설정에 수정된 사항을 적용한다.

[ csock#source .bash profile ]

정상적으로 환경변수가 등록되었으면 아무 위치에서나 아래와 같은 명령어가 잘 실행되어

야 한다.

[ csock#hadoop version ]

Subversion https://svn.apache.org/repos/asf/hadoop/common/branches/bran· · ·

위 명령어가 정상적으로 실행된다면 Hadoop의 설치는 모두 완료된 것이다. 이제 설치된

Hadoop의 환경설정파일을 수정하여 pseudo-distributed mode로 구동되도록 한다.

4

3.3 Hadoop configuration 파일 수정

Pseudo-distributed mode로 구축하기 위해서는 마스터가 되는 네임노드와 슬레이브가 되는 데

이터노드를 localhost로 설정하고 각 노드들이 통신할 수 있는 환경을 설정해 주어야 한다.

환경설정파일을 수정하기 위해서 Hadoop을 설치한 디렉토리내에 있는 conf 디렉토리로

들어간다.

[ csock#cd /home/csock/hadoop/hadoop-1.0.4/conf ]

conf디렉토리내에서 hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml, masters,

slaves 파일을 수정한다.

3.3.1 hadoop-env.sh

아래의 vi명령어를 통해 hadoop-env.sh파일을 열어보면 다수의 환경설정 변수가 주석처리되어

있는것을확인할수있다.그중에서 export JAVA HOME을찾아주석을제거하고 .bash profile

에서 작성했던데로 수정한다. 그리고 HADOOP HOME을 아래와 같이 추가한다. (SUPPRESS

와 관련된 사항은 Hadoop 실행 시 경고메시지를 보지 않기 위함이다.)

[ csock#vi hadoop-env.sh ]

HADOOP HOME WARN SUPPRESS=TRUE

export HADOOP HOME WARN SUPPRESS

export JAVA HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86 64

export HADOOP HOME=/home/csock/hadoop/hadoop-1.0.4

3.3.2 core-site.xml

core-site.xml파일에서는 HDFS와 맵리듀스에 공통적으로 사용하는 I/O 등을 설정할 수 있다.

본 보고서에서는 localhost를 네임노드로 설정하였다. 포트는 일반적으로 9000번을 사용한다.

[ csock#vi core-site.xml ]

<property>

<name> f s . d e f a u l t . name</name>

<value>h d f s : // l o c a l h o s t : 9 0 0 0</ value>

</ property>

5

3.3.3 hdfs-site.xml

hdfs-site.xml에서는 네임노드와 보조네임노드, 데이터노드 등 HDFS 데몬을 설정할 수 있다.

본 보고서에서는 아래와 같이 HADOOP HOME/dfs에 name과 data 디렉토리를 만들었다.

[ csock#vi hdfs-site.xml ]

<property>

<name>d f s . name . d i r</name>

<value>/home/ csock /hadoop/hadoop −1.0.4/ d f s /name</ value>

</ property>

<property>

<name>d f s . data . d i r</name>

<value>/home/ csock /hadoop/hadoop −1.0.4/ d f s / data</ value>

</ property>

3.3.4 mapred-site.xml

mapred-site.xml에서는잡트레커와테스크트레커등맵리듀스와관련된데몬을설정할수있다.

본 보고서에서는 네임노드인 localhost의 9001번 포트에 잡트레커를 할당하였다.

[ csock#vi mapred-site.xml ]

<property>

<name>mapred . job . t r a c ke r</name>

<value> l o c a l h o s t : 9 0 0 1</ value>

</ property>

<property>

<name>mapred . system . d i r</name>

<value>/home/ csock /hadoop/hadoop −1.0.4/ mapred/ system</ value>

</ property>

<property>

<name>mapred . l o c a l . d i r</name>

<value>/home/ csock /hadoop/hadoop −1.0.4/ mapred/ l o c a l</ value>

</ property>

6

3.3.5 masters

masters파일은 마스터가 될 네임노드의 호스트명을 한 줄에 하나씩 적으면 된다. masters파일

에 적힌 노드는 보조네임노드(Secondary NameNode)가 되며, 실제 마스터인 네임노드는 core-

site.xml에 설정한 localhost이다. 즉, masters파일에 localhost를 넣게되면 localhost는 네임노드

이면서보조네임노드가되는것이다.일반적으로보조네임노드는네임노드에문제가생겼을때,

네임노드의 역할을 대신하게 되는 안정성과 관련된 것으로, 네임노드와 보조네임노드는 서로

분리된 시스템으로 설정해야 한다. 하지만 본 보고서는 pseudo-distributed mode이기 때문에

네임노드, 보조네임노드 모두 localhost로 설정한다.

[ csock#vi masters ]

localhost

3.3.6 slaves

slaves파일은 데이터노드가되어 각각의 테스크를 처리하는 노드를 한줄에 하나씩 적으면 된다.

본 보고서에서는 pseudo-distributed mode이기 때문에 localhost로 지정한다. 이렇게 함으로써

localhost가 네임노드, 보조네임노드, 데이터노드의 역할을 모두 수행하게 된다.

[ csock#vi slaves ]

localhost

3.3.7 Hadoop 네임노드 포멧

모든 설정이 끝났으면 수정한 사항을 적용하여 HDFS를 포멧해야 한다. 다음의 명령어를 이용

하여 Hadoop의 네임노드를 포멧한다.

[ csock#hadoop namenode -format ]

현재까지 conf 디렉토리내의 파일들을 수정하여 pseudo-distributed mode로 설정하는 방법

을 살펴보았다. 다음으로는 정상적으로 Hadoop이 구동되는지를 확인하기 위해 간단한 예제를

실행해 본다.

7

4 Hadoop 구동 및 예제 실행

4.1 Hadoop 구동 - 맵리듀스와 HDFS

Hadoop의 설치 및 환경설정이 끝났으면 Hadoop를 이용하여 작업을 처리하는 간단한 예제를

실행해 본다. 예제를 실행하기에 앞서 conf 디렉토리에서 수정한 파일들을 이용하여 Hadoop을

구동해야 한다. Hadoop을 구동하는 방법은 아래와 같다.

HDFS와 맵리듀스를 함께 시작 : [ csock#start-all.sh ]

HDFS와 맵리듀스를 함께 중지 : [ csock#stop-all.sh ]

HDFS만 시작 : [ csock#start-dfs.sh ]

HDFS만 중지 : [ csock#stop-dfs.sh ]

맵리듀스만 시작 : [ csock#start-mapred.sh ]

맵리듀스만 중지 : [ csock#stop-mapred.sh ]

모든 과정이 정상적으로 이루어졌다면 start-all.sh를 두 번 실행했을 때, 각각의 프로세스

번호가 출력된다. 만약 잘못되었다면 logging이라는 메시지와 함께 로그가 담긴 파일명을 출

력한다. 해당 로그는 Hadoop이 설치된 디렉토리 /home/csock/hadoop/hadoop-1.0.4/logs에 있

으며 *.log파일을 열어보면 에러메시지 등을 확인할 수 있다. 주의할 점은 *.log파일은 append

되기 때문에 가장 최근 로그를 확인하고 싶으면 아래쪽으로 내려서 확인해야 한다. 또한 그림

1과 같이 웹브라우저를 통해 현재 Hadoop 노드들의 상태를 모니터링 할 수 있다.

맵리듀스 모니터링 : http://localhost:50030

HDFS 모니터링 : http://localhost:50070

4.2 Hadoop 예제 실행 - Word Count

Hadoop을이용한구동예제는 Hadoop을설치할때같이설치된다. Hadoop을설치한폴더내에

hadoop-examples-1.0.4.jar에 다양한 예제가 내장되어 있으며, 본 보고서에서는 가장 기본적인

단어 세기(Word Count) 예제를 Hadoop을 통해 실행해 본다. 실제 예제실행에 앞서 Hadoop

은 Java를 기반으로 하고 있으며, 맵리듀스와 관련된 프로그래밍은 프로그래머가 직접 코딩

해야 한다. 즉, 데이터의 분할과 자원 관리는 Hadoop 프레임워크에서 자동적으로 수행하지만,

실제 데이터를 이용하여 처리하는 작업인 맵과 리듀스 부분은 해당 내용을 코드로 직접 작성

해야 한다. 맵파트에서는 데이터의 분할 등을 코딩하고, 리듀스 파트에서는 분산된 데이터를

8

(a) (b)

그림 1: 맵리듀스 모니터링 화면 (a)와 HDFS 모니터링 화면 (b). (a)에서는 각 노드들이맵리듀스를 수행하는 과정을 모니터링 할 수 있으며 각각 링크를 누르면 더욱 자세한 정보를

확인할 수 있다. (b)에서는 HDFS의 용량 및 살아있는 노드의 정보와 죽어있는 노드의 정보를확인할 수 있다.

통합하면서수행해야될사항을코딩한다.본예제실행에서는이미코딩되어 export된 hadoop-

examples-1.0.4.jar를 이용하여 wordcount 작업을 수행한다.

Hadoop에서 사용하는 데이터는 분산 파일시스템인 HDFS상에 존재해야하므로 Hadoop의

파일시스템 명령어를 통해 입력파일을 HDFS에 넣는다. HDFS는 기존의 리눅스 파일시스템과

는 별개로 관리되므로 반드시 Hadoop 명령어를 통해 접근하고 관리해야 한다. 본 보고서에서

단어 세기 예제에 사용하는 입력파일은 Hadoop설치 디렉토리 내에 있는 CHANGES.txt이다.

input이라는 이름의 디렉토리를 생성한다 :

[ csock#hadoop dfs -mkdir input ]

CHANGES.txt파일을 HDFS내의 input디렉토리로 넣는다 :

[ csock#hadoop dfs -put CHANGES.txt input/ ]

단어 세기 예제를 실행한다 :

[ csock#hadoop jar hadoop-examples-1.0.4.jar wordcount input output ]

단어 세기 예제를 실행하는 명령어에서 wordcount는 jar파일에 등록된 작업의 이름을 의

미하며, input은 작업에 사용할 디렉토리로 첫 번째 명령어인 mkdir을 통해 만든 디렉토리를

의미한다. 마지막 인자인 output은 단어 세기 예제를 수행한 결과를 저장한 디렉토리로 해당

디렉토리가 HDFS상에없다면자동으로생성하고결과를출력한다.단, output디렉토리가이미

9

있는경우에는에러가발생할수있으니실행시마다출력디렉토리명을바꾸어주는것이좋다.

단어 세기 결과를 확인하는 방법은 아래와 같다.

output 디렉토리에 생성된 파일 목록 확인:

[ csock#hadoop dfs -ls output ]

-rw-r--r-- 3 csock supergroup 0 2013-02-06 20:54 /user/csock/output/ SUCCESS

drwxr-xr-x - csock supergroup 0 2013-02-06 20:53 /user/csock/output/ logs

-rw-r--r-- 3 csock supergroup 160967 2013-02-06 20:54 /user/csock/output/part-r-00000

cat을 이용하여 part-r-00000파일을 확인한다. :

[ csock#hadoop dfs -cat output/part-r-00000 ]

5 결론

본 보고서에서는 Hadoop의 기본 개념과 함께 가상의 분산 환경인 pseudo-distributed mode로

설치 및 환경설정하는 방법을 알아보았다. Hadoop은 오픈소스 프로젝트로 활발하게 업그레이

드되고있으며현재 2.0.3-alpha까지릴리즈되었다.또한안정적인서버군을고려하고만들어진

것이 아니라 일반적이고 저렴한 PC환경을 고려하여 설계되었기 때문에 프레임워크 자체의 안

정성및확장성이높다.무엇보다도최근다양한분야에서끊임없이쏟아지는방대한데이터를

처리하기위한빅데이터프로젝트가상당한인기를끌고있기때문에이러한흐름에맞춰빅데

이터를 분석하는데 필요한 분산처리시스템을 사용하는 방법을 익히는 것이 중요하다. 따라서

본 보고서에서는 본격적인 활용에 앞서 Hadoop을 설치하고 가상의 분산처리환경을 구축하는

방법을 소개하고 간단한 예제를 실행해 보았다. 향후에는 실제 다수의 시스템을 이용하여 fully

distributed mode로 설정하는 방법을 소개할 예정이다.

References

[1] Oracle, “Java se developement kit,” http://www.oracle.com/technetwork/java/javase/

downloads/index.html.

[2] Apache, “Hadoop,” http://hadoop.apache.org/.

[3] 옥창석, “[빅데이터] (1) hadoop 설치 및 환경설정,” http://blog.naver.com/adonis50/

178267264.

10

Documents

Ept0 D Hadoop X tÜ (I) Installation and Application Guide of Hadoop …pearl.cs.pusan.ac.kr/~wiki/images/f/ff/TR13-02-ocs.pdf · 2015-01-18 · Ept0 —˛D \Hadoop $X \' tÜ(I) Installation