Upload
boaz-bigdata
View
743
Download
1
Embed Size (px)
Citation preview
김유현 | 모경현 | 안주연 | 지영은 | 황채은
전체 프로세스
전체 프로세스
전체 프로세스
전체 프로세스
전체 프로세스
3년 동안의
SAMPLEDATA
를 통한 가능성 파악
사람들의 마음으로 점점 들어오는 도서
분석을 위한 시각화 프로세스
사람들의 마음 속에서 점점 내려가는 도서
분석을 위한 시각화 프로세스
순위 데이터
수집 데이터
분석을 위한 시각화 프로세스
01 데이터 설명
02 데이터 변수
03 데이터 수집 전략
2012년~2014년 총 3년 동안 각 연도별로 상위 50위 안에 들은 베스트 셀러의 목록 수집
순위 / 도서명
이미 구축되어 있는 DB의 활용
사람들의 관심이 점점 증가하는 도서
분석을 위한 시각화 프로세스
사람들의 관심이 점점 감소하는 도서-장기적 패턴
분석을 위한 시각화 프로세스
사람들의 관심이 점점 감소하는 도서-단기적 패턴
분석을 위한 시각화 프로세스
서서히 관심이 증대되었다가 다시 감소하는 도서
분석을 위한 시각화 프로세스
토익
분석을 위한 시각화 프로세스
군집1
사람들의 관심이 점점 증가하는 도서
시각화를 통한 인사이트
분석을 위한 시각화 프로세스
군집2
사람들의 관심이 점점 감소하는 도서
군집3
사람들의 관심이 증대 되었다가 다시 감소하는 도서
군집4
정확한 주기가 없는 도서
군집5
토익(영어 학습) 관련 도서
군집1
사람들의 관심이 점점 증가하는 도서
시각화를 통한 인사이트
분석을 위한 시각화 프로세스
군집2
사람들의 관심이 점점 감소하는 도서
군집3
사람들의 관심이 증대 되었다가 다시 감소하는 도서
군집4
정확한 주기가 없는 도서
군집5
토익(영어 학습) 관련 도서
도서의 라이프사이클 유형
시간의 흐름에 따른 도서 출현-2012년
분석을 위한 시각화 프로세스
시간의 흐름에 따른 도서 출현-2013년
분석을 위한 시각화 프로세스
시간의 흐름에 따른 도서 출현-2014년
분석을 위한 시각화 프로세스
3년 샘플을 통해 가능성 확인
분석을 위한 시각화 프로세스
3년 샘플을 통해 가능성 확인
분석을 위한 시각화 프로세스
3년 샘플을 통해 가능성 확인
분석을 위한 시각화 프로세스
3년 샘플을 통해 가능성 확인
분석을 위한 시각화 프로세스
도서의 라이프사이클 유형
9년 동안의
BIGDATA
데이터 시각화 분석
1위온/오프라인 통합 서점 점유율
데이터 수집 논리
분석을 위한 시각화 프로세스
1위
교보문고
온/오프라인 통합 서점 점유율
데이터 수집 논리
분석을 위한 시각화 프로세스
1위
교보문고
온/오프라인 통합 서점 점유율
도서의 순위 선정에 반영
데이터 수집 논리
분석을 위한 시각화 프로세스
1위
교보문고
온/오프라인 통합 서점 점유율
1위온라인 서점 점유율
도서의 순위 선정에 반영
데이터 수집 논리
분석을 위한 시각화 프로세스
1위
교보문고
온/오프라인 통합 서점 점유율
1위
Yes 24
온라인 서점 점유율
도서의 순위 선정에 반영
데이터 수집 논리
분석을 위한 시각화 프로세스
1위
교보문고
온/오프라인 통합 서점 점유율
1위
Yes 24
온라인 서점 점유율
도서의 순위 선정에 반영 도서의 리뷰 추출에 반영
데이터 수집 논리
분석을 위한 시각화 프로세스
순위 데이터
수집 데이터
분석을 위한 시각화 프로세스
01 데이터 설명
02 데이터 변수
03 데이터 수집 전략
2006년~2014년 총 9년 동안 각 연도별로 상위 50위 안에 들은 베스트 셀러의 목록 수집
순위 / 도서명
이미 구축되어 있는 DB의 활용
수집 데이터 예시-순위
분석을 위한 시각화 프로세스
수집 데이터
분석을 위한 시각화 프로세스
01 데이터 수집 범위
02 데이터 내용
03 데이터 수집 전략
리뷰 데이터
2006년~2014년 총 9년 동안의 리뷰 수집
2006년부터 2014년까지 각 연도별로 상위 50위 안에 들은 베스트 셀러의 리뷰 수집
해당 웹사이트에서 해당 도서의 리뷰를 모두 웹 크롤링
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
날짜
분석을 위한 시각화 프로세스
날짜
리뷰
수집 데이터 예시-리뷰
분석을 위한 시각화 프로세스
수집 데이터 예시-리뷰
분석을 위한 시각화 프로세스
연도
수집 데이터 예시-리뷰
분석을 위한 시각화 프로세스
연도 리뷰
형태소 데이터
수집 데이터
분석을 위한 시각화 프로세스
01 데이터 수집 범위
02 데이터 내용
03 데이터 수집 전략
2006년~2014년 총 9년 동안의 리뷰 수집
수집한 베스트셀러의 리뷰를 형태소 단위로 분할
해당 리뷰를 형태소 분석기로 분할
형태소의 연도 별 출현량
분석을 위한 시각화 프로세스
형태소의 연도 별 출현량
분석을 위한 시각화 프로세스
형태소의 연도 별 출현량
분석을 위한 시각화 프로세스
형태소의 연도 별 출현량
분석을 위한 시각화 프로세스
2006~2014년 형태소 추세
분석을 위한 시각화 프로세스
데이터 전처리 논리
분석을 위한 시각화 프로세스
데이터 전처리 논리
분석을 위한 시각화 프로세스
데이터 전처리 논리
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-불용어
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-불용어
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-연도별 키워드
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-연도별 키워드
분석을 위한 시각화 프로세스
행복
시각화를 통한 인사이트-연도별 키워드
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-연도별 키워드
분석을 위한 시각화 프로세스
그녀
시각화를 통한 인사이트-해석 사례
분석을 위한 시각화 프로세스
시각화를 통한 인사이트-해석 사례
분석을 위한 시각화 프로세스
상처
시각화를 통한 인사이트-해석 사례
분석을 위한 시각화 프로세스
상처 라는 말에
보다 직면할 수 있게 된 현재
“ ”
약 90만개의 형태소를객관적으로 분석하는 프로세스
분석을 위한 시각화 프로세스
9년 동안의
BIGDATA인사이트 도출
연도별 키워드
분석을 위한 시각화 프로세스
연도별 키워드
분석을 위한 시각화 프로세스
연도별 키워드
분석을 위한 시각화 프로세스
2 1
분석을 위한 시각화 프로세스
연도별 키워드
일 행복
9년 동안의
BIGDATA시각화 표현
시각화 Concept
표현을 위한 시각화 프로세스
시각화 Concept
표현을 위한 시각화 프로세스
시각화 Concept
표현을 위한 시각화 프로세스
'도서 생애주기' 시각화
표현을 위한 시각화 프로세스
'도서 생애주기' 시각화
표현을 위한 시각화 프로세스
'도서 생애주기' 시각화
표현을 위한 시각화 프로세스
프로젝트 의의
프로젝트 의의
사람들의 심리&마음을 파악하는 도구로서 베스트셀러를 착안
프로젝트 의의
사람들의 심리&마음을 파악하는 도구로서 베스트셀러를 착안
연도별 도서 리뷰를 통해 사람들의 심리를 대변하는 키워드 발견
프로젝트 의의
프로젝트 의의
고유한 시각화 프로세스 정립
데이터수집 > 시각화 > 분석 > 인사이트 발견 > 시각화
프로젝트 의의
프로젝트 의의
연도별로 키워드를 추출하는 방법론
프로젝트 의의
연도별로 키워드를 추출하는 방법론
기존 형태소 분석 방법론(워드 클라우드) 범위의 확장
프로젝트 의의
연도별로 키워드를 추출하는 방법론
기존 형태소 분석 방법론(워드 클라우드) 범위의 확장
데이터에 기반한 객관적인 형태소 분석 방법론