Upload
octavius-buchanan
View
88
Download
5
Embed Size (px)
DESCRIPTION
데이터 (Data). 2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세. 강의 내 용. 데이터 (Data). 데이터 타입 데이터 품질 데이터 전처리 유사도와 거리. 데이터란 무엇인가 ?. 데이터 (Data). 데이터 집합이란 ? 속성들 (attributes) 로 구성된 데이터 객체들 (data objects) 의 모임 (Collection of data objects and their attributes) 객체는 레코드 , 점 , 엔티티 , 인스턴스 등으로 불리기도 함 - PowerPoint PPT Presentation
Citation preview
2014 년 가을학기강원대학교 컴퓨터과학전공 문양세
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 2
강의 내용데이터 (Data)
데이터 타입
데이터 품질
데이터 전처리
유사도와 거리
Data Mining & Practicesby Yang-Sae MoonPage 3
데이터란 무엇인가 ?
데이터 집합이란 ?
속성들 (attributes) 로 구성된 데이터 객체들 (data objects) 의 모임
(Collection of data objects and their attributes)
• 객체는 레코드 , 점 , 엔티티 , 인스턴스 등으로 불리기도 함
• 속성은 변수 (variable), 필드 , 특성 , 특징 등으로
불리기도 함
속성이란 ?
어떤 객체의 성질 / 특징 (property or
characteristic) 을 나타냄• 속성의 예 : 사람의 경우 이름 , 눈 색깔 등 ,
나라의 경우 언어 , 종교 , 평균 기온 등
데이터 (Data)
Tid Refund Marital Status
Taxable Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
Attributes
Objects
Data Mining & Practicesby Yang-Sae MoonPage 4
속성 값 (Attribute Values)
속성 값은 속성에 부여되는 수치나 심볼을 의미함
(Attribute values are numbers or symbols assigned to an at-
tribute.)
속성 vs. 속성 값 ?
• 동일한 속성이라 할지라도 다른 속성 값이 부여될 수 있다 .
예제 : 키 (height) 는 미터 (meter) 혹은 피트 (feet) 로 측정될 수 있다 .
• 다른 속성이라 할지라도 같은 속성 값이 부여될 수 있다 .
예제 : 학번 (ID) 과 나이는 모두 정수 값을 가진다 .
그러나 , 속성의 특징 (property) 은 다를 수 있다 .
예를 들어 , ID 는 8 자리 정수이고 ,
나이는 0 이상 200 이하 등의 제한이 있을 수 있다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 5
속성의 타입 (Types of Attributes)
범주적 ( 정성적 ) 속성 (categorical attributes)
• 명목형 ( 이름형 , nominal): 상이한 이름들을 나타내며 , 객체를 구분하는데 사용한다 .
예 : 학번 , 눈동자 색깔 , 우편번호
• 서열형 ( 순서형 , ordinal): 객체의 순서를 부여할 수 있다 .
예 : 광석의 경도 , 수박의 등급 , 도로 번호
수치적 ( 정량적 ) 속성 (numerical attributes)
• 구간 (interval): 속성 값들간의 차이가 의미가 있으며 , 측정의 단위가 존재한다 .
예 : 달력의 날짜 , 섭씨 및 화씨
( 기준 온도 대비 상대적 온도 )
• 비율 (ratio): 속성 값들간의 차이와 비율
모두가 의미가 있다 .
예 : 길이 , 시간 , 카운트 , 절대온도
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 6
속성 값의 특징 (Properties)
속성의 특징을 기술하기 위한 성질• 구분 (distinctness): , ( )
• 순서 (order): , , ,
• 덧셈 (addition): ,
• 곱셈 (multiplication): ,
상기 성질에 의한 속성 값들의 특징 • 명목형 (nominal): 구분
• 순서형 (ordinal): 구분 , 순서
• 범위 (interval): 구분 , 순서 , 덧셈
• 비율 (ratio): 구분 , 순서 , 덧셈 , 곱셈
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 7
이산 및 연속 속성
이산 속성 (Discrete Attribute)
• 셀 수 있는 값들의 유한 또는 무한 집합
• 예 : 우편번호 , 카운트 , 문서 집합에 포함된 단어들의 집합
• 주로 정수 변수로 표현함
• 이진 속성 (binary attribute) 은 이산 속성의 특수한 형태임
연속 속성 (Continuous Attribute)
• 속성 값으로 실수를 가짐
• 예 : 온도 , 키 , 무게
• 연속 속성은 일반적으로 부동소숫점
변수로 표현됨 ( 그러나 , 엄밀하게 말해서
부동소수점 변수도 이산 속성임 )
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 8
데이터 집합의 타입 (Types of Data Sets)
레코드 기반 데이터• 데이터 행렬 (Data Matrix)
• 문서 데이터 (Document Data)
• 트랜잭션 데이터 (Transaction Data)
그래프 기반 데이터• World Wide Web
• Molecular Structures
서열형 데이터 (Ordered Data)
• 공간 데이터 (Spatial Data)
• 시간 데이터 (Temporal Data)
• 순차 데이터 (Sequential Data)
• 유전자 시퀀스 데이터 (Genetic Sequence Data)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 9
데이터 집합의 일반적 특징
차원 (Dimensionality)
• 객체 ( 레코드 ) 를 구성하는 속성의 수이다 .
• 고차원인 경우 차원의 저주 (curse of dimensionality) 문제를 일으키며 ,
이의 해결을 위해 차원 감소 (dimensionality reduction) 를 사용한다 .
희소성 (Sparsity)
• 객체 대부분이 0 인 값을 갖는 경우를 말한다 .
• 주로 1% 이내만 0 이 아닌 값을 가지면 희소 (sparse) 하다 말한다 .
• 카운트 등을 사용하여 데이터를 표현한다 .
해상도 (Resolution)
• 패턴은 스케일 (scale), 즉 해상도에 따라 달라질 수 있다 .
• 예 : 지구 표면은 미터 단위로 표현하면 평평하지 않으나 , 수십 Km 단위로 표현하면
상대적으로 매우 매끈하다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 10
레코드 데이터
레코드들의 모임으로 구성된 데이터를 의미하며 , 각 레코드는 고정된
수의 속성들로 구성되어 있다 . (Data that consists of a collection of
records, each of which consists of a fixed set of attributes.)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 11
데이터 행렬 (Data Matrix)
고정된 수의 수치 속성들로 구성된 경우 , 하나의 객체 ( 레코드 ) 는
다차원 공간의 하나의 점으로 볼 수 있다 .
이 같은 데이터는 m x n 행렬로 표현되며 , m 개의 행 (row) 은 각각
객체를 , n 개의 열 (column) 은 각각 속성을 나타낸다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 12
문서 데이터 (Document Data)
각 문서는 용어 벡터 (term vector) 로 표현할 수 있다 .
• 각 용어는 벡터의 컴포넌트 ( 혹은 속성 ) 에 해당한다 .
• 각 컴포넌트의 값은 해당 용어가 문서에 몇 번 나타났는지의 숫자에 해당한다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 13
트랜잭션 데이터 (Transaction Data)
특별한 타입의 레코드로서 , 각 레코드 ( 트랜잭션 ) 는 아이템들의
집합이다 .
• 연관규칙 분석에서는 장바구니 데이터 (market basket data) 로 불린다 .
• 예 : 식품점에서 한 명의 고객이 한 번에 구매한 제품들의 목록
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 14
그래프 데이터 (Graph Data) (1/3)
Graph G = (V, E)
• V = 정점 ( 노드 ) 의 집합 (set of vertices, set of nodes)
• E = 에지 ( 아크 , 링크 ) 의 집합 (set of edges, set of arcs, set of links)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 15
그래프 데이터 (Graph Data) (2/3)
HTML 문서 집합 그래프 표현 가능
데이터 (Data)
Data Mining & Practicesby Yang-Sae Moon
그래프 데이터 (Graph Data) (3/3)
화합물 데이터 (Chemical
Data)
데이터 (Data)
소셜 네트워크 데이터
Data Mining & Practicesby Yang-Sae MoonPage 17
서열 ( 순서 ) 데이터 (Ordered Data) (1/4)
트랜잭션들의 시퀀스 (sequences of transactions)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 18
서열 ( 순서 ) 데이터 (Ordered Data) (2/4)
유전자 시퀀스 (genome sequences)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 19
서열 ( 순서 ) 데이터 (Ordered Data) (3/4)
시계열 데이터 (time-series data)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 20
서열 ( 순서 ) 데이터 (Ordered Data) (4/4)
시공간 데이터 (Spatio-Temporal Data)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 21
강의 내용데이터 (Data)
데이터 타입
데이터 품질
데이터 전처리
유사도와 거리
Data Mining & Practicesby Yang-Sae MoonPage 22
데이터 품질 문제
노이즈 (noise)
이상치 (outliers)
누락 값 (missing values)
중복 데이터 (duplicate data)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 23
노이즈 ( 잡음 )
노이즈는 원본 값을 변경시키는 것을 의미한다 .
(Noise refers to modification of original values.)
노이즈 예 : 음성의 왜곡 , TV 스크린의 흔들림
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 24
이상치 (Outliers)
데이터 집합 내의 다른 객체들과는 ( 상당히 , considerably) 다른
특징을 갖는 객체를 의미한다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 25
누락 값 (Missing Values)
누락 값이 발생하는 원인• 정보 수집이 이뤄지지 않음 ( 예 : 신체 검사에서 어떤 사람이 몸무게 측정을 거부함 )
• 일부 속성이 모든 경우에 적용되지 않음 ( 예 : 연소득 속성은 아이들에게 적용되지 못
함 )
누락 값의 처리• 해당 데이터 객체를 제거한다 .
• 누락 값을 추정한다 .
( 회귀분석 등을 통해 값을 추정하여 이용한다 .)
• 분석 과정에서 누락 값은 무시한다 .
• 모든 가능한 값으로 대치한다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 26
중복 데이터 (Duplicate Data)
데이터 집합은 중복되거나 거의 중복된 데이터 객체를 포함할 수 있다 .(Data set may include data objects that are duplicates, or almost duplicates of one
another.)
• 특히 , 이종의 출처 (heterogeneous sources) 로 부터 데이터를 수집할 때 주로
발생하는 이슈이다 .
• 예 : 한 사람이 복수의 이메일 주소를 가지는 경우
데이터 정제 (data cleaning)
• 중복 데이터 문제를 다루는 과정을 의미한다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 27
강의 내용데이터 (Data)
데이터 타입
데이터 품질
데이터 전처리
유사도와 거리
Data Mining & Practicesby Yang-Sae MoonPage 28
데이터 전처리 (Data Preprocessing) 의 종류
집계 (aggregation)
샘플링 (sampling)
차원 축소 (dimensionality reduction)
특징 선택 vs. 특징 추출 (feature selection vs. feature extraction)
...
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 29
집계 (Aggregation) (1/2)
두 개 이상의 속성들을 하나의 속성으로 ( 혹은 두 개 이상의 객체들을
하나의 객체로 ) 통합함 (combining)
집계의 종류 : 합계 , 평균 , 최대값 , 최소값 등
집계의 목적• 데이터 축소 (data reduction): 속성 혹은 객체의
수를 줄인다 .
• 스케일 변화 : 작은 스케일을 큰 스케일로 변경한다 .
( 예 : 동 단위 데이터를 시 단위 데이터로 다시 도 단위 데이터로 집계함 )
• 보다 “안정된” 데이터를 만듦 : 집계된 데이터는 변동성이 보다 작다 .
( 예 : 매월 치르는 모의고사 성적보다 , 이들을 평균한 성적이 보다 변동성이 작다 .)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 30
집계 (Aggregation) (2/2)
호주의 평균 월별 / 연별 강수량 예제• 아례 사례는 1982-1983 년 호주 평균 월별 / 연별 강수량에 대한 표준편차
히스토그램이다 .
• 평균 연별 강수량은 평균 월별 강수량 보다 적은 가변성을 보인다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 31
샘플링 (Sampling)
샘플링은 전체 데이터 중 일부만을 선택하는 주요 기술이다 .
• 샘플링은 사전 조사 (preliminary investigation) 에서 사용되기도 하고 ,
실제 최종 데이터 분석에 사용되기도 한다 .
통계학자들은 전체 데이터 분석이 너무 고비용에 시간이 오래 걸리기
때문에 샘플링을 사용해 왔다 .
데이터 마이닝에서 샘플링이 종종 사용되는 이유 역시 전체 데이터를
처리하는 것이 너무 고비용에 많은 시간이 걸리기 때문이다 .
효과적인 샘플링이란 ?
“ 샘플을 사용한 경우와 전체
데이터를 사용한 경우가 거의
동일한 결과를 얻어야 한다”
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 32
샘플링의 종류
랜덤 샘플링• 특정 아이템이 선택될 확률이 모두 동일하다 .
• 무대체 샘플링 (sampling without replacement)
• 대체 샘플링 (sampling with replacement) 동일 아이템이 중복 선택될 수 있음
층화 샘플링 (Stratified Sampling)
• 희귀 클래스들이 존재하는 경우 , 이 클래스의
아이템들을 포함하도록 샘플링해야 한다 .
• (1) 데이터를 몇 개의 파티션으로 분해한 후 ,
(2) 각 파티션에서 랜덤 샘플링을 수행한다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 33
차원의 저주 (Curse of Dimensional-ity)
차원이 증가할수록 데이터가 급격하게 희소하게 분포한다 .
기존 인덱스가 잘 동작하지 않으며 , 마이닝 결과가 부정확해 진다 .
차원 축소 (Dimensionality Reduction)
• 목적
고차원 저차원 변환을 통해 , 차원의 저주를 피한다 .
데이터 마이닝을 수행하는데 있어서의 메모리 양 및 수행 시간을 줄인다 .
경우에 따라서 , 무관한 데이터를 제거하거나 노이즈를
제거할 수 있다 .
• 주요 기술
Principle Component Analysis (PCA)
Singular Value Decomposition (SVD)
Discrete Fourier Transform (DFT)
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 34
특성 선택과 특성 추출
특성 선택 (Feature Selection)
• 전체 속성 중에서 몇 개의 대표적 속성만을 선택하여 차원을 축소한다 .
• 축소 과정이 매우 간단하나 ,
대표 속성이 객체 전체를 잘 반영해야만 차원 축소의 성능이 좋다 .
특성 추출 (Feature Extraction)
• 전체 속성 값들을 변환하여 몇 개의 새로운 속성을 생성함으로써 차원을 축소한다 .
• 축소 과정이 다소 복잡하나 ,
새롭게 생성된 속성이 전체 속성 값들을 잘 반영하는 특징을 가진다 .
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 35
강의 내용데이터 (Data)
데이터 타입
데이터 품질
데이터 전처리
유사도와 거리
Data Mining & Practicesby Yang-Sae MoonPage 36
유사도와 비유사도
유사도 (Similarity)
• 두 객체가 얼마나 닮았는지를 나타내는 수치 ( 측정 ) 값
• 두 객체의 닮은 정도가 높을수록 높은 유사도를 가짐
비유사도 (Dissimilarity)
• 두 객체가 얼마나 다른지를 나타내는 수치 ( 측정 ) 값
• 두 객체의 닮은 정도가 높을수록 낮은 비유사도를 가짐
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 37
단순 속성에 대한 유사도 / 비유사도데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 38
유클리디안 (Euclidean) 거리
유클리디안 거리의 정의• n = number of dimensions (attributes)
• pk, qk = value of the k-th dimension
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 39
Minkowski 거리 (1/2)
Minkowski 거리 ( 유클리디안 거리의 일반화 )
• n = number of dimensions (attributes)
• pk, qk = value of the k-th dimension
• r = 1 : Manhattan distance, city block distance, or Hamming distance
각 축으로 떨어진 정도를 합한 거리 ( 도심에서 도로를 이동할 때의 거리 )
• r = 2 : Euclidean distance
두 점 간의 직선 거리
• r = : Supremum distance
두 점의 최소값 / 최대값 사이의 거리
데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 40
Minkowski 거리 (2/2)데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 41
코사인 유사도 (Cosine Similarity)데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 42
상관관계 (Correlation)데이터 (Data)
상관관계는 두 객체간의 선형 관계 (linear relationship) 을 나타낸다 .
상관관계는 (1) 데이터를 정규화한 후 , (2) 내적으로 구한다 .
Data Mining & Practicesby Yang-Sae MoonPage 43
상관관계의 시각화데이터 (Data)
Data Mining & Practicesby Yang-Sae MoonPage 44
강의 내용데이터 (Data)
데이터 타입
데이터 품질
데이터 전처리
유사도와 거리