Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
- 1 -
우수 신청 여 (● 시)아니
V
Fast Track 심사 신청 여 (● 시)아니
V
한국지능정보시스템학회
[2016년 춘계학술 회] 논문 투고
중립도 기반 택적 단어 제거를 통한
용 리뷰 분류 정확도 향상 방안
이민식 (가톨릭 학교 경 학 공 학부생, 주 자 [email protected])
이홍주 (가톨릭 학교 경 학 공 부교수, 교신 자 [email protected])
Increasing Accuracy of Classifying Useful Reviews by Removing
Neutral Terms
Minsik Lee (Undergraduate Student, Dept. of Business Administration, Catholic
University of Korea)
Hong Joo Lee (Associate Professor, Dept. of Business Administration, Catholic
University of Korea)
-원고매수: 13 페이지
[교신 자 연락처]
◎ 이홍주
- 주소: 14662, 경기도 부천시 원미구 지 로 43 가톨릭 학교 경 학 공
- 화번호: 02-2164-4009, Fax 번호: 02-2164-4280
- E-mail주소: [email protected]
- 2 -
중립도 기반 택적 단어 제거를 통한
용 리뷰 분류 정확도 향상 방안
Increasing Accuracy of Classifying Useful Reviews by Removing
Neutral Terms
1)
• 목차 •
Ⅰ. 서 론
Ⅱ. 련연구
Ⅲ. 자료
Ⅳ. 분류방안 결과
Ⅴ. 토의 결 론
참고문헌
… Abstract …
The purpose of this study is to find a way of deleting words for creating document-term
matrix in text mining. Since there are many documents, the size of document-term matrix
is so large. Thus, researchers delete terms in terms of sparsity since sparse words have
little effects on classifications or predictions. In this study, we propose neutrality index to
select words to be deleted. Many words still appear in both classifications and these words
have little or negative effects on classification performances. Thus we deleted neutral words
which are appeared in both classifications similarly. After deleting sparse words, we
selected words to be deleted in terms of neutrality.
We tested our approach with Amazon.com’s review data from five different product
categories and compared the classfication performances in terms of precision, recall, and
F-measure. By selecting deleted words with neutrality index, we can best classification
performances.
Key Words : Neutrality, Term Remove, Customer Review, Classification, Usefulness
index
- 3 -
Ⅰ. 서 론
상거래 숙 거 든 상 들 라 매 고 , 매
미 매하여 사 한 고객 리뷰가 매 사결 에 한 향 미치고
다 (Dellarocas, Gao, & Narayan, 2010). 다 고객 사 한 후 신 경
험에 근거하여 한 리뷰가 많 보 공하고, 객 , 신뢰할 만하
다고 생각하고 다 (Dellarocas, 2003).
에 한 고객 리뷰가 많 고 에 매하 는 든 리뷰
고 단 악하는 것 척 든 었다 (David and Pinch,
2006; Liu et al., 2008). 라 , 상거래 업체들과 연 들 스트 마 닝
하여 리뷰들 에 한 리뷰들 악하거나 한 리뷰 하지
않 리뷰 미리 하는 수행하고 다(Cao, Duan & Gan, 2011;
Mudambi & Schuff, 2010). 또한, 리뷰 체가 가지고 는 리뷰 , , 사
단어 등 하여 리뷰 에 미치는 향 하여 다 ( 상재,
연, 진 , 2014).
스트 마 닝 한 다양한 에 는 스트 처리 과 에
다양한 필 한 단어들 거하게 다. 어근 (Stemming) 통해 한 단
어 사 하나 단어 단순 하고, 나 숫 , 어 사 상
에 필 한 단어들 거한 후에 -단어 매트릭스 생 한다 (Choeh,
Lee and Park, 2015; Pak and Paroubek, 2010). 수가 많아질수 는
단어가 척 많 에 -단어 매트릭스 차원 한 다양한 들
시도 어 다. 본 단어 (Sparsity)에 하여 수에 해
도가 단어들 에 거하거나 단어 보 여도 산 하여
보 여가 낮 단어들 거하는 식 사 어 다(Naji, 2013; Perkins,
2014).
본 연 에 는 -단어 매트릭스에 단어 거 라 고객 리뷰가
한 지, 그 지 않 지 하는 에 단어들 리뷰 집합과 하지
않 리뷰집합에 복하여 등 하는 도 측 한 립도 시한다. 시한 립
도 과 함께 에 하여 거할 단어 한 후에 각 알고리
과 하 다. 과 보 는 립도 찾았 , 과 립도에
라 단어 택 거하 다.
실험 Amazon.com 5개 야 고객 리뷰 사 들 리뷰에 한 평가
하 다. Information gain (Zhang and Tran, 2011)과 Support Vector
- 4 -
Machines ( 철, 웅, 식, 2014; 욱, 안 철, 2011; , 2011)
F-measure 5개 카 고리에 립도 함께 한
안 체 단어 하거나 만 단어 거한 안보다
과 보 다.
본 2 에 는 실험에 료에 해 개하 , 3 에 는 안과
결과 시한다. 4 에 는 본 향후 연 향에 해 하 다.
II. 자료
본 연 에 는 Amazon.com에 매 는 상 에 한 고객리뷰들 하여
연 진행하 다. <그림 1> Amazon.com에 게재 고객 리뷰 한 사 다.
Amazon.com에 는 고객 상 에 한 리뷰 하 다 고객들 리뷰
에 해 했는 지 하지 않았는 지 하단 튼 사 하여 평가할
수 도 만들어 었다. <그림 1> 리뷰 경우 51개 득 수 에 47개가
하다고 평가 리뷰 다. 연 에 는 1999 2014 지 등 한 ‘Cellphone
& Accessories’, ‘Movies & TV Program’, ‘Automotive’, ‘CDs & Vinyl’,
‘Clothing, Shoes & Jewerly’ 5가지 카 고리에 한 리뷰 하 다
(McAuley, Targett, Shi, and van den Hengel, 2015; McAuley, Pandey, and
Leskovec, 2015).
<그림 1> Amazon.com 리뷰 시
<그림 2>는 본 연 알고리 나타낸 그림 다. 연 에 첫 째 단계는
필 링 과 하는 것 다. 5개 카 고리에 한 리뷰 에 한 득
- 5 -
숫 하지 않 득 한 체 득 수가 4개 상 리뷰 한 했
다. 에 카 고리 별 하다고 단 는 1,500개 리뷰
하지 않다고 단 는 1,500개 리뷰 하여 연 에 사 하 다.
본 연 에 하는 한 리뷰 하지 않 리뷰는 득 숫 가 체
득 수 60% 과하는 경우 한 리뷰라고 하고 60% 과하지 못하는
경우 하지 않 리뷰라고 했다 (Zhang and Tran, 2011).
<그림 2> 연구 과정
본 연 에 사 통계 프 그램 R 다. 수집 처리 하는 과
R tm (Feinerer, Hornik, and Meyer, 2008) 키지 사 했 링
과 에 는 e1071 (Meyer, 2015) 키지 사 했다. 처리 과 에 리뷰에 등
하는 숫 , 특수 어(stopword)는 거하 어근 수행하 다. 5
개 에 3,000개 리뷰 단어들 하여 -단어 매트릭스 만
들었다. ‘Cellphones & Accessories’ 경우 10,420개, ‘Movies & TV
program’ 경우 21,770개, ‘Automotive’ 경우 9,580개, ‘CDs &
Vinyl’ 경우 19,544개, ‘Clothing, Shoes & Jewerly’ 경우 8,671
개 단어가 었다 (< 1> 참 ).
Category All terms Remaining terms
Cellphones & Accessories 10,420 3,668
Movies & TV program 21,770 8,290
Automotive 9,580 3,810
CDs & Vinyl 19,544 7,105
Clothing, Shoes & Jewerly 8,671 3,485
< 1> 거 단어 수
생 -단어 매트릭스 본 연 에 는 가지 ‘단어 거’ 과 수행했다.
첫 째 ‘Delete Sparse terms’는 한 단어들 거하는 것 다.
식 타 해 단어 거하거나 매우 게 등 하는 단어
거하 한 것 다. 한 단어들 거하 해 한 삭 값(threshold)
0.1 수 단어 등 수가 0.1% 미만 한 단어 거하 다.
- 6 -
<그림 3> Movies & TV Program에서 제거된 단어
단어들 거한 결과 ‘Cellphones & Accessories’ 경우
6,752개, ‘Movies & TV program’ 경우 13,480개, ‘Automotive’
경우 5,770개, ‘CDs & Vinyl’ 경우 12,439개, ‘Clothing, Shoes &
Jewerly’ 경우 5,186개 단어가 었다 (< 2> 참 ). 많게는 66%에
게는 57% 지 한 단어가 감 하 평균 62% 단어가 감 하는 결과
가 나 다.
째 ‘Delete Neutral terms’는 립 단어들 거하는
것 다. 식 에 향 주는 단어가 아닌 별 에
라 주 등 하는 단어들 거하 한 것 다. <그림 4>는 ‘Movies & TV
program’ c, m 시 하는 립 단어, <그림 5>는 ‘Cellphones &
Accessories’ c, m 시 하는 립 단어 다. <그림 4>에 는 ‘Movies
& TV program’ 리뷰 에 ‘movi’, ‘moviethi’ 단어
가 등 했다. 에 <그림 5>는 ‘Cellphones & Accessories’ 리뷰
폰과 ‘cell’, ‘cellphon’ 단어가 등 했다.
- 7 -
<그림 4> Movies & TV Program의 립 단어
<그림 5> Cellphones & Accessories의 립 단어
III. 분류 방안 결과
1. 립도 기반 단어 제거 방안
립도 단어 거는 본 에 하여 한 단어 거한 후
에 립도 집합에 하는 단어 거하는 안 다. 본 연 에
- 8 -
안하는 립도 하는 식 (1)과 같다. 는 단어 i가 등 한 한 리뷰
수 , 는 단어 i가 등 한 하지 않 리뷰 수 다. , 한 단어가
한 리뷰 집합과 하지 않 리뷰 집합에 등 하는 도 립도(Neutrality
Index, )라고 하고 다 과 같 한다. 리뷰가 리뷰 지 하지 않 리
뷰 지는 2 에 술한 같 체 수에 하다는 수가 60% 상
경우 한 리뷰 하 다.
(1)
든 단어들 립도 하여 삭 값(threshold)에 포함하는 단어들
립 단어라고 단하여 거하는 과 거쳤다. 삭 값 하는 어
각 알고리 별 립 단어 거 지 립도(Best
Neutrality Index, BNI) 찾는 과 진행했다. (<그림 6>, <그림 7>, < 2>, <
3>)
- 9 -
Cellphones & Accessories Movies & TV program
Automotive CDs & Vinyl
Clothing, Shoes & Jewerly
<그림 6> Information Gain 립도 (단 : F-measure)
- 10 -
Category Best Neutrality Index Remaining terms
Cellphones & Accessories 0.4 1,643
Movies & TV program 0.5 4,244
Automotive 0.6 2,390
CDs & Vinyl 0.4 3,301
Clothing, Shoes & Jewerly 0.5 1,633
< 2> Information gain 립도
<그림 6> Information Gain 알고리 사 하여 찾아낸 립도 다. 그래
프 X 립도 쪽 갈수 립 단어 가 어 거 는
립 단어가 많아진다. Y F-값 상승할수 값 라감 나타낸다.
Information Gain 한 든 그래프에 단어 수 F-값 상승하는 습
보 다가 다시 감 하는 태 보 다. F-값 가 지 립도라
고 단하여 립 단어들 거한 결과 ‘Cellphones & Accessories’ 경우
2,025개, ‘Movies & TV program’ 경우 4,046개, ‘Automotive’
경우 1,420개, ‘CDs & Vinyl’ 경우 3,804개, ‘Clothing, Shoes & Jewerly’
경우 1,852개 단어가 가 거 었다. 게는 37%에 많게는 55%
단어 거 했다.
Category Best Neutrality Index Remaining terms
Cellphones & Accessories 0.7 2,881
Movies & TV program 0.5 4,223
Automotive 0.5 1,711
CDs & Vinyl 0.8 5,821
Clothing, Shoes & Jewerly 0.7 2,883
< 3> SVM 립도
- 11 -
Cellphones & Accessories Movies & TV program
Automotive CDs & Vinyl
Clothing, Shoes & Jewerly
<그림 7> SVM 립도 (단 : F-measure)
<그림 7> <그림 6>과 동 한 식 SVM 알고리 사 하여 찾아낸
립도 찾아내었다. SVM 식도 든 그래프에 단어 수 F-값
상승하는 습 보 다가 다시 감 하는 태 보 다. ‘Cellphones &
Accessories’ 경우 787개, ‘Movies & TV program’ 경우 4,067
개, ‘Automotive’ 경우 2,099개, ‘CDs & Vinyl’ 경우 1,284개,
- 12 -
‘Clothing, Shoes & Jewerly’ 경우 602개 단어가 가 거 었다.
게는 17%에 많게는 55% 가 단어 거 하 다.
같 에 2개 알고리 사 하여 립도 지 해본 결과 알고
리 에 라 립도가 다 것 했다. 들어 동 한 ‘Cellphones &
Accessories’ 에 Information Gain 립도는 0.4, SVM 립
도는 0.7 나 다. 또한 같 알고리 에 5개 카 고리 사 하여
립도 지 해본 결과 찾아낸 결과 립도가 다 것 했다.
들어 동 한 Information Gain 알고리 에 찾아낸 5개 집합
립도는 0.4(Cellphones & Accessories, CDs & Vinyl), 0.5(Movies & TV
program, Clothing, Shoes & Jewerly), 0.6(Automotive) 었다.
2. 결과
SVM, Information Gain 알고리 에 하여 결과
Recall, Precision, F-값 측 하고, 체 단어 사 한 경우 만
단어 거한 경우 과 하 다.
< 4>는 3000개 리뷰 70%는 학습 집합 30%는 스트 집합
나누어 30 복 수행 실시한 결과다. 시 수치는 각 알고리 통한
결과 Recall, Precision, F-값 다. All terms 든 단어 탕 측
한 결과값 다. Sparsity는 단어 거한 후에 알고리 에
한 결과 다. Neutrality + Sparsity는 에 근거하여 단어 거한 후 립
에 어 가 단어 거한 집합 알고리 에 결과 다.
체 단어 사 하는 것에 해 단어 거한 후에 하
는 것 SVM 알고리 에 는 과(F-measure) 보 지만, Information
Gain 알고리 에 는 그 지 않았다. 값 근사하 는 하지만 단어별 도
하는 Information Gain 알고리 에 는 체 하는 경우가
단어 거한 후에 하는 경우보다 도가 았다. 하지만 본 연
에 안하는 과 립 고 한 단어 거하는 카 고리
알고리 과 계없 가 F-값 보 다.
- 13 -
Category Methods
Information Gain SVM
Precision RecallF
-measurePrecision Recall
F
-measure
Cellphon
e &
Accesso
ries
All terms 0.5053 0.9964 0.6705 0.7074 0.3602 0.4769
Sparsity 0.5047 0.9972 0.6702 0.6414 0.6159 0.6282Neutral ity
+ Sparsity0.5397 0.9344 0.6841 0.631 0.6264 0.6285
F statistics
(p-value)
961.585
(0.000)
466.081
(0.000)
112.723
(0.000)
171.090
(0.000)
171.090
(0.000)
549.357
(0.000)
M ov i e s
&
TV
Program
All terms 0.5075 0.9967 0.6705 0.6758 0.3737 0.4810
Sparsity 0.5067 0.9970 0.6702 0.64 0.5690 0.6022Neutral ity
+ Sparsity0.5327 0.969 0.6841 0.6288 0.6064 0.6172
F statistics
(p-value)
411.928
(0.000)
372.658
(0.000)
112.723
(0.000)
66.3326
(0.000)
1179.80
(0.000)
699.954
(0.000)
Automoti
ve
All terms 0.5115 0.9871 0.6739 0.6389 0.3486 0.4506
Sparsity 0.5108 0.9889 0.6736 0.6152 0.5883 0.6013Neutral ity
+ Sparsity0.5248 0.964 0.6793 0.5956 0.6183 0.6066
F statistics
(p-value)
108.717
(0.000)
76.9284
(0.000)
21.4104
(0.000)
39.7933
(0.000)
1249.79
(0.000)
610.499
(0.000)
CDs
& Vinyl
All terms 0.51 0.9950 0.6745 0.676 0.3972 0.5002Sparsity 0.5088 0.9965 0.6740 0.6452 0.6607 0.6527Neutral ity
+ Sparsity0.5580 0.9459 0.7024 0.6446 0.6695 0.6566
F statistics
(p-value)
692.332
(0.000)
490.331
(0.000)
282.266
(0.000)
38.5171
(0.000)
1217.64
(0.000)
716.847
(0.000)
Clothing,
Shoes &
Jewerly
All terms 0.536 0.9703 0.6905 0.6489 0.3461 0.4510
Sparsity 0.5336 0.9716 0.6888 0.6194 0.5859 0.6020Neutral ity
+ Sparsity0.572 0.8844 0.6946 0.6172 0.6019 0.6093
F statistics
(p-value)
234.792
(0.000)
545.061
(0.000)
5.6308
(0.005)
23.9686
(0.000)
1175.00
(0.000)
653.872
(0.000)
< 4> 도
IV. 결론
집합에 라 도 개 도가 상 하 , F-measure 는 알고
리 에 과 립도에 하여 단어 거하는 안 과가 았
- 14 -
다. 하지만 Information Gain 알고리 에 는 Recall 는 5개 카 고리
에 언 나 만 단어 거하는 안 과가 았 ,
SVM에 는 체 단어 하는 안 Precision 과가 았다.
라 , 하는 알고리 과 에 라 단어 거 안 고 하는 것 필
하다.
단어 거한 후에 립도 10% 도 가 단어
거 통해 과 개 할 수 다는 것 하 다. 가 많
집합과 , 립 통해 합한 하는 것 필
하다.
참 고 헌
철, 웅, 식, “SVM 한 시스 트 략 택 ”, 20 ,
2 , 2014, pp. 59-71.
상재, 연, 진 , “ 라 리뷰 경 과, 과 수에 향
주는 결 ,” 한 IT 스학 지, 13 , 1 , 2014, pp. 43-55.
욱, 안 철 “ 칭 고 한 값 SVM에 한 지능
침 탐지 ”, 지능 보연 , 17 , 4 , 2011, pp. 157-173.
, “Support Vector Machine 한 프트웨어 질 측”, 한 IT
스학 지, 10 , 12 , 2011, pp. 235-245.
Cao, Q., Duan, W., and Gan, Q., “Exploring determinants of voting for the
‘helpfulness’ online userreviews: A text mining approach,” Decision
Support Systems, Vol. 50, No. 2, 2011, pp. 511-521.
Choeh, J. Y., Lee, H. J. and Park, S. J., “A Personalized Approach for
Recommending Useful Product Reviews Basedon Information Gain,”
KSII Transactions on Internet and Information Systems, Vol. 9, No. 5,
2015, pp. 1702-1716.
David, S., and Pinch, T., "Six Degrees of Reputation: The Use and Abuse of
Online Review and Recommendation Systems," First Monday, Vol. 11,
No. 3, 2006, Available at http://dx.doi.org/10.5210/fm.v11i3.1315.
Dellarocas, C., “The Digitization of Word of Mouth: Promise and Challenges of
Online Feedback Mechanisms”, Management Science, Vol. 49, No.10,
- 15 -
2003, pp. 1407-1424.
Dellarocas, C., Gao, G., and Narayan, R., “Are consumers more likelyto
contribute online reviews for hit or niche products?”, Journal of
Management Information Systems, Vol. 27, No. 2, 2010, pp. 127-157.
Feinerer, I., Hornik, K. and Meyer, D., "TextMining Infrastructure in R,"
Journal of Statistical Software, vol. 25, no.5, 2008, pp. 1-54.
Liu, Y., Huang, X., An, A., and Yu, X., “Modeling andPredicting the Helpfulness
of Online Reviews”, Proceedings of the Eighth IEEE International
Conference on Data Mining, 2008, pp. 443-452.
McAuley, J., Targett, C., Shi, J., and van den Hengel, A., “Image-based
recommendations onstyles and substitutes”, SIGIR, 2015
McAuley, J., Pandey, R., and Leskovec, J., “Inferringnetworks of substitutable
and complementary products”, Knowledge Discovery and Data Mining,
2015
Naji, I., “10 Tips to Improve your TextClassification Algorithm Accuracy and
Performance,” accessed at
http://thinknook.com/10-ways-to-improve-your-classification-algorithm
-performance-2013-01-21/
Pak, A. and Paroubek, P., “Twitter as a Corpus forSentiment Analysis and
Opinion Mining”, LREc, Vol. 10, 2010
Perkins, J., Python 3 Text Processing with NLTK 3Cookbook, Packt
Publishing, 2014
Zhang, R. and Tran, T., “An Information gain-basedapproach for
recommending useful product reviews,” Knowledge and
InformationSystems, vol. 26, no. 3, 2011, pp. 419-434.
Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., and Leisch, F., “e1071:
Misc Functionsof the Department of Statistics, Probability Theory
Group (Formerly: E1071)”, TUWien. R package version 1.6-7.
https://CRAN.R-project.org/package=e1071, 2015.