중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 · 시도되어왔다. 기본적으로 단어의 희소성(Sparsity)에 기반하여

- 1 -

우수 신청 여 (● 시)아니

V

Fast Track 심사 신청 여 (● 시)아니

V

한국지능정보시스템학회

[2016년 춘계학술 회] 논문 투고

중립도 기반 택적 단어 제거를 통한

용 리뷰 분류 정확도 향상 방안

이민식 (가톨릭 학교 경 학 공 학부생, 주 자 [email protected])

이홍주 (가톨릭 학교 경 학 공 부교수, 교신 자 [email protected])

Increasing Accuracy of Classifying Useful Reviews by Removing

Neutral Terms

Minsik Lee (Undergraduate Student, Dept. of Business Administration, Catholic

University of Korea)

Hong Joo Lee (Associate Professor, Dept. of Business Administration, Catholic

University of Korea)

-원고매수: 13 페이지

[교신 자 연락처]

◎ 이홍주

- 주소: 14662, 경기도 부천시 원미구 지 로 43 가톨릭 학교 경 학 공

- 화번호: 02-2164-4009, Fax 번호: 02-2164-4280

- E-mail주소: [email protected]

- 2 -

중립도 기반 택적 단어 제거를 통한

용 리뷰 분류 정확도 향상 방안

Increasing Accuracy of Classifying Useful Reviews by Removing

Neutral Terms

1)

• 목차 •

Ⅰ. 서 론

Ⅱ. 련연구

Ⅲ. 자료

Ⅳ. 분류방안 결과

Ⅴ. 토의 결 론

참고문헌

… Abstract …

The purpose of this study is to find a way of deleting words for creating document-term

matrix in text mining. Since there are many documents, the size of document-term matrix

is so large. Thus, researchers delete terms in terms of sparsity since sparse words have

little effects on classifications or predictions. In this study, we propose neutrality index to

select words to be deleted. Many words still appear in both classifications and these words

have little or negative effects on classification performances. Thus we deleted neutral words

which are appeared in both classifications similarly. After deleting sparse words, we

selected words to be deleted in terms of neutrality.

We tested our approach with Amazon.com’s review data from five different product

categories and compared the classfication performances in terms of precision, recall, and

F-measure. By selecting deleted words with neutrality index, we can best classification

performances.

Key Words : Neutrality, Term Remove, Customer Review, Classification, Usefulness

index

- 3 -

Ⅰ. 서 론

상거래 숙 거 든 상 들 라 매 고 , 매

미 매하여 사 한 고객 리뷰가 매 사결 에 한 향 미치고

다 (Dellarocas, Gao, & Narayan, 2010). 다 고객 사 한 후 신 경

험에 근거하여 한 리뷰가 많 보 공하고, 객 , 신뢰할 만하

다고 생각하고 다 (Dellarocas, 2003).

에 한 고객 리뷰가 많 고 에 매하 는 든 리뷰

고 단 악하는 것 척 든 었다 (David and Pinch,

2006; Liu et al., 2008). 라 , 상거래 업체들과 연 들 스트 마 닝

하여 리뷰들 에 한 리뷰들 악하거나 한 리뷰 하지

않 리뷰 미리 하는 수행하고 다(Cao, Duan & Gan, 2011;

Mudambi & Schuff, 2010). 또한, 리뷰 체가 가지고 는 리뷰 , , 사

단어 등 하여 리뷰 에 미치는 향 하여 다 ( 상재,

연, 진 , 2014).

스트 마 닝 한 다양한 에 는 스트 처리 과 에

다양한 필 한 단어들 거하게 다. 어근 (Stemming) 통해 한 단

어 사 하나 단어 단순 하고, 나 숫 , 어 사 상

에 필 한 단어들 거한 후에 -단어 매트릭스 생 한다 (Choeh,

Lee and Park, 2015; Pak and Paroubek, 2010). 수가 많아질수 는

단어가 척 많 에 -단어 매트릭스 차원 한 다양한 들

시도 어 다. 본 단어 (Sparsity)에 하여 수에 해

도가 단어들 에 거하거나 단어 보 여도 산 하여

보 여가 낮 단어들 거하는 식 사 어 다(Naji, 2013; Perkins,

2014).

본 연 에 는 -단어 매트릭스에 단어 거 라 고객 리뷰가

한 지, 그 지 않 지 하는 에 단어들 리뷰 집합과 하지

않 리뷰집합에 복하여 등 하는 도 측 한 립도 시한다. 시한 립

도 과 함께 에 하여 거할 단어 한 후에 각 알고리

과 하 다. 과 보 는 립도 찾았 , 과 립도에

라 단어 택 거하 다.

실험 Amazon.com 5개 야 고객 리뷰 사 들 리뷰에 한 평가

하 다. Information gain (Zhang and Tran, 2011)과 Support Vector

- 4 -

Machines ( 철, 웅, 식, 2014; 욱, 안 철, 2011; , 2011)

F-measure 5개 카 고리에 립도 함께 한

안 체 단어 하거나 만 단어 거한 안보다

과 보 다.

본 2 에 는 실험에 료에 해 개하 , 3 에 는 안과

결과 시한다. 4 에 는 본 향후 연 향에 해 하 다.

II. 자료

본 연 에 는 Amazon.com에 매 는 상 에 한 고객리뷰들 하여

연 진행하 다. <그림 1> Amazon.com에 게재 고객 리뷰 한 사 다.

Amazon.com에 는 고객 상 에 한 리뷰 하 다 고객들 리뷰

에 해 했는 지 하지 않았는 지 하단 튼 사 하여 평가할

수 도 만들어 었다. <그림 1> 리뷰 경우 51개 득 수 에 47개가

하다고 평가 리뷰 다. 연 에 는 1999 2014 지 등 한 ‘Cellphone

& Accessories’, ‘Movies & TV Program’, ‘Automotive’, ‘CDs & Vinyl’,

‘Clothing, Shoes & Jewerly’ 5가지 카 고리에 한 리뷰 하 다

(McAuley, Targett, Shi, and van den Hengel, 2015; McAuley, Pandey, and

Leskovec, 2015).

<그림 1> Amazon.com 리뷰 시

<그림 2>는 본 연 알고리 나타낸 그림 다. 연 에 첫 째 단계는

필 링 과 하는 것 다. 5개 카 고리에 한 리뷰 에 한 득

- 5 -

숫 하지 않 득 한 체 득 수가 4개 상 리뷰 한 했

다. 에 카 고리 별 하다고 단 는 1,500개 리뷰

하지 않다고 단 는 1,500개 리뷰 하여 연 에 사 하 다.

본 연 에 하는 한 리뷰 하지 않 리뷰는 득 숫 가 체

득 수 60% 과하는 경우 한 리뷰라고 하고 60% 과하지 못하는

경우 하지 않 리뷰라고 했다 (Zhang and Tran, 2011).

<그림 2> 연구 과정

본 연 에 사 통계 프 그램 R 다. 수집 처리 하는 과

R tm (Feinerer, Hornik, and Meyer, 2008) 키지 사 했 링

과 에 는 e1071 (Meyer, 2015) 키지 사 했다. 처리 과 에 리뷰에 등

하는 숫 , 특수 어(stopword)는 거하 어근 수행하 다. 5

개 에 3,000개 리뷰 단어들 하여 -단어 매트릭스 만

들었다. ‘Cellphones & Accessories’ 경우 10,420개, ‘Movies & TV

program’ 경우 21,770개, ‘Automotive’ 경우 9,580개, ‘CDs &

Vinyl’ 경우 19,544개, ‘Clothing, Shoes & Jewerly’ 경우 8,671

개 단어가 었다 (< 1> 참 ).

Category All terms Remaining terms

Cellphones & Accessories 10,420 3,668

Movies & TV program 21,770 8,290

Automotive 9,580 3,810

CDs & Vinyl 19,544 7,105

Clothing, Shoes & Jewerly 8,671 3,485

< 1> 거 단어 수

생 -단어 매트릭스 본 연 에 는 가지 ‘단어 거’ 과 수행했다.

첫 째 ‘Delete Sparse terms’는 한 단어들 거하는 것 다.

식 타 해 단어 거하거나 매우 게 등 하는 단어

거하 한 것 다. 한 단어들 거하 해 한 삭 값(threshold)

0.1 수 단어 등 수가 0.1% 미만 한 단어 거하 다.

- 6 -

<그림 3> Movies & TV Program에서 제거된 단어

단어들 거한 결과 ‘Cellphones & Accessories’ 경우

6,752개, ‘Movies & TV program’ 경우 13,480개, ‘Automotive’

경우 5,770개, ‘CDs & Vinyl’ 경우 12,439개, ‘Clothing, Shoes &

Jewerly’ 경우 5,186개 단어가 었다 (< 2> 참 ). 많게는 66%에

게는 57% 지 한 단어가 감 하 평균 62% 단어가 감 하는 결과

가 나 다.

째 ‘Delete Neutral terms’는 립 단어들 거하는

것 다. 식 에 향 주는 단어가 아닌 별 에

라 주 등 하는 단어들 거하 한 것 다. <그림 4>는 ‘Movies & TV

program’ c, m 시 하는 립 단어, <그림 5>는 ‘Cellphones &

Accessories’ c, m 시 하는 립 단어 다. <그림 4>에 는 ‘Movies

& TV program’ 리뷰 에 ‘movi’, ‘moviethi’ 단어

가 등 했다. 에 <그림 5>는 ‘Cellphones & Accessories’ 리뷰

폰과 ‘cell’, ‘cellphon’ 단어가 등 했다.

- 7 -

<그림 4> Movies & TV Program의 립 단어

<그림 5> Cellphones & Accessories의 립 단어

III. 분류 방안 결과

1. 립도 기반 단어 제거 방안

립도 단어 거는 본 에 하여 한 단어 거한 후

에 립도 집합에 하는 단어 거하는 안 다. 본 연 에

- 8 -

안하는 립도 하는 식 (1)과 같다. 는 단어 i가 등 한 한 리뷰

수 , 는 단어 i가 등 한 하지 않 리뷰 수 다. , 한 단어가

한 리뷰 집합과 하지 않 리뷰 집합에 등 하는 도 립도(Neutrality

Index, )라고 하고 다 과 같 한다. 리뷰가 리뷰 지 하지 않 리

뷰 지는 2 에 술한 같 체 수에 하다는 수가 60% 상

경우 한 리뷰 하 다.

(1)

든 단어들 립도 하여 삭 값(threshold)에 포함하는 단어들

립 단어라고 단하여 거하는 과 거쳤다. 삭 값 하는 어

각 알고리 별 립 단어 거 지 립도(Best

Neutrality Index, BNI) 찾는 과 진행했다. (<그림 6>, <그림 7>, < 2>, <

3>)

- 9 -

Cellphones & Accessories Movies & TV program

Automotive CDs & Vinyl

Clothing, Shoes & Jewerly

<그림 6> Information Gain 립도 (단 : F-measure)

- 10 -

Category Best Neutrality Index Remaining terms

Cellphones & Accessories 0.4 1,643

Movies & TV program 0.5 4,244

Automotive 0.6 2,390

CDs & Vinyl 0.4 3,301

Clothing, Shoes & Jewerly 0.5 1,633

< 2> Information gain 립도

<그림 6> Information Gain 알고리 사 하여 찾아낸 립도 다. 그래

프 X 립도 쪽 갈수 립 단어 가 어 거 는

립 단어가 많아진다. Y F-값 상승할수 값 라감 나타낸다.

Information Gain 한 든 그래프에 단어 수 F-값 상승하는 습

보 다가 다시 감 하는 태 보 다. F-값 가 지 립도라

고 단하여 립 단어들 거한 결과 ‘Cellphones & Accessories’ 경우

2,025개, ‘Movies & TV program’ 경우 4,046개, ‘Automotive’

경우 1,420개, ‘CDs & Vinyl’ 경우 3,804개, ‘Clothing, Shoes & Jewerly’

경우 1,852개 단어가 가 거 었다. 게는 37%에 많게는 55%

단어 거 했다.

Category Best Neutrality Index Remaining terms

Cellphones & Accessories 0.7 2,881

Movies & TV program 0.5 4,223

Automotive 0.5 1,711

CDs & Vinyl 0.8 5,821

Clothing, Shoes & Jewerly 0.7 2,883

< 3> SVM 립도

- 11 -

Cellphones & Accessories Movies & TV program

Automotive CDs & Vinyl

Clothing, Shoes & Jewerly

<그림 7> SVM 립도 (단 : F-measure)

<그림 7> <그림 6>과 동 한 식 SVM 알고리 사 하여 찾아낸

립도 찾아내었다. SVM 식도 든 그래프에 단어 수 F-값

상승하는 습 보 다가 다시 감 하는 태 보 다. ‘Cellphones &

Accessories’ 경우 787개, ‘Movies & TV program’ 경우 4,067

개, ‘Automotive’ 경우 2,099개, ‘CDs & Vinyl’ 경우 1,284개,

- 12 -

‘Clothing, Shoes & Jewerly’ 경우 602개 단어가 가 거 었다.

게는 17%에 많게는 55% 가 단어 거 하 다.

같 에 2개 알고리 사 하여 립도 지 해본 결과 알고

리 에 라 립도가 다 것 했다. 들어 동 한 ‘Cellphones &

Accessories’ 에 Information Gain 립도는 0.4, SVM 립

도는 0.7 나 다. 또한 같 알고리 에 5개 카 고리 사 하여

립도 지 해본 결과 찾아낸 결과 립도가 다 것 했다.

들어 동 한 Information Gain 알고리 에 찾아낸 5개 집합

립도는 0.4(Cellphones & Accessories, CDs & Vinyl), 0.5(Movies & TV

program, Clothing, Shoes & Jewerly), 0.6(Automotive) 었다.

2. 결과

SVM, Information Gain 알고리 에 하여 결과

Recall, Precision, F-값 측 하고, 체 단어 사 한 경우 만

단어 거한 경우 과 하 다.

< 4>는 3000개 리뷰 70%는 학습 집합 30%는 스트 집합

나누어 30 복 수행 실시한 결과다. 시 수치는 각 알고리 통한

결과 Recall, Precision, F-값 다. All terms 든 단어 탕 측

한 결과값 다. Sparsity는 단어 거한 후에 알고리 에

한 결과 다. Neutrality + Sparsity는 에 근거하여 단어 거한 후 립

에 어 가 단어 거한 집합 알고리 에 결과 다.

체 단어 사 하는 것에 해 단어 거한 후에 하

는 것 SVM 알고리 에 는 과(F-measure) 보 지만, Information

Gain 알고리 에 는 그 지 않았다. 값 근사하 는 하지만 단어별 도

하는 Information Gain 알고리 에 는 체 하는 경우가

단어 거한 후에 하는 경우보다 도가 았다. 하지만 본 연

에 안하는 과 립 고 한 단어 거하는 카 고리

알고리 과 계없 가 F-값 보 다.

- 13 -

Category Methods

Information Gain SVM

Precision RecallF

-measurePrecision Recall

F

-measure

Cellphon

e &

Accesso

ries

All terms 0.5053 0.9964 0.6705 0.7074 0.3602 0.4769

Sparsity 0.5047 0.9972 0.6702 0.6414 0.6159 0.6282Neutral ity

+ Sparsity0.5397 0.9344 0.6841 0.631 0.6264 0.6285

F statistics

(p-value)

961.585

(0.000)

466.081

(0.000)

112.723

(0.000)

171.090

(0.000)

171.090

(0.000)

549.357

(0.000)

M ov i e s

&

TV

Program

All terms 0.5075 0.9967 0.6705 0.6758 0.3737 0.4810


+ Sparsity0.5327 0.969 0.6841 0.6288 0.6064 0.6172

F statistics

(p-value)

411.928

(0.000)

372.658

(0.000)

112.723

(0.000)

66.3326

(0.000)

1179.80

(0.000)

699.954

(0.000)

Automoti

ve

All terms 0.5115 0.9871 0.6739 0.6389 0.3486 0.4506


+ Sparsity0.5248 0.964 0.6793 0.5956 0.6183 0.6066

F statistics

(p-value)

108.717

(0.000)

76.9284

(0.000)

21.4104

(0.000)

39.7933

(0.000)

1249.79

(0.000)

610.499

(0.000)

CDs

& Vinyl

All terms 0.51 0.9950 0.6745 0.676 0.3972 0.5002Sparsity 0.5088 0.9965 0.6740 0.6452 0.6607 0.6527Neutral ity

+ Sparsity0.5580 0.9459 0.7024 0.6446 0.6695 0.6566

F statistics

(p-value)

692.332

(0.000)

490.331

(0.000)

282.266

(0.000)

38.5171

(0.000)

1217.64

(0.000)

716.847

(0.000)

Clothing,

Shoes &

Jewerly

All terms 0.536 0.9703 0.6905 0.6489 0.3461 0.4510


+ Sparsity0.572 0.8844 0.6946 0.6172 0.6019 0.6093

F statistics

(p-value)

234.792

(0.000)

545.061

(0.000)

5.6308

(0.005)

23.9686

(0.000)

1175.00

(0.000)

653.872

(0.000)

< 4> 도

IV. 결론

집합에 라 도 개 도가 상 하 , F-measure 는 알고

리 에 과 립도에 하여 단어 거하는 안 과가 았

- 14 -

다. 하지만 Information Gain 알고리 에 는 Recall 는 5개 카 고리

에 언 나 만 단어 거하는 안 과가 았 ,

SVM에 는 체 단어 하는 안 Precision 과가 았다.

라 , 하는 알고리 과 에 라 단어 거 안 고 하는 것 필

하다.

단어 거한 후에 립도 10% 도 가 단어

거 통해 과 개 할 수 다는 것 하 다. 가 많

집합과 , 립 통해 합한 하는 것 필

하다.

참 고 헌

철, 웅, 식, “SVM 한 시스 트 략 택 ”, 20 ,

2 , 2014, pp. 59-71.

상재, 연, 진 , “ 라 리뷰 경 과, 과 수에 향

주는 결 ,” 한 IT 스학 지, 13 , 1 , 2014, pp. 43-55.

욱, 안 철 “ 칭 고 한 값 SVM에 한 지능

침 탐지 ”, 지능 보연 , 17 , 4 , 2011, pp. 157-173.

, “Support Vector Machine 한 프트웨어 질 측”, 한 IT

스학 지, 10 , 12 , 2011, pp. 235-245.

Cao, Q., Duan, W., and Gan, Q., “Exploring determinants of voting for the

‘helpfulness’ online userreviews: A text mining approach,” Decision

Support Systems, Vol. 50, No. 2, 2011, pp. 511-521.

Choeh, J. Y., Lee, H. J. and Park, S. J., “A Personalized Approach for

Recommending Useful Product Reviews Basedon Information Gain,”

KSII Transactions on Internet and Information Systems, Vol. 9, No. 5,

2015, pp. 1702-1716.

David, S., and Pinch, T., "Six Degrees of Reputation: The Use and Abuse of

Online Review and Recommendation Systems," First Monday, Vol. 11,

No. 3, 2006, Available at http://dx.doi.org/10.5210/fm.v11i3.1315.

Dellarocas, C., “The Digitization of Word of Mouth: Promise and Challenges of

Online Feedback Mechanisms”, Management Science, Vol. 49, No.10,

- 15 -

2003, pp. 1407-1424.

Dellarocas, C., Gao, G., and Narayan, R., “Are consumers more likelyto

contribute online reviews for hit or niche products?”, Journal of

Management Information Systems, Vol. 27, No. 2, 2010, pp. 127-157.

Feinerer, I., Hornik, K. and Meyer, D., "TextMining Infrastructure in R,"

Journal of Statistical Software, vol. 25, no.5, 2008, pp. 1-54.

Liu, Y., Huang, X., An, A., and Yu, X., “Modeling andPredicting the Helpfulness

of Online Reviews”, Proceedings of the Eighth IEEE International

Conference on Data Mining, 2008, pp. 443-452.

McAuley, J., Targett, C., Shi, J., and van den Hengel, A., “Image-based

recommendations onstyles and substitutes”, SIGIR, 2015

McAuley, J., Pandey, R., and Leskovec, J., “Inferringnetworks of substitutable

and complementary products”, Knowledge Discovery and Data Mining,

2015

Naji, I., “10 Tips to Improve your TextClassification Algorithm Accuracy and

Performance,” accessed at

http://thinknook.com/10-ways-to-improve-your-classification-algorithm

-performance-2013-01-21/

Pak, A. and Paroubek, P., “Twitter as a Corpus forSentiment Analysis and

Opinion Mining”, LREc, Vol. 10, 2010

Perkins, J., Python 3 Text Processing with NLTK 3Cookbook, Packt

Publishing, 2014

Zhang, R. and Tran, T., “An Information gain-basedapproach for

recommending useful product reviews,” Knowledge and

InformationSystems, vol. 26, no. 3, 2011, pp. 419-434.

Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., and Leisch, F., “e1071:

Misc Functionsof the Department of Statistics, Probability Theory

Group (Formerly: E1071)”, TUWien. R package version 1.6-7.

https://CRAN.R-project.org/package=e1071, 2015.

Documents

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 · 시도되어왔다. 기본적으로 단어의 희소성(Sparsity)에 기반하여