Detecting Spam Reviews on the Chinese Online...

Detecting Spam Reviews on the Chinese Online Shopping Site TaoBao

Shinshin Ryu, Fumito Masui, Michal Ptaszynski Department of Computer Science,

Kitami Institute of Technology, Japan

Outline

Introduction Data set Review Analysis Classification Experiment Conclusions

Introduction

・Various online shopping sites ・Spam reviews ・“Internet Water Army” in China

・Related Work:

review content spammer’s behavior

Introduction

→the lack of publicly available Chinese data sets

・Related Chinese research problem:

→the low accuracy and reliability of training data→the insufficient amount of public user information on Chinese shopping sites …

Chinese fake review detection method →stealth marketing →14 product parameters →SVM (Support Vector Machine)

・In our research:

Introduction

Outline

Data set・Data Set

https://world.taobao.com/

total review: 200 fake review: 31.5% test data: 20 training data: 180 →10-fold cross-validation

・Labeling

Questionnaire

evaluator (60)

group A (30)

group B (30)

Data set

kappa value = 0.52

Outline

Design, Appearance, Quality, Consistency, Size, Tailoring, Fabric, Color fading, Reputation, Price, Staff, Express delivery, Satisfaction, Recommendation

5 very satisfied4 satisfied3 neither2 dissatisfied1 very dissatisfied

Review Analysis

・Product Parameters:

・The scoring results on apparel productsReview Analysis

Parameter ProportionRecommendation 0.83

Reputation 0.61Staff 0.61

Appearance 0.53… …

Fabric 0.42Size 0.36Price 0.20

Quality 0.00

・The ratio of fake reviews in non-confidence interval

4 highest

Review Analysis

Reputation

StaffRecommendation

Appearance

Reputation

StaffRecommendation

Appearance

・The score details of highest 4:

Fake Normal

125 4Review Analysis

・The features of product parameters:A.Recommendation →“快快入手”(to buy quickly)， →“强烈推荐”(highly recommended)

Review Analysis

B. Quality & Price →“物美价廉”，“物超所值”(really good and cheap)C. Staff →“服务态度”(attitude of the staff and services)

D. Size →the numbers

Outline

Classification Experiment

・SVM (Support Vector Machine) ・two experiments →experiment 1: word & product parameters →experiment 2: product parameters

Case Feature1 Bag-of-Words2 Staff, Quality&Price , Size, Recommendation *3 Staff, Quality&Price, Size, Recommendation4 Quality&Price, Size, Recommendation5 Staff, Size, Recommendation6 Staff, Quality&Price, Recommendation7 Staff, Quality&Price, Size8 Staff, Quality&Price9 Staff, Size10 Staff, Recommendation11 Quality&Price, Size12 Quality&Price, Recommendation13 Size, Recommendation14 Staff15 Quality&Price16 Size17 Recommendation

・experiment 1(word & product parameter)

Accuracy 0.68Precision 0.68

Recall 1.00

Occurrence TF TF_IDF

Accuracy

・experiment 2 (product parameter)

Accuracy 0.73Precision 0.72

Recall 1.00

Accuracy

Occurrence TF TF_IDF

Case Feature Accuracy12 Quality & Price、Recommendation 77.0010 Staff、Recommendation 76.853 Staff、Quality & Price、Size、Recommendation 76.404 Quality & Price、Size、Recommendation 76.306 Staff、Quality & Price、Recommendation 76.005 Staff、Size、Recommendation 75.8513 Size、Recommendation 74.8717 Recommendation 74.732 Staff、Quality & Price、Size、Recommendation* 72.407 Staff、Quality & Price、Size 69.408 Staff、Quality & Price 69.2016 Size 68.819 Staff、Size 67.3311 Quality & Price、Size 66.00

・Accuracy of experiment 2 in a descending order Classification Experiment

Recommendation + α

→Weight : Occurrence

Outline

Conclusions

・The four features of product parameters: →Recommendation, Quality & Price, Staff, Size

・Two experiments: →experiment 1 (word & product parameters) →experiment 2 (product parameters) showed higher results →”Recommendation + α” had higher performance

・Future work →Automatically increase the data and the feature set →Considering of the different levels of features

Conclusions

Thank you

Detecting Spam Reviews on the Chinese Online...

Documents

Detecting and Characterizing Social Spam Campaignsravenben/publications/pdf/fbspam-imc10.pdf · if it has made at least one malicious wall post. 3. SPAM CAMPAIGN DETECTION To identify

Detecting Bengali Spam SMS Using Recurrent Neural Network · 2020-03-11 · Detecting Bengali Spam SMS Using Recurrent Neural Network Md. Mohsin 1Uddin. 1, Monica Yasmin , 2M Saddam

Detecting Nonpersonal and Spam Users on Geotagged Twitter

Spam, Spam, Spam, Spam…

Detecting Spam Zombies by Monitoring Outgoing Messages Zhenhai Duan Department of Computer Science Florida State University

Detecting Spam Blogs: An Adaptive Online Approach Pranam Kolari Ph.D. Defense, Sept 25, 2007

SDP-MARCH-Talk 恶意任务检测姚大海 2013/11/24. papers Characterizing and Detecting Malicious Crowdsourcing Detecting Deceptive Opinion Spam Using Human Computation

Heuristics for Detecting Spam Web Pages Marc Najork Microsoft Research, Silicon Valley Joint work with Fetterly, Manasse, Ntoulas

Detecting and Characterizing Social Spam Campaigns · Detecting and Characterizing Social Spam Campaigns Hongyu Gao Northwestern University Evanston, IL, USA hygao@u.northwestern.edu

Detecting spam in a Twitter network ( 과제 세미나 ) 2012.5.11

Detecting Review Spam on Amazon with ReviewAlarmessay.utwente.nl/70037/1/Pieper_BA_BMS.pdf · 2016. 6. 23. · The main task in review spam detection is to identify the untruthful

Detecting Spam Blogs: An Adaptive Online Approach Pranam Kolari

Analysis of SMTP Connection Characteristics for Detecting Spam Relays

OPINION SPAM RECOGNITION METHOD FOR ONLINE REVIEWS … · good resource for decision making. In recent years, along with web spam 19, 22, email spam 23, 10 and blog spam 20, 18, review

Detecting and Characterizing Social Spam Campaigns

Detecting Spam Zombies by Monitoring Outgoing Messages

Detecting and Characterizing Social Spam Campaignslist.cs.northwestern.edu/papers/scavenger-imc10.pdf · Detecting and Characterizing Social Spam Campaigns Hongyu Gao Northwestern

SPAMHALTER - Araratspamhalter.pdf · SpamHalter is program that uses a Bayesian engine for detecting SPAM by its experience. This means you must teach this program what SPAM is. Without

Detecting spam zombies by monitoring outgoing messages.bak

Introduction Spam in Society Email Spam IM Spam Text Spam Blog Spamming Spam Blogs