53
SEWM2007 垃垃垃垃垃垃垃 垃垃 垃垃垃垃垃垃 [email protected] 垃垃垃垃垃垃垃垃垃垃垃垃垃垃垃垃 垃垃垃垃垃垃垃垃垃垃垃垃垃

SEWM2007 垃圾邮件过滤系统评测

Embed Size (px)

DESCRIPTION

SEWM2007 垃圾邮件过滤系统评测. 邮件评测小组 [email protected] 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室. 主要内容. 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论. 测评背景与目的. 测评背景. 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 - PowerPoint PPT Presentation

Citation preview

Page 1: SEWM2007 垃圾邮件过滤系统评测

SEWM2007 垃圾邮件过滤系统评测SEWM2007 垃圾邮件过滤系统评测

邮件评测小组[email protected]

华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

Page 2: SEWM2007 垃圾邮件过滤系统评测

2

1. 测评背景与目的2. 数据集生成方法3. 数据集统计特征4. 过滤评测标准5. 测评结果分析6. 总结与讨论

主要内容

Page 3: SEWM2007 垃圾邮件过滤系统评测

3

测评背景与目的

Page 4: SEWM2007 垃圾邮件过滤系统评测

4

垃圾邮件的泛滥– 规模上的增长– 技术上的提高

反垃圾技术不断更新– 目前各种技术各有优缺点– 技术的更新始终没有跟上垃圾邮件的“进步”

有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流

相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。

测评背景

Page 5: SEWM2007 垃圾邮件过滤系统评测

5

希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ;

提高国内垃圾邮件过滤系统的性能; 丰富一个以中文为主的邮件数据集; 提供一个标准的开放垃圾邮件测试工具。

测评目的

Page 6: SEWM2007 垃圾邮件过滤系统评测

6

数据集的生成

Page 7: SEWM2007 垃圾邮件过滤系统评测

7

真实反映实际系统所接收的邮件流– 内容特征– 到达过程

适当加工以适应评测要求– 去除垃圾邮件中的冗余部分– 合成部分正常邮件– 其它(去除隐私等)

生成的原则

Page 8: SEWM2007 垃圾邮件过滤系统评测

8

数据集生成 -- 邮件流内容特征 语言

– 中文– 其他

编码方式– Base64– 7Bit– etc.

附件类型– gif, doc...

邮件长度

Page 9: SEWM2007 垃圾邮件过滤系统评测

9

数据集生成 -- 到达过程 不同时段的密度分布(基于校园网的邮件日志)

垃圾 / 正常邮件的出现频率– 大约 3:1

单位时间接收邮件数量图

0

1000

20003000

4000

5000

1 3 5 7 9 11 13 15 17 19 21 23

/小时

/封

正常邮件 垃圾邮件

Page 10: SEWM2007 垃圾邮件过滤系统评测

10

垃圾邮件来源 真实垃圾邮件

– 校园网垃圾邮件过滤系统过滤下来的垃圾邮件

– 用户报告垃圾邮件 涵盖 90% 以上的垃圾邮件

Page 11: SEWM2007 垃圾邮件过滤系统评测

11

数据集加工—去除垃圾邮件冗余( 1 ) 超过 60% 的垃圾邮件为重复发送

Page 12: SEWM2007 垃圾邮件过滤系统评测

12

数据集加工—去除垃圾邮件冗余( 2 ) 去除方法

– 基于模糊指纹– 仅有细小差别的邮件视为相同– 适当保留少量冗余( 2 ~ 5 封)

去除结果– Public 数据集

• 样本大小: 234,592• 挑选结果: 45,000

– Private 数据集• 样本大小: 317,714• 挑选结果: 55,506

– 初始候选集: > 2,000,000

Page 13: SEWM2007 垃圾邮件过滤系统评测

13

数据集加工—合成正常邮件 使用真实邮件的头信息 从 Web 上抓取邮件内容

– 多类别、多编码、以中文为主– 自动生成附件– 长度分布与实际情况吻合– 考虑与垃圾邮件特征词的适当交叉

加入部分实际正常邮件(由志愿者贡献)

Page 14: SEWM2007 垃圾邮件过滤系统评测

14

数据集加工—后续处理 去除(可能的)隐私信息

– IP地址、服务器名、用户名等 选择典型时段

– 选择标准• 邮件数量• 到达频次

按典型时段中垃圾 / 正常邮件的分布修改垃圾 / 正常邮件头中的时间字段。

重新命名 封装打包

Page 15: SEWM2007 垃圾邮件过滤系统评测

15

数据集主要分为两个部分,一部分为公开数据集( Public Corpus )共 60000 封( 45,000 垃圾邮件+ 15,000 正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集( Private Corpus )共 75506 ( 55,506 垃圾邮件+ 20,000 正常邮件)封作为测评主办单位主要评测标准。

两个数据集都是由数据文件( data )和索引文件( index )组成 , Private 数据集的索引文件则不公开

数据集生成结果

Page 16: SEWM2007 垃圾邮件过滤系统评测

16

垃圾邮件样本示例 文字变形—影响过滤器的特征词提取 干扰文字—改变邮件的词频分布特征 细微差别—避开基于校验码的过滤器 图片变形— OCR也无能为力 文字变图—图片垃圾是 spammers 的利器

Page 17: SEWM2007 垃圾邮件过滤系统评测

17

垃圾邮件样本示例—文字变形( 1 )

Page 18: SEWM2007 垃圾邮件过滤系统评测

18

垃圾邮件样本示例—文字变形( 2 )

Page 19: SEWM2007 垃圾邮件过滤系统评测

19

垃圾邮件样本示例—文字变形( 3 ) Viagra 的多种拼写:

共 600,426,974,379,824,381,952种拼写方式!

Page 20: SEWM2007 垃圾邮件过滤系统评测

20

垃圾邮件样本示例—干扰文字

垃圾信息

干扰文字

Page 21: SEWM2007 垃圾邮件过滤系统评测

21

垃圾邮件样本示例—细小差别 (1)

Page 22: SEWM2007 垃圾邮件过滤系统评测

22

垃圾邮件样本示例—细小差别 (2)

Page 23: SEWM2007 垃圾邮件过滤系统评测

23

垃圾邮件样本示例—图片变形 (1)

Page 24: SEWM2007 垃圾邮件过滤系统评测

24

垃圾邮件样本示例—图片变形 (2)

Page 25: SEWM2007 垃圾邮件过滤系统评测

25

垃圾邮件样本示例—文字变图

邮件的全部内容 ---- 图片

Page 26: SEWM2007 垃圾邮件过滤系统评测

26

数据集统计特征

Page 27: SEWM2007 垃圾邮件过滤系统评测

27

测评邮件集相关数据统计( 1 )8 16时至 时接收正常邮件与垃圾邮件的比例

垃圾邮件76%

正常邮件24%

正常邮件

垃圾邮件

0 8时至 时接收正常邮件与垃圾邮件的比例

正常邮件44%

垃圾邮件56%

正常邮件

垃圾邮件

16 24时至 时接收正常邮件与垃圾邮件的比例

正常邮件18%

垃圾邮件82%

正常邮件垃圾邮件

Page 28: SEWM2007 垃圾邮件过滤系统评测

28

测评邮件集相关数据统计( 2 ) 邮件中转次数统计

0

2000

4000

6000

8000

10000

12000

14000

16000

邮件数 /封

1 3 5 7 9 11 13 15 17 19 21 23 25 27

次数 /次

邮件经过不同IP中转次数

SpamHam

Page 29: SEWM2007 垃圾邮件过滤系统评测

29

测评邮件集相关数据统计( 3 ) 邮件类型统计

25551

6980

2741

101348829

821

11523

1430

39951996

850 206

0

5000

10000

15000

20000

25000

30000

邮件数 /封

Spam Ham

邮件类型统计分布图

text / pl ai n

mul t i par t / al ternat i ve

mul t i par t / mi xed

mul t i par t / rel ateed

text / html

other

Page 30: SEWM2007 垃圾邮件过滤系统评测

30

测评邮件集相关数据统计( 4 ) 邮件附件类型统计

邮件附件类型比例图

36%

19%14%

15%

5%8% 3%

doctxtzi prarpdfj pgother

Page 31: SEWM2007 垃圾邮件过滤系统评测

31

评测标准

Page 32: SEWM2007 垃圾邮件过滤系统评测

32

本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果( index 文件中的判别)为答案,计算出过滤器的误过滤 hm% 、 sm% ,根据 hm% 、 sm%得到三个指标:

平均误过滤 lam% 、 ROCA 、 h=.1

测评标准

Page 33: SEWM2007 垃圾邮件过滤系统评测

33

测评类型离线型

先用 Public 集训练,再用 Private 集测试 在线型(反馈)

边测试 Private 集边对过滤器进行训练

Page 34: SEWM2007 垃圾邮件过滤系统评测

34

hm% :正常邮件错误判断为垃圾邮件的误过滤率 sm% :垃圾邮件错误判断为正常邮件的误过滤率

( 1- ROCA )%:以 hm% 为横坐标,以 sm% 为纵坐标,取不同的阈值 t 时,做 ROC曲线,求 ROC曲线上方面积。

h=.1 : hm%=0.1 时, sm% 的值 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据( 1- ROCA )%值为最终判断, lam% 、h=.1作为参考

测评相关公式

Page 35: SEWM2007 垃圾邮件过滤系统评测

35

对于每个邮件,过滤器会产生一个 score值,反映该邮件为 spam 的可能性。过滤器会确定自己的阈值 t ;当 score>t 时,邮件为 spam ,否则,邮件为 ham

若确定了所有邮件的 score值,我们可以通过动态调整阈值 t 来获得每种可能的 hm%以及对应的 sm%,即通过动态调整阈值 t ,我们可以将sm%表示成 hm%的某个函数,从而画出 ROC曲线图

测评标准- ROCA 计算原理

参考: TREC 2005 Spam Track Overview

Page 36: SEWM2007 垃圾邮件过滤系统评测

36

测评标准- ROCA 计算原理

ROC曲线下面部分的面积反映了在所有可能值上过滤器效率( effectiveness )的一个累计度量,从而避免用单一的 hm%或 sm%进行衡量的局限性。

当我们衡量 failure ,而非effectiveness 时,可以使用 (1-ROCA)%,此时则对应于 ROC曲线上面部分的面积。

Page 37: SEWM2007 垃圾邮件过滤系统评测

37

评测结果分析

Page 38: SEWM2007 垃圾邮件过滤系统评测

38

参赛队伍测试结果 ZJU

HAINU

ham spam

ham 16232 169Spam 3768 54887-----------------------------Total 20000 55056

ham spam

ham 1450 2062Spam 18550 52994----------------------------Total 20000 55056

Page 39: SEWM2007 垃圾邮件过滤系统评测

39

结果对比

项目 \队伍 zju hainu

Ham% 18.84 (18.30-19.39) 92.75 (92.38-93.11)

Spam% 0.31 (0.26-0.36) 3.75 (3.59-3.91)

Lam% 2.60 (2.42 - 2.80) 41.37 (40.56 - 42.18)

1-ROCA% 7.4682 (7.1747 - 7.7726) 37.7888 (37.3385 - 38.2412)

Page 40: SEWM2007 垃圾邮件过滤系统评测

40

与国际同等过滤器的比较分析

过滤器 标记队名 训练集 测试集 索引文件TREC_Bogofilter Bog Public 集 Private 集 2

DMC_

Statistical Data Comp

ression Models ( Gordon V. Cormac

k )

Dmc Public 集 Private 集 2

ZJU zju Public 集 Private 集 2

总计 3 3 3 6

Page 41: SEWM2007 垃圾邮件过滤系统评测

41

DMC 过滤方法简介采用统计数据压缩技术 ;将邮件作为字节流,无需常规特征提取的

步骤( Tokenization, etc ) ;可以提取字符或二进制流层次上的特征做

为过滤标准; 具有快速判别和动态更新的特点; 实际过滤结果明显优于 bogofilter 。

Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan , Spam Filtering Using Statistical Data Compression Models , Journal of Machine Learning Research , Dec. 2006. pp 2673--2698

Page 42: SEWM2007 垃圾邮件过滤系统评测

42

Bogofilter 过滤方法简介 基于 Bayes 原理; 自动分析邮件文本或者标准输入文本,基于设定 的正常或者垃圾邮件信息判断邮件属性,并返回

邮件是否属于垃圾邮件; 通过对邮件的头( header )和内容( body )

进行统计分析来分类,并能通过用户的分类和纠正来学习;

对附件名进行统计,但是忽略附件内容,如图片等 。

http://bogofilter.sourceforge.net/

Page 43: SEWM2007 垃圾邮件过滤系统评测

43

离线型测评结果分析( 1 ) 结果对比表-全部邮件

项目 \队伍 Bog Dmc zju

Filter result ham spam

ham 17890 1496

Spam 2110 53560

----------------------------

Total 20000 55056

ham spam

ham 17865 538

Spam 2135 54518

----------------------------

Total 20000 55056

ham spam

ham 16232 169

Spam 3768 54887

-----------------------------

Total 20000 55056

Ham% 10.55(10.13-10.98) 10.68 (10.25-11.11) 18.84 (18.30-19.39)

Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)

Lam% 5.43 (5.24 - 5.62) 3.32 (3.15 - 3.50) 2.60 (2.42 - 2.80)

1-ROCA% 5.5475 (5.2739 - 5.8344) 2.6716 (2.5359 - 2.8144) 7.4682 (7.1747 - 7.7726)

Page 44: SEWM2007 垃圾邮件过滤系统评测

44

离线型测评结果分析( 1 ) 结果对比图-全部邮件

0

5

10

15

20

ham% spam% l am% 1-ROCA%

BgoDmczj u

Page 45: SEWM2007 垃圾邮件过滤系统评测

45

离线型测评结果分析( 2 ) 结果对比表-仅中文邮件项目 \队伍 Bog Dmc zju

Filter result ham spam

ham 17990 1496

Spam 253 53560

----------------------------

Total 18043 55056

ham spam

ham 17724 538

Spam 319 54518

----------------------------

Total 18043 55056

ham spam

ham 16231 169

Spam 1812 54887

-----------------------------

Total 18043 55056

Ham% 1.40 (1.24-1.58) 1.77 (1.58-1.97) 10.04 (9.61-10.49)

Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)

Lam% 1.95 (1.84 - 2.07) 1.32 (1.22 - 1.41) 1.82 (1.67 - 1.99)

1-ROCA% 0.4174 (0.3620 - 0.4814)

0.1519 (0.1232 - 0.1872)

1.1728 (1.0850 - 1.2676)

Page 46: SEWM2007 垃圾邮件过滤系统评测

46

离线型测评结果分析( 2 ) 结果对比图-仅中文邮件

02468

1012

ham% spam% l am% 1-ROCA%

BgoDmczj u

Page 47: SEWM2007 垃圾邮件过滤系统评测

47

在线型 ( 反馈 ) 测评结果分析 结果对比表-全部邮件

项目 \队伍 Bog Dmc

Filter result ham spam

ham 19929 827

Spam 71 54229

-------------------------------

Total 20000 55056

ham spam

ham 19916 56

Spam 84 55000

-------------------------------

Total 20000 55056

Ham% 0.35 (0.28-0.45) 0.42 (0.34-0.52)

Spam% 1.50 (1.40-1.61) 0.10 (0.08-0.13)

Lam% 0.73 (0.65 - 0.83) 0.21(0.17 – 0.25)

1-ROCA% 0.1391 (0.1052 - 0.1840) 0.0130 (0.0076 – 0.0223)

Page 48: SEWM2007 垃圾邮件过滤系统评测

48

在线型 ( 反馈 ) 测评结果分析 结果对比图-全部邮件

0

0. 2

0. 4

0. 6

0. 8

1

1. 2

1. 4

1. 6

ham% spam% l am% 1-ROCA%

BgoDmc

Page 49: SEWM2007 垃圾邮件过滤系统评测

49

总结与讨论

Page 50: SEWM2007 垃圾邮件过滤系统评测

50

本次邮件过滤测评总体来说准确性较高,达到了测评目的,但还有以下几点不足之处 :

仅仅对结果进行了测评,而对具体邮件过滤系统的效率没有进行测试

邮件集难度不够,应该有意识的增加邮件类型以加大测评难度

与实际邮件环境尚有一定的差距

总结与讨论

Page 51: SEWM2007 垃圾邮件过滤系统评测

51

总结与讨论 数据集的不足之处:

正常邮件大多数为人工合成,其特征与实际系统会有差异;

垃圾邮件中中文比例比实际情况略高;先后到达的邮件在内容上是独立的,而实际系

统则具有相关性例如:回复邮件中往往包含原邮件内容

规模偏小

Page 52: SEWM2007 垃圾邮件过滤系统评测

52

下一步的工作展望: 进一步的研究与分析垃圾邮件的最新特征 更加逼近真实邮件环境 对测评系统进行改进,使其支持在线、离线测

试以及反馈等各种需求 加大和国际与国内反垃圾邮件组织的联系,为

反垃圾邮件共同努力

总结与讨论

Page 53: SEWM2007 垃圾邮件过滤系统评测

53

谢谢大家!欢迎交流!谢谢大家!欢迎交流!