SEWM2007 垃圾邮件过滤系统评测

SEWM2007 垃圾邮件过滤系统评测SEWM2007 垃圾邮件过滤系统评测

邮件评测小组[email protected]

华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

mailto:[email protected]

2

1. 测评背景与目的2. 数据集生成方法3. 数据集统计特征4. 过滤评测标准5. 测评结果分析6. 总结与讨论

主要内容

3

测评背景与目的

4

垃圾邮件的泛滥– 规模上的增长– 技术上的提高

反垃圾技术不断更新– 目前各种技术各有优缺点– 技术的更新始终没有跟上垃圾邮件的“进步”

有效控制垃圾邮件泛滥需要借鉴多领域的知识，更需要来自不同领域、掌握不同技术的泛垃圾人员的交流

相对于英文，中文垃圾邮件过滤在技术、语料库等方面有较大差距。

测评背景

5

希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台；

提高国内垃圾邮件过滤系统的性能；丰富一个以中文为主的邮件数据集；提供一个标准的开放垃圾邮件测试工具。

测评目的

6

数据集的生成

7

真实反映实际系统所接收的邮件流– 内容特征– 到达过程

适当加工以适应评测要求– 去除垃圾邮件中的冗余部分– 合成部分正常邮件– 其它（去除隐私等）

生成的原则

8

数据集生成 -- 邮件流内容特征语言

– 中文– 其他

编码方式– Base64– 7Bit– etc.

附件类型– gif, doc...

邮件长度

9

数据集生成 -- 到达过程不同时段的密度分布（基于校园网的邮件日志）

垃圾 / 正常邮件的出现频率– 大约 3:1

单位时间接收邮件数量图

0

1000

20003000

4000

5000

1 3 5 7 9 11 13 15 17 19 21 23

/小时

/封

正常邮件垃圾邮件

10

垃圾邮件来源真实垃圾邮件

– 校园网垃圾邮件过滤系统过滤下来的垃圾邮件

– 用户报告垃圾邮件涵盖 90% 以上的垃圾邮件

11

数据集加工—去除垃圾邮件冗余（ 1 ）超过 60% 的垃圾邮件为重复发送

12

数据集加工—去除垃圾邮件冗余（ 2 ）去除方法

– 基于模糊指纹– 仅有细小差别的邮件视为相同– 适当保留少量冗余（ 2 ～ 5 封）

去除结果– Public 数据集

• 样本大小： 234,592• 挑选结果： 45,000

– Private 数据集• 样本大小： 317,714• 挑选结果： 55,506

– 初始候选集： > 2,000,000

13

数据集加工—合成正常邮件使用真实邮件的头信息从 Web 上抓取邮件内容

– 多类别、多编码、以中文为主– 自动生成附件– 长度分布与实际情况吻合– 考虑与垃圾邮件特征词的适当交叉

加入部分实际正常邮件（由志愿者贡献）

14

数据集加工—后续处理去除（可能的）隐私信息

– IP地址、服务器名、用户名等选择典型时段

– 选择标准• 邮件数量• 到达频次

按典型时段中垃圾 / 正常邮件的分布修改垃圾 / 正常邮件头中的时间字段。

重新命名封装打包

15

数据集主要分为两个部分，一部分为公开数据集（ Public Corpus ）共 60000 封（ 45,000 垃圾邮件＋ 15,000 正常邮件）提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库；另一部分为不公开数据集（ Private Corpus ）共 75506 （ 55,506 垃圾邮件＋ 20,000 正常邮件）封作为测评主办单位主要评测标准。

两个数据集都是由数据文件（ data ）和索引文件（ index ）组成， Private 数据集的索引文件则不公开

数据集生成结果

16

垃圾邮件样本示例文字变形—影响过滤器的特征词提取干扰文字—改变邮件的词频分布特征细微差别—避开基于校验码的过滤器图片变形— OCR也无能为力文字变图—图片垃圾是 spammers 的利器

17

垃圾邮件样本示例—文字变形（ 1 ）

18

垃圾邮件样本示例—文字变形（ 2 ）

19

垃圾邮件样本示例—文字变形（ 3 ） Viagra 的多种拼写：

共 600,426,974,379,824,381,952种拼写方式！

20

垃圾邮件样本示例—干扰文字

垃圾信息

干扰文字

21

垃圾邮件样本示例—细小差别 (1)

22

垃圾邮件样本示例—细小差别 (2)

23

垃圾邮件样本示例—图片变形 (1)

24

垃圾邮件样本示例—图片变形 (2)

25

垃圾邮件样本示例—文字变图

邮件的全部内容 ---- 图片

26

数据集统计特征

27

测评邮件集相关数据统计（ 1 ）8 16时至时接收正常邮件与垃圾邮件的比例

垃圾邮件76%

正常邮件24%

正常邮件

垃圾邮件

0 8时至时接收正常邮件与垃圾邮件的比例

正常邮件44%

垃圾邮件56%

正常邮件

垃圾邮件

16 24时至时接收正常邮件与垃圾邮件的比例

正常邮件18%

垃圾邮件82%

正常邮件垃圾邮件

28

测评邮件集相关数据统计（ 2 ）邮件中转次数统计

0

2000

4000

6000

8000

10000

12000

14000

16000

邮件数 /封

1 3 5 7 9 11 13 15 17 19 21 23 25 27

次数 /次

邮件经过不同IP中转次数

SpamHam

29

测评邮件集相关数据统计（ 3 ）邮件类型统计

25551

6980

2741

101348829

821

11523

1430

39951996

850 206

0

5000

10000

15000

20000

25000

30000

邮件数 /封

Spam Ham

邮件类型统计分布图

text / pl ai n

mul t i par t / al ternat i ve

mul t i par t / mi xed

mul t i par t / rel ateed

text / html

other

30

测评邮件集相关数据统计（ 4 ）邮件附件类型统计

邮件附件类型比例图

36%

19%14%

15%

5%8% 3%

doctxtzi prarpdfj pgother

31

评测标准

32

本次测评根据测评工具得出的二元判别结果（垃圾邮件还是正常邮件）为原始数据，根据人为判断后得出的结果（ index 文件中的判别）为答案，计算出过滤器的误过滤 hm% 、 sm% ，根据 hm% 、 sm%得到三个指标：

平均误过滤 lam% 、 ROCA 、 h=.1

测评标准

33

测评类型离线型

先用 Public 集训练，再用 Private 集测试在线型（反馈）

边测试 Private 集边对过滤器进行训练

34

hm% ：正常邮件错误判断为垃圾邮件的误过滤率 sm% ：垃圾邮件错误判断为正常邮件的误过滤率

（ 1－ ROCA ）％：以 hm% 为横坐标，以 sm% 为纵坐标，取不同的阈值 t 时，做 ROC曲线，求 ROC曲线上方面积。

h=.1 ： hm%=0.1 时， sm% 的值三个指标数值越小，表示垃圾邮件过滤系统性能越好；最后将根据（ 1－ ROCA ）％值为最终判断， lam% 、h=.1作为参考

测评相关公式

35

对于每个邮件，过滤器会产生一个 score值，反映该邮件为 spam 的可能性。过滤器会确定自己的阈值 t ；当 score>t 时，邮件为 spam ，否则，邮件为 ham

若确定了所有邮件的 score值，我们可以通过动态调整阈值 t 来获得每种可能的 hm％以及对应的 sm％，即通过动态调整阈值 t ，我们可以将sm％表示成 hm％的某个函数，从而画出 ROC曲线图

测评标准－ ROCA 计算原理

参考： TREC 2005 Spam Track Overview

36

测评标准－ ROCA 计算原理

ROC曲线下面部分的面积反映了在所有可能值上过滤器效率（ effectiveness ）的一个累计度量，从而避免用单一的 hm％或 sm％进行衡量的局限性。

当我们衡量 failure ，而非effectiveness 时，可以使用 (1-ROCA)％，此时则对应于 ROC曲线上面部分的面积。

37

评测结果分析

38

参赛队伍测试结果 ZJU

HAINU

ham spam

ham 16232 169Spam 3768 54887-----------------------------Total 20000 55056

ham spam

ham 1450 2062Spam 18550 52994----------------------------Total 20000 55056

39

结果对比

项目 \队伍 zju hainu

Ham% 18.84 (18.30-19.39) 92.75 (92.38-93.11)

Spam% 0.31 (0.26-0.36) 3.75 (3.59-3.91)

Lam% 2.60 (2.42 - 2.80) 41.37 (40.56 - 42.18)

1-ROCA% 7.4682 (7.1747 - 7.7726) 37.7888 (37.3385 - 38.2412)

40

与国际同等过滤器的比较分析

过滤器标记队名训练集测试集索引文件TREC_Bogofilter Bog Public 集 Private 集 2

DMC_

Statistical Data Comp

ression Models （ Gordon V. Cormac

k ）

Dmc Public 集 Private 集 2

ZJU zju Public 集 Private 集 2

总计 3 3 3 6

41

DMC 过滤方法简介采用统计数据压缩技术 ;将邮件作为字节流，无需常规特征提取的

步骤（ Tokenization, etc ） ;可以提取字符或二进制流层次上的特征做

为过滤标准；具有快速判别和动态更新的特点；实际过滤结果明显优于 bogofilter 。

Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan ， Spam Filtering Using Statistical Data Compression Models ， Journal of Machine Learning Research ， Dec. 2006. pp 2673--2698

42

Bogofilter 过滤方法简介基于 Bayes 原理；自动分析邮件文本或者标准输入文本，基于设定的正常或者垃圾邮件信息判断邮件属性，并返回

邮件是否属于垃圾邮件；通过对邮件的头（ header ）和内容（ body ）

进行统计分析来分类，并能通过用户的分类和纠正来学习；

对附件名进行统计，但是忽略附件内容，如图片等。

http://bogofilter.sourceforge.net/

43

离线型测评结果分析（ 1 ）结果对比表－全部邮件

项目 \队伍 Bog Dmc zju

Filter result ham spam

ham 17890 1496

Spam 2110 53560

----------------------------

Total 20000 55056

ham spam

ham 17865 538

Spam 2135 54518

----------------------------

Total 20000 55056

ham spam

ham 16232 169

Spam 3768 54887

-----------------------------

Total 20000 55056

Ham% 10.55(10.13-10.98) 10.68 (10.25-11.11) 18.84 (18.30-19.39)

Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)

Lam% 5.43 (5.24 - 5.62) 3.32 (3.15 - 3.50) 2.60 (2.42 - 2.80)

1-ROCA% 5.5475 (5.2739 - 5.8344) 2.6716 (2.5359 - 2.8144) 7.4682 (7.1747 - 7.7726)

44

离线型测评结果分析（ 1 ）结果对比图－全部邮件

0

5

10

15

20

ham% spam% l am% 1-ROCA%

BgoDmczj u

45

离线型测评结果分析（ 2 ）结果对比表－仅中文邮件项目 \队伍 Bog Dmc zju


ham 17990 1496

Spam 253 53560

----------------------------

Total 18043 55056

ham spam

ham 17724 538

Spam 319 54518

----------------------------

Total 18043 55056

ham spam

ham 16231 169

Spam 1812 54887

-----------------------------

Total 18043 55056

Ham% 1.40 (1.24-1.58) 1.77 (1.58-1.97) 10.04 (9.61-10.49)

Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)

Lam% 1.95 (1.84 - 2.07) 1.32 (1.22 - 1.41) 1.82 (1.67 - 1.99)

1-ROCA% 0.4174 (0.3620 - 0.4814)

0.1519 (0.1232 - 0.1872)

1.1728 (1.0850 - 1.2676)

46

离线型测评结果分析（ 2 ）结果对比图－仅中文邮件

02468

1012


BgoDmczj u

47

在线型 ( 反馈 ) 测评结果分析结果对比表－全部邮件

项目 \队伍 Bog Dmc


ham 19929 827

Spam 71 54229

-------------------------------

Total 20000 55056

ham spam

ham 19916 56

Spam 84 55000

-------------------------------

Total 20000 55056

Ham% 0.35 (0.28-0.45) 0.42 (0.34-0.52)

Spam% 1.50 (1.40-1.61) 0.10 (0.08-0.13)

Lam% 0.73 (0.65 - 0.83) 0.21(0.17 – 0.25)

1-ROCA% 0.1391 (0.1052 - 0.1840) 0.0130 (0.0076 – 0.0223)

48

在线型 ( 反馈 ) 测评结果分析结果对比图－全部邮件

0

0. 2

0. 4

0. 6

0. 8

1

1. 2

1. 4

1. 6


BgoDmc

49

总结与讨论

50

本次邮件过滤测评总体来说准确性较高，达到了测评目的，但还有以下几点不足之处 :

仅仅对结果进行了测评，而对具体邮件过滤系统的效率没有进行测试

邮件集难度不够，应该有意识的增加邮件类型以加大测评难度

与实际邮件环境尚有一定的差距

总结与讨论

51

总结与讨论数据集的不足之处：

正常邮件大多数为人工合成，其特征与实际系统会有差异；

垃圾邮件中中文比例比实际情况略高；先后到达的邮件在内容上是独立的，而实际系

统则具有相关性例如：回复邮件中往往包含原邮件内容

规模偏小

52

下一步的工作展望：进一步的研究与分析垃圾邮件的最新特征更加逼近真实邮件环境对测评系统进行改进，使其支持在线、离线测

试以及反馈等各种需求加大和国际与国内反垃圾邮件组织的联系，为

反垃圾邮件共同努力

总结与讨论

53

谢谢大家！欢迎交流！谢谢大家！欢迎交流！

Documents

SEWM2007 垃圾邮件过滤系统评测