Upload
fredericka-hunter
View
118
Download
0
Embed Size (px)
DESCRIPTION
SEWM2007 垃圾邮件过滤系统评测. 邮件评测小组 [email protected] 华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室. 主要内容. 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论. 测评背景与目的. 测评背景. 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 - PowerPoint PPT Presentation
Citation preview
2
1. 测评背景与目的2. 数据集生成方法3. 数据集统计特征4. 过滤评测标准5. 测评结果分析6. 总结与讨论
主要内容
3
测评背景与目的
4
垃圾邮件的泛滥– 规模上的增长– 技术上的提高
反垃圾技术不断更新– 目前各种技术各有优缺点– 技术的更新始终没有跟上垃圾邮件的“进步”
有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流
相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。
测评背景
5
希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ;
提高国内垃圾邮件过滤系统的性能; 丰富一个以中文为主的邮件数据集; 提供一个标准的开放垃圾邮件测试工具。
测评目的
6
数据集的生成
7
真实反映实际系统所接收的邮件流– 内容特征– 到达过程
适当加工以适应评测要求– 去除垃圾邮件中的冗余部分– 合成部分正常邮件– 其它(去除隐私等)
生成的原则
8
数据集生成 -- 邮件流内容特征 语言
– 中文– 其他
编码方式– Base64– 7Bit– etc.
附件类型– gif, doc...
邮件长度
9
数据集生成 -- 到达过程 不同时段的密度分布(基于校园网的邮件日志)
垃圾 / 正常邮件的出现频率– 大约 3:1
单位时间接收邮件数量图
0
1000
20003000
4000
5000
1 3 5 7 9 11 13 15 17 19 21 23
/小时
/封
正常邮件 垃圾邮件
10
垃圾邮件来源 真实垃圾邮件
– 校园网垃圾邮件过滤系统过滤下来的垃圾邮件
– 用户报告垃圾邮件 涵盖 90% 以上的垃圾邮件
11
数据集加工—去除垃圾邮件冗余( 1 ) 超过 60% 的垃圾邮件为重复发送
12
数据集加工—去除垃圾邮件冗余( 2 ) 去除方法
– 基于模糊指纹– 仅有细小差别的邮件视为相同– 适当保留少量冗余( 2 ~ 5 封)
去除结果– Public 数据集
• 样本大小: 234,592• 挑选结果: 45,000
– Private 数据集• 样本大小: 317,714• 挑选结果: 55,506
– 初始候选集: > 2,000,000
13
数据集加工—合成正常邮件 使用真实邮件的头信息 从 Web 上抓取邮件内容
– 多类别、多编码、以中文为主– 自动生成附件– 长度分布与实际情况吻合– 考虑与垃圾邮件特征词的适当交叉
加入部分实际正常邮件(由志愿者贡献)
14
数据集加工—后续处理 去除(可能的)隐私信息
– IP地址、服务器名、用户名等 选择典型时段
– 选择标准• 邮件数量• 到达频次
按典型时段中垃圾 / 正常邮件的分布修改垃圾 / 正常邮件头中的时间字段。
重新命名 封装打包
15
数据集主要分为两个部分,一部分为公开数据集( Public Corpus )共 60000 封( 45,000 垃圾邮件+ 15,000 正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集( Private Corpus )共 75506 ( 55,506 垃圾邮件+ 20,000 正常邮件)封作为测评主办单位主要评测标准。
两个数据集都是由数据文件( data )和索引文件( index )组成 , Private 数据集的索引文件则不公开
数据集生成结果
16
垃圾邮件样本示例 文字变形—影响过滤器的特征词提取 干扰文字—改变邮件的词频分布特征 细微差别—避开基于校验码的过滤器 图片变形— OCR也无能为力 文字变图—图片垃圾是 spammers 的利器
17
垃圾邮件样本示例—文字变形( 1 )
18
垃圾邮件样本示例—文字变形( 2 )
19
垃圾邮件样本示例—文字变形( 3 ) Viagra 的多种拼写:
共 600,426,974,379,824,381,952种拼写方式!
20
垃圾邮件样本示例—干扰文字
垃圾信息
干扰文字
21
垃圾邮件样本示例—细小差别 (1)
22
垃圾邮件样本示例—细小差别 (2)
23
垃圾邮件样本示例—图片变形 (1)
24
垃圾邮件样本示例—图片变形 (2)
25
垃圾邮件样本示例—文字变图
邮件的全部内容 ---- 图片
26
数据集统计特征
27
测评邮件集相关数据统计( 1 )8 16时至 时接收正常邮件与垃圾邮件的比例
垃圾邮件76%
正常邮件24%
正常邮件
垃圾邮件
0 8时至 时接收正常邮件与垃圾邮件的比例
正常邮件44%
垃圾邮件56%
正常邮件
垃圾邮件
16 24时至 时接收正常邮件与垃圾邮件的比例
正常邮件18%
垃圾邮件82%
正常邮件垃圾邮件
28
测评邮件集相关数据统计( 2 ) 邮件中转次数统计
0
2000
4000
6000
8000
10000
12000
14000
16000
邮件数 /封
1 3 5 7 9 11 13 15 17 19 21 23 25 27
次数 /次
邮件经过不同IP中转次数
SpamHam
29
测评邮件集相关数据统计( 3 ) 邮件类型统计
25551
6980
2741
101348829
821
11523
1430
39951996
850 206
0
5000
10000
15000
20000
25000
30000
邮件数 /封
Spam Ham
邮件类型统计分布图
text / pl ai n
mul t i par t / al ternat i ve
mul t i par t / mi xed
mul t i par t / rel ateed
text / html
other
30
测评邮件集相关数据统计( 4 ) 邮件附件类型统计
邮件附件类型比例图
36%
19%14%
15%
5%8% 3%
doctxtzi prarpdfj pgother
31
评测标准
32
本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果( index 文件中的判别)为答案,计算出过滤器的误过滤 hm% 、 sm% ,根据 hm% 、 sm%得到三个指标:
平均误过滤 lam% 、 ROCA 、 h=.1
测评标准
33
测评类型离线型
先用 Public 集训练,再用 Private 集测试 在线型(反馈)
边测试 Private 集边对过滤器进行训练
34
hm% :正常邮件错误判断为垃圾邮件的误过滤率 sm% :垃圾邮件错误判断为正常邮件的误过滤率
( 1- ROCA )%:以 hm% 为横坐标,以 sm% 为纵坐标,取不同的阈值 t 时,做 ROC曲线,求 ROC曲线上方面积。
h=.1 : hm%=0.1 时, sm% 的值 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据( 1- ROCA )%值为最终判断, lam% 、h=.1作为参考
测评相关公式
35
对于每个邮件,过滤器会产生一个 score值,反映该邮件为 spam 的可能性。过滤器会确定自己的阈值 t ;当 score>t 时,邮件为 spam ,否则,邮件为 ham
若确定了所有邮件的 score值,我们可以通过动态调整阈值 t 来获得每种可能的 hm%以及对应的 sm%,即通过动态调整阈值 t ,我们可以将sm%表示成 hm%的某个函数,从而画出 ROC曲线图
测评标准- ROCA 计算原理
参考: TREC 2005 Spam Track Overview
36
测评标准- ROCA 计算原理
ROC曲线下面部分的面积反映了在所有可能值上过滤器效率( effectiveness )的一个累计度量,从而避免用单一的 hm%或 sm%进行衡量的局限性。
当我们衡量 failure ,而非effectiveness 时,可以使用 (1-ROCA)%,此时则对应于 ROC曲线上面部分的面积。
37
评测结果分析
38
参赛队伍测试结果 ZJU
HAINU
ham spam
ham 16232 169Spam 3768 54887-----------------------------Total 20000 55056
ham spam
ham 1450 2062Spam 18550 52994----------------------------Total 20000 55056
39
结果对比
项目 \队伍 zju hainu
Ham% 18.84 (18.30-19.39) 92.75 (92.38-93.11)
Spam% 0.31 (0.26-0.36) 3.75 (3.59-3.91)
Lam% 2.60 (2.42 - 2.80) 41.37 (40.56 - 42.18)
1-ROCA% 7.4682 (7.1747 - 7.7726) 37.7888 (37.3385 - 38.2412)
40
与国际同等过滤器的比较分析
过滤器 标记队名 训练集 测试集 索引文件TREC_Bogofilter Bog Public 集 Private 集 2
DMC_
Statistical Data Comp
ression Models ( Gordon V. Cormac
k )
Dmc Public 集 Private 集 2
ZJU zju Public 集 Private 集 2
总计 3 3 3 6
41
DMC 过滤方法简介采用统计数据压缩技术 ;将邮件作为字节流,无需常规特征提取的
步骤( Tokenization, etc ) ;可以提取字符或二进制流层次上的特征做
为过滤标准; 具有快速判别和动态更新的特点; 实际过滤结果明显优于 bogofilter 。
Andrej Bratko, Gordon V. Cormack, Bogdan Filipic, Thomas R. Lynam and Blaz Zupan , Spam Filtering Using Statistical Data Compression Models , Journal of Machine Learning Research , Dec. 2006. pp 2673--2698
42
Bogofilter 过滤方法简介 基于 Bayes 原理; 自动分析邮件文本或者标准输入文本,基于设定 的正常或者垃圾邮件信息判断邮件属性,并返回
邮件是否属于垃圾邮件; 通过对邮件的头( header )和内容( body )
进行统计分析来分类,并能通过用户的分类和纠正来学习;
对附件名进行统计,但是忽略附件内容,如图片等 。
http://bogofilter.sourceforge.net/
43
离线型测评结果分析( 1 ) 结果对比表-全部邮件
项目 \队伍 Bog Dmc zju
Filter result ham spam
ham 17890 1496
Spam 2110 53560
----------------------------
Total 20000 55056
ham spam
ham 17865 538
Spam 2135 54518
----------------------------
Total 20000 55056
ham spam
ham 16232 169
Spam 3768 54887
-----------------------------
Total 20000 55056
Ham% 10.55(10.13-10.98) 10.68 (10.25-11.11) 18.84 (18.30-19.39)
Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)
Lam% 5.43 (5.24 - 5.62) 3.32 (3.15 - 3.50) 2.60 (2.42 - 2.80)
1-ROCA% 5.5475 (5.2739 - 5.8344) 2.6716 (2.5359 - 2.8144) 7.4682 (7.1747 - 7.7726)
44
离线型测评结果分析( 1 ) 结果对比图-全部邮件
0
5
10
15
20
ham% spam% l am% 1-ROCA%
BgoDmczj u
45
离线型测评结果分析( 2 ) 结果对比表-仅中文邮件项目 \队伍 Bog Dmc zju
Filter result ham spam
ham 17990 1496
Spam 253 53560
----------------------------
Total 18043 55056
ham spam
ham 17724 538
Spam 319 54518
----------------------------
Total 18043 55056
ham spam
ham 16231 169
Spam 1812 54887
-----------------------------
Total 18043 55056
Ham% 1.40 (1.24-1.58) 1.77 (1.58-1.97) 10.04 (9.61-10.49)
Spam% 2.72 (2.58-2.86) 0.98 (0.90-1.06) 0.31 (0.26-0.36)
Lam% 1.95 (1.84 - 2.07) 1.32 (1.22 - 1.41) 1.82 (1.67 - 1.99)
1-ROCA% 0.4174 (0.3620 - 0.4814)
0.1519 (0.1232 - 0.1872)
1.1728 (1.0850 - 1.2676)
46
离线型测评结果分析( 2 ) 结果对比图-仅中文邮件
02468
1012
ham% spam% l am% 1-ROCA%
BgoDmczj u
47
在线型 ( 反馈 ) 测评结果分析 结果对比表-全部邮件
项目 \队伍 Bog Dmc
Filter result ham spam
ham 19929 827
Spam 71 54229
-------------------------------
Total 20000 55056
ham spam
ham 19916 56
Spam 84 55000
-------------------------------
Total 20000 55056
Ham% 0.35 (0.28-0.45) 0.42 (0.34-0.52)
Spam% 1.50 (1.40-1.61) 0.10 (0.08-0.13)
Lam% 0.73 (0.65 - 0.83) 0.21(0.17 – 0.25)
1-ROCA% 0.1391 (0.1052 - 0.1840) 0.0130 (0.0076 – 0.0223)
48
在线型 ( 反馈 ) 测评结果分析 结果对比图-全部邮件
0
0. 2
0. 4
0. 6
0. 8
1
1. 2
1. 4
1. 6
ham% spam% l am% 1-ROCA%
BgoDmc
49
总结与讨论
50
本次邮件过滤测评总体来说准确性较高,达到了测评目的,但还有以下几点不足之处 :
仅仅对结果进行了测评,而对具体邮件过滤系统的效率没有进行测试
邮件集难度不够,应该有意识的增加邮件类型以加大测评难度
与实际邮件环境尚有一定的差距
总结与讨论
51
总结与讨论 数据集的不足之处:
正常邮件大多数为人工合成,其特征与实际系统会有差异;
垃圾邮件中中文比例比实际情况略高;先后到达的邮件在内容上是独立的,而实际系
统则具有相关性例如:回复邮件中往往包含原邮件内容
规模偏小
52
下一步的工作展望: 进一步的研究与分析垃圾邮件的最新特征 更加逼近真实邮件环境 对测评系统进行改进,使其支持在线、离线测
试以及反馈等各种需求 加大和国际与国内反垃圾邮件组织的联系,为
反垃圾邮件共同努力
总结与讨论
53
谢谢大家!欢迎交流!谢谢大家!欢迎交流!