万胜网络客服中心 - http://help.dns2008.com 为你所需,想你所想!

万胜网络客户服务支持中心  http://help.dns2008.com

当前位置: 首页 > 邮局问题 >

反垃圾邮件新招--聚类分析算法(Cluster Analysis)详解

时间:2009-06-08 19:55来源:万胜网络 作者:dns2008.com 点击:
万胜网络( http://www.dns2008.com )商务邮豪华版从2009年6月起全面支持聚类分析算法(Cluster Analysis)反垃圾邮件功能,系统通过对比所收到的邮件与反垃圾库中的数据相似程度来进行判断,当两者的相似度超过所设定的限值时,即认为所收到的邮件为垃圾邮件
万胜网络(http://www.dns2008.com)商务邮豪华版从2009年6月起全面支持“聚类分析算法(Cluster Analysis)”反垃圾邮件功能,系统通过对比所收到的邮件与反垃圾库中的数据相似程度来进行判断,当两者的相似度超过所设定的限值时,即认为所收到的邮件为垃圾邮件。
 
系统所采用的聚类分析算法简单的说就是比较样本中各语句之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。通过对类的处理将有相似特性的数据集合到一起,进而可以用来对邮件内容进行分析和归类,以达到垃圾邮件识别的目的。

举一个实际操作的例子,以下是一封很常见的垃圾邮件内容:
您好!我公司有发票可以代开,价格优惠,验证后付款,欢迎来电洽谈。联系人:钟先生:158 2832 4051

相信大家都对此类邮件头痛不已,因为如果管理员将“发票”做为关键字进行处理,很快此类垃圾邮件的内容会变异为“fa piao”。如果用“钟先生”做关键字,不久也会变异为“李先生”、“王先生”之类。而电话号码更可以随意变化。

事实上,更让管理员头痛的是通常垃圾邮件会对邮件服务器实施欺骗,常见的方法包括:

您*好*!*我*公*司*有*发*票*可*以*代*开*,*价*格*优*惠*,*验*证*后*付*款*,*欢*迎*来*电*洽*谈*。*联*系*人*:*钟*先*生*:15*8* *2*8*3*2* *4*0*5*1

或在有效内容之前或之后加一段随机信息,比如:

KQNSOWY93DOV您好!我公司有发票可以代开,价格优惠,验证后付款,欢迎来电洽谈。联系人:钟先生:158 2832 4051
 
更复杂的则是远期内容的可能变异,比如:

大家好!我们公司有全国各地发票可以代开,价格实惠,可以验证后付款,欢迎洽谈。 王生:139,6454,5728

截止至2009年,行业内对于此类垃圾邮件的处理,特别是对于最后的几种欺骗以及远期内容变异的识别基本上是非常困难,并且要面对巨大的误判风险。

而聚类分析算法则可以通过分析轻易找出关键类簇之间的频率和距离等信息,从而有效识别此类欺骗,特别是对于远期内容的变异可以做出预测模型,进而可以在邮局系统内对此垃圾邮件及其变种全部免疫。
(万胜网络:www.dns2008.com)
顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片
栏目列表
推荐内容