主攻防“垃圾”技术

IT商界

  现在的垃圾邮件可以说是铺天盖地。另一方面,垃圾邮件又成了计算机病毒新的、快速的传播途径。

  今年第26期的《防垃圾邮件向前走》文章,我们曾报道了面对日益增长的垃圾邮件及它带来的种种弊端,大家目前需要更多、更好的防垃圾邮件技术。最近,一些主流的邮件客户端的最新版本,包括微软即将推出Outlook 2003,都将防垃圾邮件功能作为了主要改进部分,比如Outlook 2003的Junk E-mail、Foxmail 5.0的规则过滤及贝叶斯过滤和Eudora 6的Junk Mail等。现在,大家在为大量垃圾邮件烦恼时,是否已经选择了它们?

  客户端防“垃圾”很重要

  一般情况下,防垃圾邮件比较理想的方法是在邮件服务器端直接把垃圾邮件屏蔽掉,这样不仅用户不会受到垃圾邮件的骚扰,而且可以减少服务器的邮件处理量,节约处理器资源和带宽流量。但是,现在相当多的电子邮件服务提供商并没有把这件事做好,特别是免费电子邮件提供商。我们只能在这最后的一道防线上去抵挡垃圾邮件的进攻。

                        美国垃圾邮件大王查德·科尔伯特

  不过现在首先要明确一点,垃圾邮件是无法被百分之百清理掉的。因为垃圾邮件本身就是一个很不确定的东西,每封垃圾邮件都有不同的发信人、收信人、主题和内容,我们很难通过一个标准的东西去区别这一封邮件是正常的邮件还是垃圾邮件。目前只能通过一些垃圾邮件的过滤技术,最大限度地保护自己的邮箱不受垃圾邮件的骚扰。

  最新防“垃圾”功能大比拼

  最早的过滤技术

  其实邮件客户端软件很早就有一些比较基本的过滤垃圾邮件技术──过滤器,最初这个功能主要是为了实现邮件的分类,但只是简单地对发件人、收件人、主题进行简单归类,其目的是将邮件整理到不同的邮箱中。但是后来发现,对这项技术所过滤的字段做一个扩充后,可以实现一些基本的反垃圾邮件功能。但是这个功能只能用户自己定义,这样容易出现很高的错误识别率,对用户的要求也过高。所以,软件厂商现在一般都不认为这项功能是他们所提供的防垃圾邮件功能,只认为它是一个分类过滤器。

  定制规则防“垃圾”

  现在大部分邮件客户端软件主要以客户端软件本身预置的过滤规则来对邮件进行判断,一般都是每命中一条规则就加分,当分数累计到指定的阈值后就认为是一封垃圾邮件。对于阈值的设置,用户可以根据自己的需要,设定相应的检查级别,满足检查的强度。在阈值的设置上,Eudora 6这次做得非常不错,有从0到100的细分设置,Outlook 2003和Foxmail 5.0只提供了3个固定的级别来调整。

  垃圾邮件有着很大的随机性,不停地发生着各种各样的变化,一成不变的过滤规则很难满足反垃圾邮件的需要,现在只有Outlook 2003提供了一个过滤规则的“Auto Update”功能,可以通过这个功能到Microsoft的网站去自动更新最新的过滤规则。

  规则的有效性是检查过滤规则的重要指标。在中文邮件的过滤中,Foxmail有本土优势,过滤效果相当不错,识别率相当高。而Outlook 2003就比较差了,Eudora 6基本上识别不出中文垃圾邮件,可能高通公司在推出Eudora 6新的反垃圾功能时,没有考虑到中国用户吧。在英文垃圾邮件的过滤中,Outlook 2003和Eudora 6都有相当不错的识别率,而Foxmail要稍差一点,并且还把一些正常的英文邮件识别为垃圾邮件。

  用概率来判断

  除了固定的规则过滤之外,还有一种利用概率统计的方法来判断一封邮件是否是垃圾邮件。Foxmail 5.0提供的贝叶斯过滤就是这种过滤技术的一种。贝叶斯概率算法是在概率统计中比较优秀的自然语言处理算法。简单地说,这种算法就是确定一个事件发生的概率最简单的方法就是统计,它需要进行很多次实验,然后统计一下多次实验结果。

  使用贝叶斯过滤之前,首先便需要邮件客户端统计到足够多的垃圾邮件和非垃圾邮件的关键字,也就是根据最初的统计分析来计算出相关的关键字的出现概率,这也就是贝叶斯过滤的学习功能。反过来,这确实是一件比较痛苦的事,比如最新版的Foxmail要求至少分别学习各1000封垃圾邮件和非垃圾邮件后才可以使用,并且你一定要确认你的垃圾邮件和非垃圾邮件的分类是正确的。

  概率统计的过滤是一个相对比较合理的过滤方式,这样生成的过滤规则均是针对特定的用户的,每个用户因收发的邮件不同而所生成的关键字也不相同,这比统一的过滤规则更能有效地提高对垃圾邮件的正确识别率。Outlook2003和Eudora6现在都没有提供这种过滤方式。

  “黑白名单”法则

  黑白名单功能是一个基于收发件人地址的一个信任与不信任的列表,这个功能提供给用户一个自己定义的空间,可以防止某些关键邮件地址被误认为是垃圾邮件的可能。

  Eudora6、Outlook 2003和Foxmail 5.0都有黑白名单功能,比较而言,Outlook 2003支持邮件地址和域的名单列表,而Foxmail只支持邮件地址,并且Outlook 2003多了一个“信任收件人”列表,这样可以把自己从来不对外公开的内部电子邮件地址、自己的办公邮箱域和自己订阅的电子邮件列表地址加入到这里,以免被误认为是垃圾邮件。

  未来反“垃圾”技术的取向

  不断地完善过滤规则和判断方法,加入更多智能学习的判断和优秀算法,则可以将它们作为规则过滤的有效补充。因为从现在预置的过滤规则来看,它们都有一些区域性,没有考虑到规则的有效性范围。

  再充分实现服务器端和客户端反垃圾邮件资源的实时共享。这个过程的实现确实有一定的难度,需要相当多的反垃圾邮件厂商和邮件客户端厂商紧密合作才有可能实现。但如果能够实现这样一种机制,则可以大大缩短对垃圾邮件处理的响应时间。

  编后:对个人用户来说,客户端软件的防“垃圾”功能的发展能带来更清洁的空间和方便的智能操作。但对整个社会来说,防垃圾邮件是服务提供商和用户共同的责任,单从一方面是不可能完全抵挡住垃圾邮件的,需要大家更多地发掘更多的反垃圾邮件过滤技术,关键是要加强法律和道德上约束,这样才能更好地抵挡垃圾邮件。