绿色过滤技术的是与非

热点直击

“绿坝·花季护航”预装事件让这款软件成了近期的焦点,也使得沉寂已久的内容过滤技术被推上了风口浪尖。抛开事件本身的争论不谈,就内容过滤技术而言,国际上也一直都有争论,让我们先来了解一下过滤技术是如何识别网络内容的健康与否的。

“绿坝”们是如何过滤的

优秀的过滤技术可以解决信息管理方面的困扰,而不成熟的过滤技术不但会直接影响网络用户的自由,甚至成为系统安全的隐患。虽然目前的过滤软件各有特点,不过采用的主流过滤技术原理都大同小异。

URL过滤技术

URL过滤,也被叫做名单过滤,是一项简单有效的技术。它的原理非常简单,将URL和与之对应的页面内容进行分析,然后建立一个分类网址库。当用户访问网站时,它会将要访问的网址与这个库中的地址进行对比,以判定该网站是否可以访问。比如我们要访问A网站,但碰巧这个网站被收录在过滤软件的不良网站库中,过滤软件就会认为此网站禁止访问而做出相应反应,Vista的“家长控制”组件就包含了这个技术。

这种过滤方法有一个显而易见的麻烦,就是需要不断地维护分类网址库,但是浩如烟海的互联网每天都会有大量新网站出现,已经收录的网站也可能出现内容变动,因此要求分类网址库不仅能实时更新而且能准确分析,显然是无法完全做到的。

对于网站的分类,以前也有一些好的想法,比如“互联网内容分级联盟”(ICRA)曾倡导建立一套网站分级标准,由联盟和网站设立者共同维护这套规范。这套规范,要求网站在代码中加入便于浏览器识别的分级标志,比如打上“政府网站”、“新闻网站”、“成人网站”等这样的标志,像微软IE浏览器内置的网站分级审查工具,就是基于这个分级标准的。遗憾的是,尽管网站分级比名单式的网站过滤要理想得多,但浩如烟海的互联网不可能全都遵守这套标准,最终导致它也只能作为一个理想化的模型存在。

关键字过滤技术

如果说URL过滤是一种需要预先输入过滤对象的“被动技术”的话,那关键字过滤就是一种主动出击的过滤方式。关键字识别同样使用了一个关键字列表,监控计算机上的相关文字。比如在搜索引擎中搜索“sex”或者“色情”,监控程序发现当前文字在监控列表之内,立刻会发出警报并且执行相应的反应动作。

我们可以假想这样的情况,明明是一篇好的网文,只是因为含有作者的一两句粗口而惨遭过滤。为解决这样的问题,很多现代过滤软件采用 “评分”的方式来排查网页中的敏感信息。当网页中含有关键词时,系统会通过预先指定的权重和出现的频率并计算出一个总分,如果分值没有达到限制范围,则允许用户访问;反之,则判为不良网页,限制用户访问。

目前,关键字过滤技术是应用最广泛的主动过滤手段,也是当今内容过滤系统的重头戏。

图像过滤技术

图像过滤是屏蔽网络暴力、色情图片的新兴力量,尽管关于图片识别技术的研究有很多年的历史,但它仍然是一个国际性的难题。让我们以“绿坝·花季护航”软件采用的图像过滤原理为例,了解它的实现方法。

“绿坝·花季护航”的颜色检测是通过原始图像、图标检测、文本检测、颜色检测、姿态检测这种顺序来实现的,作为其中的难点,颜色和姿态的判定决定了图像判断的准确程度。

从技术角度来说,色彩判别的实现关键是采用HSV颜色空间[色彩(H)、纯度(S)、明度(V)]建立肤色模型,确定人的皮肤颜色在所选取的HSV颜色空间的分布情况,进而计算图像涂色暴露程度,确定一个派别图像肤色暴露程度的阈值(临界值),据此区分正常图像和色情图像。

在姿态检测方面,绿坝对图像进行小坡边缘测试,得到一个边缘图像,确定物体的外接矩形,然后将图像转为灰度图像,对疑似皮肤的区域和色情数据库中的图像特征进行对比。

将这套复杂的理论应用于视频流,还可以起到过滤敏感视频信息的目的,例如媒体在此前对“绿坝·花季护航”的测试中,发现它的确可以发现并阻截涉及床戏、洗浴镜头的网络视频,原因就是肉色的色块已经达到了软件的过滤标准。

绿色过滤技术的尴尬和局限

没有一种技术可以解决所有的问题,内容过滤技术更是这样。正像前面说的那样,基于名单的网站过滤有赖于人工更新,太过被动且难以适应爆炸式的网站增加速度。而智能化程度较高的关键字过滤和图像过滤则不可避免地要遭遇各种尴尬和局限。

关键字过滤的瓶颈在于机器永远理解不了人类文字自由组合的奥妙,尤其是对于每个汉字都有若干解释的中文来说,对敏感字眼的直接扑杀常常导致一些可笑的误报情形。于是,“你妈叫你快去做早操”经常会被严格的过滤程序处理成“XX叫你快去做早X”,读者只能靠推测来分析原来的意思。

而在图像过滤方面,由于算法仅仅依照图片的颜色、轮廓等进行特征判断,所以“误诊”的概率很高,在对“绿坝·花季护航”的测试中,那只黄色的、喜欢摆各种风骚姿势照相的加菲猫,不幸完全符合色情图片的标准,它的《双猫记》海报已经被当作敏感内容遭到屏蔽。同样,由于目前的算法主要是对黄色有感觉,所以其他人种(如黑色、棕色人种)的色情图片往往会成为漏网之鱼。

因此,利用更智能的文字和图像识别软件来监控数据内容势在必行。在发展方向上,图像识别需要利用计算机视觉、图像理解、模式识别等技术,对图像的颜色、形状、纹理、轮廓、对象的空间关系等视觉特征进行自动提取,并与图像特征数据库中的候选图像在视觉特征上进行相似度匹配。文本识别包括关键词、特征词、属性词识别,语法、语义识别,主题、立场、属性识别,涉及规则匹配、串匹配、自然语言理解等技术,其中的复杂程度可想而知。因此,面对纷繁复杂的互联网和越来越多的人性化、隐私诉求,不管是“绿坝·花季护航”,还是未来的任何一项国家级安全解决方案,都任重道远!