可被操纵的群体智慧
专栏
评论的可信度来源于两个方面:评论的数量和每个用户在评论时的客观性。

作为Web 2.0时代的重要特征,群体参与、用户提供内容的方式早已深入人心;而网络带来的信任问题,让评价成为我们认知网络事物的重要参考。我们无法亲自考察的产品,通过那些别人用过、去过的人的评价,相对于网上的宣传文字来说,看上去可信得多。
2005年,有本叫做《长尾理论》的书红极一时。《连线》主编克里斯·安德森写的这本书是个不折不扣的反讽——本来是对“热门”这一概念的终结,却让这本书本身成了一个大热门。他在书中提出互联网时代的新经济规则,即在互联网上,因为有近乎无穷的空间和近乎无穷的需求,因此传统意义上的冷门商品,依然可能成为企业收入来源。与之相对的,是无数使用者在网上的言论,他们取代了过去的传统广告,建立了一种更客观、更中立的评论方式,让消费者对于产品质量的了解,不再仅仅来源于厂商的新闻稿。群体智慧指引消费者,使其免于受到过分夸张的广告的诱惑。
某些程度上,克里斯·安德森是正确的。看看亚马逊的发展,就很好地说明了这一点。从来没有一个书店能够像亚马逊那样拥有那么多的种类,也没有任何一个书店能够像亚马逊那样从那些冷门书中获得那么多收入。人们津津乐道于一本旧书重登畅销书排行榜的案例,就是对这种群体智慧最好的诠释。
所以网站上充满了各种评论。网上商店、博客之类不必再说,专门以评论为主营业务的网站也层出不穷。像大众点评网、口碑网这样专门以提供群体智慧为荣的网站,已经成了许多人习惯的信息来源。然而,这种方式真的值得信赖吗?我们真的可以相信别人的评论对我们自己有帮助?
不算从众心理的影响,这些评论的可信性实际上可能也并不够高。评论的可信度来源于两个方面:评论的数量和每个用户在评论时的客观性。我们可以认为,当对某项产品评论的人越多,其打分也就越接近真实的价值。看看世界上最大的电影数据库IMDB上对于电影的评论就可以理解这一点:一部新电影出现在IMDB上时,其评分往往会过高或者过低,只有当评分达到某个数量级,例如数百个或者上千个评分之后,才不再有太大的变动。这时的评分,也就意味着上千个电影观众对这部片子的看法。只有到这时,评价才是有参考价值的。
卡内基梅隆大学和马德拉大学的助理教授瓦西里斯·寇斯达寇斯对评分的问题很感兴趣,于是做了一个调查。他从亚马逊书店、IMDB和书评网站BookCrossings上收集了数十万项商品和数百万条投票评论,加以交叉对比,总结出其中的投票模式。结果发现,我们认为“群体智慧”的投票评论模式,在很大程度上是由一小撮人控制的。看起来像是网民们对某个商品有公允的评论,但实际上却不是那么回事。
以前人们曾经做过相关研究,认为这样基于用户自主评分的系统会受到某些因素的影响,例如打分者的年龄和偏见。但瓦西里斯和他的团队发现情况可能不仅如此。大概5%的亚马逊用户为10件以上的商品评价过,其中有更少一部分甚至为上百件商品打过分。类似情形我们并不陌生——在某些活动中刷票,和我们现在谈到的情况十分相似。只是这项新研究为我们揭示了另一个可能曾经被忽视的真相:即使是在那些没有很强利益驱动的评分过程中,也不一定能够保证评分是客观的。
几天前,有一位朋友来我所在的城市旅游。他预订了一个点评网站上评分不错的酒店,但是真正入住时,才发现与描述和评论中的差别不小。按照瓦西里斯的研究结果来看,这可能并不是一个操纵评价的个例。
如果把这种情况归于懒惰,人们可能并不会认同。这更多的是网站设计和使用习惯方面的原因,例如评论系统的设计是否过于复杂,以及使用者是否能够通过相当简单的方法来表达自己的观点。
然而技术不能解决所有问题。对一个评价系统来说,使足够多的用户来评价,以及有意避免那些过于积极和过于消极的评价——这类评价往往出于情绪而非事实,这可能是最好的解决方法。所以有些网站开始尝试新的方法,允许用户对其他用户的评论作出评论。我们熟知的cnBeta和VeryCD就采用了这种方式,来获得更多使用者的看法。
这是有必要的。毕竟,当汇聚众人看法的群体智慧丧失了公信力时,很难想象我们还有什么可以相信。