标点符(钱魏 Way)

协同过滤推荐系统的那些不足点

类目(种类)推荐杂很多情境下行不通,因为有太多的产品属性,而每个属性(比如价钱,颜色,风格,面料,等等)在不同的时候对于消费者的重要程度都是不一样的。取而代之的是协同过滤推荐系统。但是协同过滤推荐系统也不是那么完美无缺,他或多或少的会有那么一些问题~

1、数据稀疏问题

协同过滤的精度主要取决于用户数据的多少。如果一个系统有很多用户的历史数据,他就能更好的对用户的喜欢做出预测。所以,目前推荐系统做的最好的都是那些有着很大量用户数据的公司,比如Google, Yahoo, Netflix, Amazon等等。一个好的推荐系统首先需要类目(种类)数据(从目录或者其它形式得到),然后系统必须捕获并且分析这些用户数据(用户行为),然后,再应用神奇的算法工作。分析越多的类目(种类)和用户数据,系统越有可能生产好的推荐。但是,这又是一个蛋和鸡的问题:要形成好的推荐,首先需要有大量的用户,这样才能得到大量的推荐数据。

2、新用户问题(新产品问题)

这个问题和数据稀疏问题有一些相似性,他是指如何对新用户做出推荐。当一个新用户进入一个站点时,我们对他的兴趣爱好还一无所知,这时如何做出推荐是一个很重要的问题。一般在这个时候,我们只是向用户推荐那写普遍反映比较好的物品,也就是说,推荐完全是基于物品的。对于新的产品,同样存在如上的问题。

3、长尾问题(长尾用户/长尾商品)

新用户问题还有一个变种就是长尾(long tail)问题,在Amazon中,不是所有的用户都对很多书给出了评分,很多用户只给少数的书给出了评分,这些用户就处在一个长尾中,如何处理那些不太表露自己兴趣的用户,也是推荐系统的一个主要问题。除此之外,图书的长尾也是一个不可忽视的问题。

4、不断变化的用户喜好

用户的兴趣不是永远不变的,随着年龄和阅历的变化,用户的行为会发生变化。协同过滤其实还应该加入一个时间因子。今天自己浏览amazon时是会有特定意图的,明天或许会有另一个特定意图。举个典型的例子:有可能某天我会上amazon为自己买本书,但第二天我到amazon的原因可能是要为姐姐找一份生日礼物。对于用户喜好,推荐系统也可能错误的标注。

5、隐性喜好难处理

在现在的推荐系统中,用户的喜欢是通过用户对某些物品进行评分获得的。这种获得用户兴趣的方法是一种很直接的方法。但在实际的互联网中,用户有很多隐性的方法表露他们的喜欢。比如用户的文字评论,我们可以通过自然语言处理从用户的评论中获得用户的兴趣;或者是用户的浏览行为,比如用户长时间的浏览一个物品,或者用户经常浏览一个物品,或者用户
购买了一个物品,这些行为都可以作为模式识别系统中的特征。

 6、偏激的用户和另类的产品

世界上有一些用户是很偏激的。他们和大多数人的观点是相反的。对于这种用户,现有的推荐系统做出的预测往往是很差的。如何处理偏激的用户,是推荐系统中的一个重要问题。和偏激用户相对应的,是颠覆性的产品。比如一些古怪(特别)的电影会有一些问题,有一些电影观众对它又爱又恨,这种类型的电影是很难去做推荐的,因为用户对它们会有各种反映而且无法预计。

7、马太效应的影响

在互联网中,物品实在是太多了,而推荐系统只能推荐有限的物品。被推荐系统所推荐的物品将会越来越热门,这就导致了大量很好的物品可能会被推荐系统所淹没。解决这个问题的主要方法是增加推荐系统的多样性,比如一个推荐系统发现一个用户非常喜欢吃德芙巧克力,那么他给这个用户推荐10个产品,不需要都是德芙巧克力,也可以推荐别的一些巧克力,或者一些和巧克力相似的甜品。在推荐时,不仅要推荐用户喜欢的东西,而且要通过推荐让用户喜欢一些东西,有的时候,用户自己也不知道他喜欢什么,通过推荐系统,他可能会发现一些新东西他比较喜欢。

 8、推荐系统的作弊行为

只要涉及到经济利益,就有人作弊。搜索引擎作弊是一个被研究了很久的问题,因为在搜索引擎中,自己的网站排名越高,就能获得越多的经济利益。在推荐系统中也是如此,比如在淘宝中,如果一个卖家的物品经常被推荐,他就可能获得很多经济利益。很多电子商务的推荐系统都遭受到了作弊的干扰,一些人通过一些技术手段,对自己卖的物品给出非常高的评分,这就是一种作弊行为。作弊行为相当于人为的向系统中注入了噪声。目前解决作弊的算法主要是基于信任度和信用的。现在很多电子商务网站都引入了信用系统,比如淘宝等等。如何设计信用系统和推荐系统更好的融合,是一个重要的研究问题。

码字很辛苦,转载请注明来自标点符《协同过滤推荐系统的那些不足点》

评论