基于流行度的推荐是围绕流行度计算产生的推荐模型,也就是什么内容吸引用户,就给用户推荐什么内容,可以用于解决冷启动问题。流行度是指商品/内容的热度,其衡量方式可以是一段时间内某个item被用户反馈的次数,如点击率、观看率,完播率等。微博热搜榜、音乐排行榜、商品销量排行榜就是基于流行度的推荐。
流行度的影响因素
时间因素。一方面,用户访问一个应用或服务,是有时间偏好的,这种时间偏好导致不同的应用或服务在时间维度有不同的“流量规律”。比如新闻类网站我们一般会集中在早晨和晚上时段查看。另一方面,内容热度随着时间的推移是会发生衰减的。比如去年热卖的商品与今年销售的新品谁的质量高,我们也不能下定论。
空间因素。一方面,用户访问一个应用或服务,进入不同位置的用户多少是有常常都有隐含的差异,这就决定了,访问应用位置的流量是有差异的。比如新闻类网站我们一般会集中看首页首航有什么文章。另一方面,内容热度是随着地理位置的迁移而发生衰减的。比如南方人可能不会关注北方的天气情况。
社会心理因素。一个商品,歌曲是否流行,未必代表它本身质量好坏,与从众心理也有关,社会心理学家阿西曾经做过验证从众心理的实验,结果表明测试者中大约有2/3到3/4的人都具有从众行为。在环境的压力下,个体容易受到群体的影响,在群体中个性会被淹没,群体思想将会占主导地位。
从MovieLens数据集中了解流行度的趋势
分析MovieLens数据集,也可以总结出流行度的一些特征。
-
5分和1分所占比例很小,但对于系统来说价值最大(Youtube中5分和1分的价值最大)
-
高流行度的item所占比例很小
-
低流行度的item评分差异大(越不流行=>自己的喜好来判断)
-
高流行度的item评分差异小(越流行=>群体的喜好影响力大)
-
高中低评分的电影,评分随时间变化的趋势相似
-
评分随时间的变化趋势,都是先升高再降低 => 评分趋势随时间的变化规律很重要
-
高流行度的item,评分波动越小,反之低流行度的item,评分波动大=> 用户的从众心理
流行度VS个性化推荐
- 长尾理论:市场上冷门产品所占据的共同市场份额不低于热门产品所占据的市场份额。因为热门商品需求很高,但数量少。相反,单个冷门商品需求少,但数据量巨大
- 流行度较高的item,较少体现用户个性
- 流行度较低的item,更能代表用户个性(兴趣),计算用户相似度更准确=> 我们在计算相似度推荐的时候,可以推荐相似度高,但不流行的item
基于流行度的推荐
基于上述结论,基于流行度的推荐方法从用户相似度计算和推荐结果两个方面考虑了流行度的影响。
(1)流行度对于用户相似度的计算影响
- 用户之间是否相似,应该考虑共同item的流行度:
其中,avg_pop表平均流行度;item_pop(i)表item i的流行度。
- 考虑流行度的影响,修正之后的相似度计算:
(2)流行度对于推荐结果的影响
-
假设邻居个数取为10,对于某个item A有5个邻居感兴趣,另外item B也有5个邻居感兴趣。此时item A的流行度 » item B,该优先推荐哪个?
-
推荐度不只与被反馈的次数有关,同样引入权重因子,考虑item流行度的影响:
其中item_pop(i)表示item i的流行度。
- 进行TopN推荐的时候,既考虑反馈次数,也要考虑流行度的降权影响,即 num(i) * weigth_r(i),然后进行TopN推荐
考虑推荐系统本身的特性进行推荐
流行度是对商品热度的一种衡量方式,是否对推荐结果有效,还需要具体分析,考虑推荐系统本身的特性进行推荐。
(1)冷启动,数据稀疏性
对于新用户,采用非个性化推荐(基于流行度的推荐);对于老用户,可以考虑高流行度对商品推荐的降权影响,挖掘长尾。
(2)考虑不同网站的特性
如电商网站,比如唯品会特卖,目标是打造爆款;婚恋网站,比如世纪佳缘,目标是让更多人活跃起来。
(3)脆弱性
只要有利益,就会有作弊的可能性,如故意增加或者压制某些item被推荐的可能性,可采用SEO优化或降权。
(4)推荐系统的效果评估指标
评价的指标包括精准率,多样性,新颖度,覆盖率等,需结合具体的目标来进行使用基于流行度的推荐。