机器学习业务应用以输出决策判断为目标。可解释性是指人类能够理解决策原因的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决定或预测。模型可解释性指对模型内部机制的理解以及对模型结果的理解。在建模阶段,进行可解释性分析可以辅助开发人员理解模型,进行模型的对比选择,必要时优化调整模型;在投入运行阶段,可向业务方解释模型的内部机制,对模型结果进行解释。推荐系统中的可解释性分析也是很有必要的。
推荐算法学习(十一):基于邻域的协同过滤
协同过滤是推荐系统的经典算法之一。基于邻域的协同过滤有两类:UserCF,给用户推荐和他兴趣相似的其他用户喜欢的物品;ItemCF,给用户推荐和他之前喜欢的物品相似的物品。基于用户相似度与基于物品相似度的区别在于基于用户相似度是基于评分矩阵中的行向量相似度求解,而基于项目相似度计算式基于评分矩阵中列向量相似度求解。
推荐算法学习(十):CTR预估算法
CTR预估问题是竞价广告核心问题之一。针对CTR预估样本数量大,LR模型学习能力有限,人工特征工程成本高等问题,提出了GBDT+LR、Wide & Deep等算法,能够自动发现有效的特征及特征组合,弥补人工经验不足,得到更好的预估结果。
推荐算法学习(九):基于内容的推荐
基于内容的推荐(Content-based Recommendations,CB)是基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型,为用户提供推荐服务。这里的标的物相关信息可以是对标的物文字描述的metadata信息、标签、用户评论、人工标注的信息等;用户相关信息是指人口统计学信息(如年龄、性别、地域等);用户对标的物的操作行为可以是评论、收藏、点赞、观看、浏览、点击等。基于内容的推荐算法一般只依赖于用户自身的行为为用户提供推荐,不涉及到其他用户的行为。
推荐算法学习(八):因子分解机
在使用MF解决评分预测问题时,我们仅考虑了user和item特征,但实际上一个预测问题包含的特征维度可能很多,如评分时间、用户信息等。FM算法则可用于解决此类预测问题,包括回归问题及二分类问题。
推荐算法学习(七):推荐系统中的冷启动
在之前推荐系统相关文章中介绍的推荐算法都是基于用户行为数据、用户物品的数据等已经累积的大量用户数据进行推荐的。这些数据的获取对于一些热门的网站或者app来说也许不是个担心的问题,但是对于一些全新上线的网站等开始阶段的平台来说,如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。
推荐算法学习(六):基于流行度的推荐
基于流行度的推荐是围绕流行度计算产生的推荐模型,也就是什么内容吸引用户,就给用户推荐什么内容,可以用于解决冷启动问题。流行度是指商品/内容的热度,其衡量方式可以是一段时间内某个item被用户反馈的次数,如点击率、观看率,完播率等。微博热搜榜、音乐排行榜、商品销量排行榜就是基于流行度的推荐。
推荐算法学习(五):评分预测&矩阵分解
推荐系统的两大应用场景分别是评分预测(Rating Prediction)和Top-N推荐(Item Ranking)。其中评分预测主要用于评价网站,比如用户给自己看过的电影评多少分,或者用户给自己看过的书籍评价多少分,矩阵分解技术主要应用于评分预测问题;Top-N推荐常用于购物网站或拿不到显式评分的网站,通过用户的隐式反馈为用户提供一个可能感兴趣的Item列表,此排序任务需要排序模型进行建模。本文主要介绍如何利用矩阵分解来解决评分预测问题。
推荐算法学习(四):PageRank、图论
在PageRank提出之前,搜索引擎面临着返回结果质量不高、容易被作弊等问题。如何找到优质的网页?首先需要匹配用户查找的内容,再按照权重排序输出给用户。1998年,Stanford大学博士生Larry Page和Sergey Brin创立了Google,受到论文影响力的启发,使用基于图论的PageRank模型计算海量网页的重要性,并按照重要性对网页进行排序。这一方法对Google现在数千亿的市值起到了不可磨灭的作用。
推荐算法学习(三):关联规则
关联规则是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。