基于矩阵分解的隐因子模型-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读基于矩阵分解的隐因子模型

基于矩阵分解的隐因子模型

2018-03-25

基于矩阵分解的隐因子模型

推荐系统是现今广泛运用的一种数据分析方法。常见的如，“你关注的人也关注他”，“喜欢这个物品的用户还喜欢。。”“你也许会喜欢”等等。

常见的推荐系统分为基于内容的推荐与基于历史记录的推荐。

基于内容的推荐，关键在于提取到有用的用户，物品信息，以此为特征向量来进行分类，回归。

基于历史记录的推荐，记录用户的评分，点击，收藏等等行为，以此来判断。

基于内容的推荐对于用户物品的信息收集度要求比较高，而许多情况下很难得到那么多的有用信息。而基于历史记录的方法，则利用一些常见的历史记录，相比与基于内容的方法，数据的收集比较容易。

协同过滤广泛运用在推荐系统中。一般的方式是通过相似性度量，得到相似的用户集合，或者相似的物品集合，然后据此来进行推荐。

Amazon的图书推荐系统就是使用的基于物品相似性的推荐，“我猜你还喜欢**物品”。

不过，简单的协同过滤效果不是很好，我们或考虑用户聚类，得到基于用户的协同过滤；或只考虑物品聚类，得到基于物品的协同过滤。

有人提出了基于矩阵分解（SVD）的隐因子模型（Latent Factor Model）。

隐因子模型通过假设一个隐因子空间，分别得到用户，物品的类别矩阵，然后通过矩阵相乘得到最后的结果。在实践中，LFM的效果会高于一般的协同过滤算法。

1. LFM基本方法

我们用user1,2,3表示用户，item 1,2,3表示物品，Rij表示用户i对于物品j的评分，也就是喜好度。那么我们需要得到一个关于用户-物品的二维矩阵，如下面的R。

常见的系统中，R是一个非常稀疏的矩阵，因为我们不可能得到所有用户对于所有物品的评分。于是利用稀疏的R，填充得到一个满矩阵R’就是我们的目的。

在协同过滤中，我们通常会假设一些用户，或者一些物品属于一个类型，通过类型来推荐。这这里，我们也可以假设类（class），或者说是因子（factor）。我们假设用户对于特定的因子有一定的喜好度，并且物品对于特定的因子有一定的包含度。

比如，用户对于喜剧，武打的喜好度为1,5；而物品对于喜剧，武打的包含度为5,1；那么我们可以大概地判断用户不会喜欢这部电影。

也就是我们人为地抽象出一个隐形因子空间，然后把用户和物品分别投影到这个空间上，来直接寻找用户-物品的喜好度。

一个简单的二维隐因子空间示意图如下：

上图以男-女；轻松-严肃；两个维度作为隐因子，把用户和电影投影到这个二维空间上。

上面的问题，我们用数学的方法描述，就是写成如下的矩阵：

P表示用户对于某个隐因子的喜好度；Q表示物品对于某个隐因子的包含度。我们使用矩阵相乘得到用户-物品喜好度。

正如上面所说，R是一个稀疏的矩阵，我们通过R中的已知值，得到P,Q后，再相乘，反过来填充R矩阵，最后得到一个满的R矩阵。

于是隐因子模型转化为矩阵分解问题，常见的有SVD，以及下面的一些方法。

下面介绍具体的方法

2. Batch learning of SVD

设已知评分矩阵V，I为索引矩阵，I（I,j）=1表示V中的对应元素为已知。U，M分别表示用户-factor，物品-factor矩阵。

于是，我们先用V分解为U*M，目标函数如下：

第一项为最小二乘误差，P可以简单理解为点乘；

第二项，第三项为防止过拟合的正则化项。

求解上述的优化问题，可以用梯度下降法。计算得负梯度方向如下：

我们每次迭代，先计算得到U，M的负梯度方向，然后更新U,M；多次迭代，直至收敛。

这种方法的缺点是对于大的稀疏矩阵来说，有很大的方差，要很小的收敛速度才能保证收敛。

改进：可以考虑加入一个动量因子，来加速其收敛速度：

3. Incomplete incremental learning of SVD

上述的方法对于大的稀疏矩阵来说，不是很好的方法。

于是，我们细化求解过程。

改进后的最优化目标函数如下：

也就是，我们以V的行为单位，每次最优化每一行，从而降低batch learning的方差。

负梯度方向：

4. Complete incremental learning of SVD

同样的，根据incrementlearning的减少方差的思想，我们可以再次细化求解过程。

以V的已知元素为单位，求解。

最优化目标函数如下：

每次迭代，我们遍历每个V中的已知元素，求得一个负梯度方向，更行U,M;

隐因子模型还有相应的其他变化版本，如compound SVD，implicit feedback SVD等，放在下一篇blog里。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SVD 协同过滤推荐系统特征特征向量最小二乘过拟合数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据的关键技术

下一篇迈出数据分析与机器学习的第一步

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

基于矩阵分解的隐因子模型

4. Complete incremental learning of SVD

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】主成分分析（PCA）实战全解析：从原理简 ...

【CDA干货】解析数据分析中基准比的本质：离基准值 ...

CDA数据分析师：驾驭业务数据分析全步骤，赋能业务 ...

【CDA干货】信贷违约率的统计分布特征与测算方法研 ...

【CDA干货】业务效果AB增量评估体系：搭建、实操与 ...

CDA数据分析师：以战略分析方法为翼，赋能企业长远 ...

【CDA干货】复杂抽样的统计描述：方法、要点与实操 ...

【CDA干货】详解聚合函数：可一次使用多个吗？实操 ...

CDA数据分析师视角：战略数据分析与业务数据分析的 ...

【CDA干货】详解B+树叶子节点指针：双向还是单向？ ...

【CDA干货】警惕！REPLACE(UUID(), '-', '')用于INS ...

CDA数据分析师与商业数据分析总体流程：全链路实操 ...

【CDA干货】通过标准差与平均值关系衡量数据波动性 ...

【CDA干货】基于GB标准的t检验、F检验与显著性差异 ...

CDA数据分析师与统计制图：以可视化赋能数据叙事与 ...

【CDA干货】箱线图上下限在线计算：原理、工具与实 ...

【CDA干货】多重共线性下的变量保留策略：平衡信息 ...

CDA数据分析师与六种核心分析方法：从工具到价值的 ...

【CDA干货】特征重要性分析：从模型到业务的核心决 ...

【CDA干货】关联分析之支持度：核心指标的本质、应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载