京公网安备 11010802034615号
经营许可证编号:京B2-20210330
一、基于协同过滤的推荐系统
协同过滤(Collaborative Filtering)的推荐系统的原理是通过将用户和其他用户的数据进行比对来实现推荐的。比对的具体方法就是通过计算两个用户数据之间的相似性,通过相似性的计算来说明两个用户数据之间的相似程度。相似度函数的设计必须满足度量空间的三点要求,即非负性,对称性和三角不等性。常用的相似度的计算方法有:欧式距离法、皮尔逊相关系数法和夹角余弦相似度法。具体的可以参见上一篇文章“协同过滤推荐算法(1) ”。
二、面临的问题
在基本的协同过滤的推荐系统中(主要指上面所提到的基本模型中),我们是在整个空间上计算相似度,进而实现推荐的。但是现实中的数据往往并不是那么规整,普遍的现象就是在用户数据中出现很多未评分项,如下面所示的数据:

对于这样的稀疏矩阵,我们利用基本的协同过滤推荐算法的效率必将很低。对于这样的稀疏矩阵,我们可以利用SVD对其进行降维,将这样的稀疏矩阵映射到另一个具体的主题空间,SVD降维的原理可以参见博文“SVD奇异值分解”。
三、利用SVD构造主题空间
我们对上面所示的这样一个矩阵进行SVD分解,分解的结果为:
1、U矩阵

(U矩阵,矩阵U主要反应的是用户信息)
2、对角阵S

(S矩阵,矩阵S主要反映的是11个奇异值)
3、VT矩阵

(VT矩阵,矩阵VT主要反映的是物品信息)
4、选取奇异值并映射主题空间
奇异值分解公式为:
,现在我们要将原始数据映射到反映物品的相互关系中。选取前5个奇异值,奇异值的选取符合能量的规则,选择出来的奇异值的能量要能反映90%的原始信息。这样新的主题空间的计算方式为:数据分析师培训
即可得新的主题空间:
四、实验的仿真
我们在这样的数据集上做推荐计算。其中user为2号用户。

(相似度的计算)

(推荐结果)
MATLAB代码
主程序
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% 主函数
% 导入数据
%data = [4,4,0,2,2;4,0,0,3,3;4,0,0,1,1;1,1,1,2,0;2,2,2,0,0;1,1,1,0,0;5,5,5,0,0];
data = [2,0,0,4,4,0,0,0,0,0,0;0,0,0,0,0,0,0,0,0,0,5;0,0,0,0,0,0,0,1,0,4,0;3,3,4,0,3,0,0,2,2,0,0;5,5,5,0,0,0,0,0,0,0,0;
0,0,0,0,0,0,5,0,0,5,0;4,0,4,0,0,0,0,0,0,0,5;0,0,0,0,0,4,0,0,0,0,4;0,0,0,0,0,0,5,0,0,5,0;0,0,0,3,0,0,0,0,4,5,0;
1,1,2,1,1,2,1,0,4,5,0];
% reccomendation
%[sortScore, sortIndex] = recommend(data, 3, 'cosSim');
[sortScore, sortIndex] = recommend(data, 2, 'cosSim');
len = size(sortScore);
finalRec = [sortIndex, sortScore];
disp(finalRec);
SVD空间映射的函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ score ] = SVDEvaluate( data, user, simMeas, item )
[m,n] = size(data);
simTotal = 0;
ratSimTotal = 0;
% 奇异值分解
[U S V] = svd(data);
% 求使得保留90%能量的奇异值
sizeN = 0;%记录维数
[m_1,n_1] = size(S);
a = 0;%求总能量
for i = 1:m_1
a = a + S(i,i)*S(i,i);
end
b = a*0.9;%能量的90%
c = 0;
for i = 1:n_1
c = c + S(i,i)*S(i,i);
if c >= b
sizeN = i;
break;
end
end
%物品降维后的空间
itemTransformed = data' * U(:,1:sizeN) * S(1:sizeN,1:sizeN)^(-1);
for j = 1:n
userRating = data(user, j);%此用户评价的商品
if userRating == 0 || j == item%只是找到已评分的商品
continue;
end
vectorA = itemTransformed(item,:);
vectorB = itemTransformed(j,:);
switch simMeas
case {'cosSim'}
similarity = cosSim(vectorA,vectorB);
case {'ecludSim'}
similarity = ecludSim(vectorA,vectorB);
case {'pearsSim'}
similarity = pearsSim(vectorA,vectorB);
end
disp(['the ', num2str(item), ' and ', num2str(j), ' similarity is ', num2str(similarity)]);
simTotal = simTotal + similarity;
ratSimTotal = ratSimTotal + similarity * userRating;
end
if simTotal == 0
score = 0;
else
score = ratSimTotal./simTotal;
end
end
推荐的函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ sortScore, sortIndex ] = recommend( data, user, simMeas )
% 获取data的大小
[m, n] = size(data);%m为用户,n为商品
if user > m
disp('The user is not in the dataBase');
end
% 寻找用户user未评分的商品
unratedItem = zeros(1,n);
numOfUnrated = 0;
for j = 1:n
if data(user, j) == 0
unratedItem(1,j) = 1;%0表示已经评分,1表示未评分
numOfUnrated = numOfUnrated + 1;
end
end
if numOfUnrated == 0
disp('the user has rated all items');
end
% 对未评分项打分,已达到推荐的作用
itemScore = zeros(numOfUnrated,2);
r = 0;
for j = 1:n
if unratedItem(1,j) == 1%找到未评分项
r = r + 1;
%score = evaluate(data, user, simMeas, j);
score = SVDEvaluate(data, user, simMeas, j);
itemScore(r,1) = j;
itemScore(r,2) = score;
end
end
%排序,按照分数的高低进行推荐
[sortScore, sortIndex_1] = sort(itemScore(:,2),'descend');
[numOfIndex,x] = size(sortIndex_1(:,1));
sortIndex = zeros(numOfIndex,1);
for m = 1:numOfIndex
sortIndex(m,:) = itemScore(sortIndex_1(m,:),1);
end
end
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28