京公网安备 11010802034615号
经营许可证编号:京B2-20210330
支持向量机(SVM)理论总结系列.线性可分(附带R程序案例:用体重和心脏重量来预测一只猫的性别)
1.名词解释
支持向量机中的机:在机器学习领域,常把一些算法看做一个机器,如分类机(也叫作分类器)
2.问题描述
空间中有很多已知类别的点,现在想用一个面分开他们,并能对未知类别的点很好的识别类别。
3.算法思想
由问题描述可知,现在算法要解决两个问题:
找到一个平面,可以很好的区分不同类别的点,即使分类器的训练误差小,线性可分时要求训练误差为0。
很好的识别未知类别样本的类别,即多大程度上信任该分类器在未知样本上分类的效果。
令满足以上两点的超平面方程为:

图1 画图展示

4.公式推导
这里接着上一步,公式推导如何求w和b,下图2所示。
图2 公式推导

5.程序实现(案例)
案例介绍:用体重和心脏重量来预测一只猫的性别。
#数据集来自MASS包的cats数据集
#下面的程序将实现用体重和心脏重量来预测一只猫的性别
library(e1071)
data(cats,package="MASS")
summary(cats)
inputData=data.frame(cats[, c (2,3)], Sex= as.factor(cats$Sex))
train=inputData[1:108,]#训练集
test=inputData[109:144,]#测试集
#初步建模
x=train[,-3]
y=train[,3]
#核函数选择高斯核函数
model1=svm(x,y,kernel='radial',gamma=if(is.vector(x)) 1 else1/ncol(x))
#计算训练误差,结果显示有14个样本类别错误
z=test[,-3]
zy=test[,3]
zy=as.integer(zy)
pred1=predict(model1,x)
table(pred1,y)
#优化模型
attach(train)#将数据集train按列单独确认为向量
type=c("C-classification","nu-classification","one-classification")
kernel=c("linear","polynomial","radial","sigmoid")
pred2=array(0,dim=c(108,3,4))
accuracy=matrix(0,3,4)
yy=as.integer(y)
for(i in 1:3)
{
for(j in 1:4)
{
pred2[,i,j]=predict(svm(x,y,type=type[i],kernel=kernel[j]),x)
if(i>2) accuracy[i,j]=sum(pred2[,i,j]!=1)
else accuracy[i,j]=sum(pred2[,i,j]!=yy)
}
}
#12种组合算法在训练集上的误差
wrong=matrix(0,3,4)
for(i in 1:3)
{
for(j in 1:4)
{
wrong[i,j]=mean(yy != pred2[,i,j])#错误率占比
}
}
#选择训练集上误差最小的三种组合,计算在测试集上的误差,三种组合在训练集上的错误率分别为0.241,0.259,0.278;三种组合分别是nu-classification+radial、C-classification+linear组合和C-classification+radial组合。
pred3=array(0,dim=c(108,3,4))
for(i in 1:3)
{
for(j in 1:4)
{
pred3[,i,j]=predict(svm(x,y,type=type[i],kernel=kernel[j]),z)
if(i>2) accuracy[i,j]=sum(pred3[,i,j]!=1)
else accuracy[i,j]=sum(pred3[,i,j]!=yy)
}
}
mean(zy != pred3[,2,3])
mean(zy != pred3[,1,1])
mean(zy != pred3[,1,3])
#计算结果分别为0.417,0,0数据分析师培训
#在测试集上错误率为0的两种算法分别是C-classification+linear组合和C-classification+radial组合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28