决策树(Decision Tree)是机器学习中一种常见的算法,它的思想非常朴素,就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法,当被用于分类时叫做分类树,被用于回归时叫做回归树。 一、决策 ...
2020-07-09XGBoost是诞生于2014年2月的一种专攻梯度提升算法的机器学习函数库,它有很好的学习效果,速度也非常快,与梯度提升算法在另一个常用机器学习库scikit-learn中的实现相比,XGBoost的性能可以提升10倍以上。还有,X ...
2020-07-09用SQL语句添加字段并不难,下面小编整理了SQL添加和修改字段的基本命令,希望对各位小伙伴有所帮助。 增加字段: alter table 表名 add 字段名 type not null default 0 在指定位置插入新字段: alter ...
2020-07-09库: show databases;显示所有数据库 create database <数据库名> ;创建数据库 use <数据库名>;使用数据库 drop <数据库名> 直接删除数据库, 不提醒 show tables; 查看当前数据库中的表 desc na ...
2020-07-09
前面小编给大家简单介绍过拟合和欠拟合时,提到了一个概念:学习曲线,我们通过学习曲线能够很清晰的判别出模型现在说出的状态是欠拟合还是过拟合,下面小编具体整理了学习曲线的相关内容,希望对大家有所帮助。 ...
2020-07-09
KNN的全称是K-Nearest Neighbors,具体意思为K个最近的邻居。KNN算法可以说是机器学习算法中最简单、最基础的算法了。既能用于分类,也能用于回归。是通过测量不同特征值之间的距离来进行分类。 KNN的基本思路 ...
2020-07-09
近来数据记录和规模属性都在急剧增长,由于大多数数据挖掘算法都是直接逐列处理数据,因此导致算法越来越慢。为了保证减少数据列数的同时,丢失的数据信息尽可能少, 数据降维处理算法应运而生。 一、降维的 ...
2020-07-09
数据标准化(normalization)是一个常用的数据预处理操作,就是对原始各项指标数据按比例进行缩放,将数据的单位限制去除,转化为无规模、无量纲的纯数值,减少规模、特征、分布差异等对模型的影响,以便于不同单位 ...
2020-07-09
今天是2020年7月8日,高考第二天,小编祝各位考生超常发挥,取得好成绩。 对很多人来说,高考都是人生的一次重要转折,但小编觉得,其实应该是高考+志愿填报,才是真正的人生转折点。 高考 ...
2020-07-09
目前数据分析行业大火,人人都想学习数据分析,但是是应该把数据分析当成一种工具呢?还是一种职业? 其实小编是比较倾向于:数据分析是一种技能的,下面具体解释一下。 我们先来看一下数据分析的定义: ...
2020-07-08
集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略将这些学习器组合起来,让它们来完成学习任务的,通常可以获得比单一学习显著优越的学习器。 常见的集成算法模型有:Bagging、Boosting、Stack ...
2020-07-08
过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。 通过学习曲线来理解 ...
2020-07-08
一、欠拟合概念及理解 机器学习中欠拟合是一个常见的问题,简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。 图 ...
2020-07-08Kmeans算法属于无监督学习的一种聚类算法,这种算法的目的为:在数据所属类别及类别数量不明确的前提下,依据数据自身的特点对数据进行聚类。聚类过程中,对于类别数量k的选取,需要一定的先验知识,也可根据“类 ...
2020-07-08
最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中,最大后验估计是通过利用经验数据获得对未观测量的点态估计。 与极大似然估计类似,不同的是,在似然函数后面多乘了一 ...
2020-07-08
矩阵特征值与特征向量在机器学习算法中经常会用到,每次出现都有着其独特的意义,如果不能深入理解特征值和特征向量两个概念,对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...
2020-07-08
召回率(Recall),也被称为 查全率,或者True Positive Rate,R= TP/(TP+FN) ; 反映了所有真正为正例的样本中被分类器判定出来为正例的比例。 精度,或者叫做精确率(precision):P = TP/(TP+FP);反映了被分类器 ...
2020-07-08
混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是 ...
2020-07-08数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中,数据挖掘和数据分析是两个重要的方式,目 ...
2020-07-07
anaconda是一个用于科学计算的python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。anaconda利用工具/命令conda来进行 ...
2020-07-07在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06