大数据时代最该关心的事儿-CDA数据分析师官网

如何快速简单的理解决策树的概念？

决策树(Decision Tree)是机器学习中一种常见的算法，它的思想非常朴素，就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法，当被用于分类时叫做分类树，被用于回归时叫做回归树。一、决策 ...

2020-07-09

XGBoost算法的这3类参数，你知道吗？

XGBoost是诞生于2014年2月的一种专攻梯度提升算法的机器学习函数库，它有很好的学习效果，速度也非常快，与梯度提升算法在另一个常用机器学习库scikit-learn中的实现相比，XGBoost的性能可以提升10倍以上。还有，X ...

2020-07-09

如何用SQL语句添加和修改字段？

用SQL语句添加字段并不难，下面小编整理了SQL添加和修改字段的基本命令，希望对各位小伙伴有所帮助。增加字段： alter table 表名 add 字段名 type not null default 0 在指定位置插入新字段: alter ...

2020-07-09

mysql数据库（库操作和表操作）常用基本命令汇总

库： show databases;显示所有数据库 create database <数据库名> ;创建数据库 use <数据库名>;使用数据库 drop <数据库名> 直接删除数据库, 不提醒 show tables; 查看当前数据库中的表 desc na ...

2020-07-09

学习曲线--帮你清晰判断过拟合和欠拟合

前面小编给大家简单介绍过拟合和欠拟合时，提到了一个概念：学习曲线，我们通过学习曲线能够很清晰的判别出模型现在说出的状态是欠拟合还是过拟合，下面小编具体整理了学习曲线的相关内容，希望对大家有所帮助。 ...

2020-07-09

对于KNN算法概念以及原理的简单理解

KNN的全称是K-Nearest Neighbors，具体意思为K个最近的邻居。KNN算法可以说是机器学习算法中最简单、最基础的算法了。既能用于分类，也能用于回归。是通过测量不同特征值之间的距离来进行分类。 KNN的基本思路 ...

2020-07-09

你需要掌握的4种常用数据降维方法

近来数据记录和规模属性都在急剧增长，由于大多数数据挖掘算法都是直接逐列处理数据，因此导致算法越来越慢。为了保证减少数据列数的同时，丢失的数据信息尽可能少，数据降维处理算法应运而生。一、降维的 ...

2020-07-09

这3种数据标准化方法，你知道吗？

数据标准化(normalization)是一个常用的数据预处理操作，就是对原始各项指标数据按比例进行缩放，将数据的单位限制去除，转化为无规模、无量纲的纯数值，减少规模、特征、分布差异等对模型的影响，以便于不同单位 ...

2020-07-09

教你用数据分析的方法填报志愿

今天是2020年7月8日，高考第二天，小编祝各位考生超常发挥，取得好成绩。对很多人来说，高考都是人生的一次重要转折，但小编觉得，其实应该是高考+志愿填报，才是真正的人生转折点。高考 ...

2020-07-09

应该怎样看待数据分析？是技能还是职业？

目前数据分析行业大火，人人都想学习数据分析，但是是应该把数据分析当成一种工具呢?还是一种职业? 其实小编是比较倾向于：数据分析是一种技能的，下面具体解释一下。我们先来看一下数据分析的定义： ...

2020-07-08

3种常见集成算法模型的详细理解

集成算法（Emseble Learning）是构建多个学习器，然后通过一定策略将这些学习器组合起来，让它们来完成学习任务的，通常可以获得比单一学习显著优越的学习器。常见的集成算法模型有：Bagging、Boosting、Stack ...

2020-07-08

过拟合(over-fitting)出现的原因及相应的解决方法

过拟合(over-fitting)是指机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。也就是referstoa模型对于训练数据拟合程度过高的情况。通过学习曲线来理解 ...

2020-07-08

如何理解欠拟合？常用的处理方法有哪些？

一、欠拟合概念及理解机器学习中欠拟合是一个常见的问题，简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。图 ...

2020-07-08

Kmeans均值聚类算法的基本原理是什么？

Kmeans算法属于无监督学习的一种聚类算法，这种算法的目的为：在数据所属类别及类别数量不明确的前提下，依据数据自身的特点对数据进行聚类。聚类过程中，对于类别数量k的选取，需要一定的先验知识，也可根据“类 ...

2020-07-08

最大后验估计MAP是什么？它是怎么推导出来的？

最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中，最大后验估计是通过利用经验数据获得对未观测量的点态估计。与极大似然估计类似，不同的是，在似然函数后面多乘了一 ...

2020-07-08

特征值和特征向量的详细计算及几何意义

矩阵特征值与特征向量在机器学习算法中经常会用到，每次出现都有着其独特的意义，如果不能深入理解特征值和特征向量两个概念，对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...

2020-07-08

召回率(Recall)与精确率(precision)的区别在哪里？怎样进行衡量

召回率(Recall)，也被称为查全率，或者True Positive Rate，R= TP/(TP+FN) ; 反映了所有真正为正例的样本中被分类器判定出来为正例的比例。精度，或者叫做精确率(precision)：P = TP/(TP+FP);反映了被分类器 ...

2020-07-08

关于混淆矩阵(Confusion Matrix)概念的分析和理解

混淆矩阵(confusion matrix)，又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测，矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于，它能够很容易的看到机器学习是 ...

2020-07-08

python数据挖掘的基本任务是什么？

数据挖掘(data mining，简称DM)，是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中，数据挖掘和数据分析是两个重要的方式，目 ...

2020-07-07

anaconda是什么？怎么下载配置？

anaconda是一个用于科学计算的python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。anaconda利用工具/命令conda来进行 ...

2020-07-07

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】Excel透视表进阶：两个字段相乘的完整实 ...

【CDA干货】DBeaver实现UAT到SIT表数据同步（同表结 ...

CDA数据分析师：统计制图（数据可视化）实战指南— ...

【CDA干货】层次回归分析：变量是否需要标准化？— ...

【CDA干货】SQL实时表实现解析：从技术原理到落地实 ...

CDA数据分析师：数据分析基础范式的践行者与价值放 ...

【CDA干货】成分得分系数矩阵与载荷矩阵：不是同一 ...

【CDA干货】大数据应用的行业密码：不同企业的实践 ...

CDA 数据分析师：从数据分析基本概念到实战落地 — ...

【CDA干货】金融统计实战案例：银行个人信贷违约预 ...

【CDA干货】mtcars 数据集的实战

CDA 数据分析师：企业数据需求与数据分析需求的精准 ...

【CDA干货】大模型每层神经元个数怎么定？从原理到 ...

【CDA干货】购买决策推动力分析

CDA 数据分析师：企业数字化转型的核心引擎 —— 从 ...

【CDA干货】用模型挖掘数据中的隐性特征：方法、案 ...

【CDA干货】大模型结果稳定性方法论：从输入到落地 ...

CDA 数据分析师：企业数据安全管理方法论落地指南 ...

【CDA干货】机器学习分类模型：从原理到实战的完整 ...

【CDA干货】交叉频数分布：分类变量的关联放大镜， ...