精彩阅读_第67页-CDA数据分析师官网

shuffle在Spark及Hadoop中的作用大吗？

shuffle是一个能产生奇迹的地方，不管是在 Spark 还是Hadoop中，它们的作用都是至关重要的。在Spark中，一般在执行reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作时，会发生shuff ...

2020-05-13

NameNode和Datanode分别是什么？

HDFS集群有两类节点，并以管理者-工作者模式运行，即一个NameNode（管理者）和多个DataNode（工作者）。 NameNode是Master节点，有点类似Linux里的根目录，是管理文件系统的命名空间。管理数据块映射 ...

2020-05-12

利用Python绘制诱人的特定流程图：桑基图

桑基是何许图也据小z不严谨的抽样提问统计，90%想学习桑基图的旁友，都是被她妖艳炫酷的外表所吸引。而桑基图真正代表了什么？和类似图表相比的独特性是什么？ ...

2020-05-12

Series是什么？

Series数据结构 Series是一种类似于一位数组的对象，由一组数据及一组与之相关的数据标签（即索引）组成。上面这样的数据结构就是Series，第一列数字是数据标签，第二列是具体的数据 ...

2020-05-12

学python需要安装虚拟机吗？

Python在数据分析领域受到社会大众的欢迎，一般而言，在windows上也是能运行Python程序的，不过前提是需要安装python解释器。但是绝大多数的python程序都是跑在Linux机器上的，所以我们需要配置一台linu ...

2020-05-12

kudu是什么意思？

Kudu是一个列式存储的用于快速分析的NoSQL数据库，提供了类似SQL的查询语句，与RDBMS十分类似，有**PRIMARY KEY **，基于主键查询而不是HBase的RowKey。 kudu拥有毫秒级延迟与其他大数据数据库不同，Kud ...

2020-05-12

在统计学中，什么是卡方分布?它有什么特点?

什么是卡方分布呢？卡方分布（chi-square distribution），又名西格玛分布，统计学领域的应用学科，是统计学中的一个非常有用的著名分布。当n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标 ...

2020-05-12

数据清理利器：SQL数据清洗！

俗话说的好，工欲善其事，必先利其器。很多从事数据统计分析工作的朋友应该会深有感触，苦于自己80%的时间在做数据清洗，而仅仅只有20%的时间在优化模型、分析统计结果等，今天我们就来介绍下SQL数据清洗。因此， ...

2020-05-12

缺失值的填补方法是什么？

（1）Excel实现缺失值填充前后的对比如下图所示：在数据中年龄用数字填充合适，但是性别用数字填充就不太合适，那么可不可以分开填充呢？答案是可以的，选中想要被填充的那一列，按照填充全部数据的方式进行填充 ...

2020-05-11

数据分析实践入门：缺失值处理、重复值处理、异常值处理等

从菜市场买来的菜，总有一些是坏掉的不太好的，所以把菜买回来之后要做一遍预处理，也就是把那些坏掉的不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品，拿到手以后会有一些不好的数据，所以都要先做 ...

2020-05-11

好书推荐《python统计分析》！

《python统计分析》以基础的统计学知识和假设检验为重点，简明扼要地讲述了Python在数据分析、可视化和统计建模中的应用。主要包括Python的简单介绍、研究设计、数据管理、概率分布、不同数据类型的假设检 ...

2020-05-11

T分布是一条以0为中心左右对称的曲线吗？

最近，看到一道有关T分布的试题《T分布是一条以0为中心左右对称的曲线吗？》确实，T分布是以0为中心，左右对称的一簇单峰曲线。不过，当其自由度越小，曲线的峰度越低，尾部越高，当自由度趋于无穷大时，t分布就是标 ...

2020-05-11

机器学习：混淆矩阵的简单概述！

混淆矩阵(Confusion Matrix)，也成为误差矩阵，是用n行n列矩阵形式来表示的表，这张表通过对比已知分类结果的测试数据的预测值和真实值表来描述衡量分类器的性能。在二分类的情况下，混淆矩阵是展示预测 ...

2020-05-11

决定企业生存的二八原理：长尾分布

统计分析中的长尾分布理论认为，由于成本和效率的因素，过去人们只会关注重要的人或事，如果用需求曲线来描述，受精力与成本等客观因素的限制，人们通常只会关注曲线的“头部”，而选择忽略曲线的“尾部 ...

2020-05-11

图论在大数据分析中的作用！

现在大数据成为一个热门话题，然而无论是网页、产品信息、车辆的功能、文本、病例，还是气象等数据，对数据的理解的第一步就是要理解数据之间的关联。认同这一点的话，就能够理解为什么图论在将来能够为人们的 ...

2020-05-11

统计学笔记：箱型图以及python实践

最近在接触kaggle的竞赛示例，练习了一下，感觉受益匪浅。同时，心中也有个问题。拿到数据之后第一件事是什么？分析数据的情况？怎么分析？分析之后如何去处理数据呢？等等一些数据分析的工作。其中，大家都可能非 ...

2020-05-11

python数据挖掘难不难？

python数据挖掘，指用python对数据进行处理，从大型数据库的分析中，发现预测信息的过程。什么是数据挖掘？数据挖掘（英文全称Data Mining，简称DM），指从大量的数据中挖掘出未知且有价值的信息和只 ...

2020-05-11

零基础，也能get到python深度学习！

一提到深度学习，大部分人会觉得一定非常难，其实不然，深度学习背后的主要原因是人工智能应该从人脑中汲取灵感，而python深度学习，指的是使用编程语言Python来进行深度学习。众所周知，Python是一门 ...

2020-05-11

SQL难学吗？来听听自学者的心声吧！

说道SQL难不难学的问题，应该是见仁见智吧！对于有目标的人而言，学习SQL就会变得简单，大家一定相信这点。当然，千里之行始于足下，学习并没有什么捷径，只能靠努力。 SQLServer是一个可扩展的、高性能的、为分布 ...

2020-05-09

数据建模中比较常用的工具有哪些？

随着科技的日新月异，人们对数据的依赖稳步上升中，尤其在商业等领域，对于企业而言正确且连贯的数据流，是他们做出快速、精准的决策的重要依据之一。因此，建立正确的数据流和数据结构才能保证最好的结果，这个过程 ...

2020-05-09

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...