我们一直在讲python可视化,用matplotlib来绘制各类图表,今天我们再来讲讲matplotlib的坐标轴和rc参数设置指南! 设置坐标轴 还记得上次画的那条“项链”嘛?结尾的时候有说过,这些是新手村礼包,还有很 ...
2020-06-04
之前介绍了Hbase本地单节点模式的安装,该模式资源占用少适合学习使用。但是在生产环境中为了保证数据的安全,普遍采用集群模式来运用Hbase。在集群模式下Hbase的数据存储在HDFS文件系统而非本地文件系统,还需配 ...
2020-06-04上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成,接下来我们启动Hadoop分布式集群。 1、ssh免密登录 首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机 ...
2020-06-03说到组建增长团队,不同发展阶段的公司组建有所不同,拿一个小型创业企业来说。他的目标是成立一个1-3人的“最小化可行性”增长团队,开始增长实验。他的挑战是:资源有限、人员有限,不知如何下手。那他成功的关 ...
2020-06-03在上篇文章中介绍了matplotlib绘制直方图的前五个参数,实际上直方图一共有十几个参数,剩下的参数利用这篇文章解释清楚,让大家能够将如何绘制直方图理解的透透的。 bottom参数 这个参数的含义也很直观,底 ...
2020-06-031、格式化HDFS 在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入 hdfs namenode -format # 格式化hdfs 若出现successfully formatted字样,则说明格式化成功 2、启动hadoop 然后启动h ...
2020-06-03
所谓知己知彼,百战不殆!在安装HBASE前,我们需要了解它的版本,从而好进行选择与下载。 通过之前介绍的Hbase的集群架构,我们可以知道Hbase数据需要存储在HDFS上,因此在选择Hbase版本时要兼顾之前安装的Hado ...
2020-06-03
首先按照惯例先来认识下直方图是谁,以下是从维基百科搬运过来的直方图的定义: 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该 ...
2020-06-03
惯例先来简单介绍下什么是散点图:用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不 ...
2020-06-02
朋友小红在某公司做策划,前段时间高层打算引进一个大项目,需要他做一份详细的报告,作为决策层的依据。 雷厉风行的小红说干就干,然而,实际操作中才逐渐发现,公司购买的数据库,不仅乱、杂、多,还缺… ...
2020-06-02
今天,我们一起安装、配置spark集群环境,方便后期继续学习研究。spark项目是由scala语言编写的,因此需提前配置Scala环境才能运行Spark程序。 1、Scala版本选择与下载 我们安装spark2.1.2版本与之对应的环 ...
2020-06-02
电商当道,实体行业好像迎来了寒冬,凛冽的网购风潮一阵接一阵刮倒一批批实体店,实体店高昂的租金成了压死骆驼的最后一根稻草。对于网购的优势,据中国消费者报调查表明:半数以上的人觉得网购价格便宜,30%的人 ...
2020-06-02
为了获得更多民众的支持,美国总统演讲/发推时使用的语言通常都很「接地气」,而现任总统唐纳德·特朗普则更以「口无遮拦」著称。由于「推特狂魔」已经为我们准备了大量训练数据,现在让我们尝试一下如何使用循环 ...
2020-06-02hadoop是使用Java语言开发的并且Hadoop运行需要有Java环境的支持,因此在安装hadoop之前需要安装Java开发环境即JDK(Java Development Kit)。安装前首先向大家介绍以一下本文会用到的几个词: JAVA_HOME: 一 ...
2020-06-01Hadoop版本主要分为原生Apache Hadoop版和Hadoop商业发行版两种,而其中商业发行版Hadoop多为原生Apache Hadoop的集群模式下的优化版,除少数社区版外,商业发行版大多需要付费使用,且对于初学者而言使用难度较大 ...
2020-06-01python数据清洗功能非常强大,相信很多进行数据处理工作的小伙伴都遇到过这种需求,比如已经有了各个销售员的销售业绩,现在需要给各个销售业绩进行一个分档,诸如未完成任务,完成任务,超额完成任务等。要完 ...
2020-06-01
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这 ...
2020-06-01如何用python绘制简单条形图呢?这里离不开matplotlib的使用。 条形图是数据可视化图形中很基础也很常用的一种图,简单解释下:条形图也叫长条图(英语:bar chart),亦称条图(英语:bar graph)、条状图、棒 ...
2020-06-01matplotlib环形图是饼图衍生出来的统计图形,可以看作是两个以上饼图的叠合。环形图与饼图类似,其实是有差别的。饼图是用圆形及圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例。与 ...
2020-06-01这篇文章来探索下多类别条形图比如各学校包含语文、数学、英语三科成绩的条形图怎样绘制。在绘图之前,先来复习一下条形图函数中主要参数的含义: x控制的是每个条在x轴方向上的位置; height控制的是 ...
2020-05-29在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31