我们一直在讲python可视化,用matplotlib来绘制各类图表,今天我们再来讲讲matplotlib的坐标轴和rc参数设置指南! 设置坐标轴 还记得上次画的那条“项链”嘛?结尾的时候有说过,这些是新手村礼包,还有很 ...
2020-06-04
之前介绍了Hbase本地单节点模式的安装,该模式资源占用少适合学习使用。但是在生产环境中为了保证数据的安全,普遍采用集群模式来运用Hbase。在集群模式下Hbase的数据存储在HDFS文件系统而非本地文件系统,还需配 ...
2020-06-04上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成,接下来我们启动Hadoop分布式集群。 1、ssh免密登录 首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机 ...
2020-06-03说到组建增长团队,不同发展阶段的公司组建有所不同,拿一个小型创业企业来说。他的目标是成立一个1-3人的“最小化可行性”增长团队,开始增长实验。他的挑战是:资源有限、人员有限,不知如何下手。那他成功的关 ...
2020-06-03在上篇文章中介绍了matplotlib绘制直方图的前五个参数,实际上直方图一共有十几个参数,剩下的参数利用这篇文章解释清楚,让大家能够将如何绘制直方图理解的透透的。 bottom参数 这个参数的含义也很直观,底 ...
2020-06-031、格式化HDFS 在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入 hdfs namenode -format # 格式化hdfs 若出现successfully formatted字样,则说明格式化成功 2、启动hadoop 然后启动h ...
2020-06-03
所谓知己知彼,百战不殆!在安装HBASE前,我们需要了解它的版本,从而好进行选择与下载。 通过之前介绍的Hbase的集群架构,我们可以知道Hbase数据需要存储在HDFS上,因此在选择Hbase版本时要兼顾之前安装的Hado ...
2020-06-03
首先按照惯例先来认识下直方图是谁,以下是从维基百科搬运过来的直方图的定义: 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该 ...
2020-06-03
惯例先来简单介绍下什么是散点图:用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不 ...
2020-06-02
朋友小红在某公司做策划,前段时间高层打算引进一个大项目,需要他做一份详细的报告,作为决策层的依据。 雷厉风行的小红说干就干,然而,实际操作中才逐渐发现,公司购买的数据库,不仅乱、杂、多,还缺… ...
2020-06-02
今天,我们一起安装、配置spark集群环境,方便后期继续学习研究。spark项目是由scala语言编写的,因此需提前配置Scala环境才能运行Spark程序。 1、Scala版本选择与下载 我们安装spark2.1.2版本与之对应的环 ...
2020-06-02
电商当道,实体行业好像迎来了寒冬,凛冽的网购风潮一阵接一阵刮倒一批批实体店,实体店高昂的租金成了压死骆驼的最后一根稻草。对于网购的优势,据中国消费者报调查表明:半数以上的人觉得网购价格便宜,30%的人 ...
2020-06-02
为了获得更多民众的支持,美国总统演讲/发推时使用的语言通常都很「接地气」,而现任总统唐纳德·特朗普则更以「口无遮拦」著称。由于「推特狂魔」已经为我们准备了大量训练数据,现在让我们尝试一下如何使用循环 ...
2020-06-02hadoop是使用Java语言开发的并且Hadoop运行需要有Java环境的支持,因此在安装hadoop之前需要安装Java开发环境即JDK(Java Development Kit)。安装前首先向大家介绍以一下本文会用到的几个词: JAVA_HOME: 一 ...
2020-06-01Hadoop版本主要分为原生Apache Hadoop版和Hadoop商业发行版两种,而其中商业发行版Hadoop多为原生Apache Hadoop的集群模式下的优化版,除少数社区版外,商业发行版大多需要付费使用,且对于初学者而言使用难度较大 ...
2020-06-01python数据清洗功能非常强大,相信很多进行数据处理工作的小伙伴都遇到过这种需求,比如已经有了各个销售员的销售业绩,现在需要给各个销售业绩进行一个分档,诸如未完成任务,完成任务,超额完成任务等。要完 ...
2020-06-01
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这 ...
2020-06-01如何用python绘制简单条形图呢?这里离不开matplotlib的使用。 条形图是数据可视化图形中很基础也很常用的一种图,简单解释下:条形图也叫长条图(英语:bar chart),亦称条图(英语:bar graph)、条状图、棒 ...
2020-06-01matplotlib环形图是饼图衍生出来的统计图形,可以看作是两个以上饼图的叠合。环形图与饼图类似,其实是有差别的。饼图是用圆形及圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例。与 ...
2020-06-01这篇文章来探索下多类别条形图比如各学校包含语文、数学、英语三科成绩的条形图怎样绘制。在绘图之前,先来复习一下条形图函数中主要参数的含义: x控制的是每个条在x轴方向上的位置; height控制的是 ...
2020-05-29在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08在数据驱动决策的链路中,统计制图是CDA(Certified Data Analyst)数据分析师将抽象数据转化为直观洞察的关键载体。不同于普通 ...
2026-01-08在主成分分析(PCA)的学习与实践中,“主成分载荷矩阵”和“成分矩阵”是两个高频出现但极易混淆的核心概念。两者均是主成分分 ...
2026-01-07在教学管理、学生成绩分析场景中,成绩分布图是直观呈现成绩分布规律的核心工具——通过图表能快速看出成绩集中区间、高分/低分 ...
2026-01-07在数据分析师的工作闭环中,数据探索与统计分析是连接原始数据与业务洞察的关键环节。CDA(Certified Data Analyst)作为具备专 ...
2026-01-07在数据处理与可视化场景中,将Python分析后的结果导出为Excel文件是高频需求。而通过设置单元格颜色,能让Excel中的数据更具层次 ...
2026-01-06在企业运营、业务监控、数据分析等场景中,指标波动是常态——无论是日营收的突然下滑、用户活跃度的骤升,还是产品故障率的异常 ...
2026-01-06在数据驱动的建模与分析场景中,“数据决定上限,特征决定下限”已成为行业共识。原始数据经过采集、清洗后,往往难以直接支撑模 ...
2026-01-06在Python文件操作场景中,批量处理文件、遍历目录树是高频需求——无论是统计某文件夹下的文件数量、筛选特定类型文件,还是批量 ...
2026-01-05在神经网络模型训练过程中,开发者最担心的问题之一,莫过于“训练误差突然增大”——前几轮还平稳下降的损失值(Loss),突然在 ...
2026-01-05在数据驱动的业务场景中,“垃圾数据进,垃圾结果出”是永恒的警示。企业收集的数据往往存在缺失、异常、重复、格式混乱等问题, ...
2026-01-05在数字化时代,用户行为数据已成为企业的核心资产之一。从用户打开APP的首次点击,到浏览页面的停留时长,再到最终的购买决策、 ...
2026-01-04在数据分析领域,数据稳定性是衡量数据质量的核心维度之一,直接决定了分析结果的可靠性与决策价值。稳定的数据能反映事物的固有 ...
2026-01-04在CDA(Certified Data Analyst)数据分析师的工作链路中,数据读取是连接原始数据与后续分析的关键桥梁。如果说数据采集是“获 ...
2026-01-04尊敬的考生: 您好! 我们诚挚通知您,CDA Level III 考试大纲将于 2025 年 12 月 31 日实施重大更新,并正式启用,2026年3月考 ...
2025-12-31“字如其人”的传统认知,让不少“手残党”在需要签名的场景中倍感尴尬——商务签约时的签名歪歪扭扭,朋友聚会的签名墙不敢落笔 ...
2025-12-31