建立数据感性认识 变量类型和数据分布 变量类型 连续变量 离散变量(名义变量-有序,分类变量-无序) 数据分布 分布就是概率,研究变量无外乎就是看变量的值以及其取值的概率。此事数据由一大堆数 ...
2018-02-27数据挖掘中的分类技术 KNN(K最近邻算法) 算法核心:如果一个样本在特征空间中K个最相似的样本中的大多数属于一个类别,则该样本也属于这个类别,并具有这个类别的特征 在确定分类时只依靠最邻近的一个 ...
2018-02-27R描述性统计分析 概念 数据摘要,有损地提取数据特征的过程,包含基本统计,分布/累计统计,数据特征(相关性,周期性等),数据挖掘 数据有很多变量和观测值,可以用一些简单表格,图形和少数汇总数字 ...
2018-02-27数据结构中排序和查找各种时间复杂度 (1)冒泡排序 冒泡排序就是把小的元素往前调或者把大的元素往后调。比较是相邻的两个元素比较,交换也发生在这两个元素之间。所以相同元素的前后顺序并没有改 ...
2018-02-27大数据处理信息的六个环节 大数据按照信息处理环节可以分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。而在各个环节中,已经有不同的公司开始在这里占位。 ...
2018-02-27企业绩效管理热潮下的BI实践 一、中国企业绩效管理的“热潮” 1.绩效管理“满意度”不高 目前国内企业兴起了绩效管理的热潮,在这股热潮中绩效管理流行起KPI,但是企业在KPI的应用效果并不尽如意。据一份国际4 ...
2018-02-27各种排序算法的时间复杂度 选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。 排序算法不稳定的含义是: 在排序之前,有两个数相等. 但 ...
2018-02-27常用几种排序算法的时间复杂度和空间复杂度 常用的排序算法的时间复杂度和空间复杂度 1、时间复杂度 (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。 ...
2018-02-27大数据热中的冷思考 要学会判断数据 当前,由于大数据在社会实践与理论研究上的巨大影响,有关大数据的讨论已经渗透到每一个行业和领域之中,带来了各行各业对大数据的热捧。大数据显然具有重要价值,这一点毋 ...
2018-02-27数据科学职业生涯路径:如何在数据分析工作中找准自己的角色和定位 写在前面 全世界,企业每天都在创造更多的数据,迄今为止大多数都在努力从中受益。根据麦肯锡的说法,仅美国就将面临150,000多名数据分 ...
2018-02-26Python 面试中8个必考问题 Q1、下面这段代码的输出结果是什么?请解释。 def extendList(val, list=[]): list.append(val) return list list1 = extendList(10) list2 = extendList(123,[]) list3 = exten ...
2018-02-26【北京弘成学苑科技发展有限公司】招聘数据分析师 弘成教育集团(中华学习网www.chinaedu.net)成立于1998年,是由McGraw-hill、IDG等世界知名教育和投资机构投资成立的全面教育服务提供商。公司自成立以来,始终积 ...
2018-02-26【普华众鑫文化传播有限公司】招聘数据分析师 普华商学院是商业教育行业的改革者和推动者,学院以中国特色商业理论体系为核心理论基础,由翟山鹰教授发起并创办,师资汇集政府、投融资、资本运营、法律财务税务、教 ...
2018-02-26【北京华媒康讯信息技术有限公司】招聘数据分析师 健康界致力于打造中国医健领域第一媒体、第一智库与第一平台。从资讯入口到知识入口,从资源到商机,健康界用专业能力和创新精神演绎”互联网+“时代的专业媒体创业 ...
2018-02-26提升数据中心效率的10种方法 数据中心托管逐渐成为了一种企业信息化中的流行趋势,而虚拟化则在其中发挥了重要作用。那么,虚拟化与主机托管越来越流行的原因是什么?虚拟化与主机托管又在哪些方面得到了广泛 ...
2018-02-26简单易学的机器学习算法——K-Means++算法 一、K-Means算法存在的问题 由于K-Means算法的简单且易于实现,因此K-Means算法得到了很多的应用,但是从K-Means算法的过程中发现,K-Means算法中的聚类中心的个数 ...
2018-02-26数据挖掘中的特征选择问题 特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常 ...
2018-02-26使用R并行方式对数值型数据离散化 数据的特征按照其取值可以分为连续型和离散型。离散数值属性在数据挖掘的过程中具有重要的作用。比如在信用卡评分模型中,当自变量很多时,并非所有字段对于目标字段来说都是 ...
2018-02-26Python统计学一数据的概括性度量 一、数据的概括性度量 1、统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和 ...
2018-02-26使用Python进行描述性统计 1 描述性统计是什么? 描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,我们可借助描述性统计来描绘或总结数据的基本情况,一来可以梳 ...
2018-02-26Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22