作者:付晓岩 来源:大数据DT(ID:hzdashuju) 导读:众多企业管理者都将“数字化转型”视为战略核心,那么“数字化转型”应该已经有了一个清晰的概念才对,但实际上却并非如此。经过笔者多方收集,似乎大家 ...
2020-06-28
作者:Alex Petrov 来源:大数据DT(ID:hzdashuju) 内容摘编自《数据库系统内幕》 导读:本文带你了解面向列与面向行的数据库。 大多数数据库系统存储一组数据记录,这些记录由表中的列和行组成。 ...
2020-06-28
作者:赵敏 宁振波 来源:大数据DT(ID:hzdashuju) 内容摘编自《铸魂:软件定义制造》 导读:数字孪生(Digital Twin)已经走过了几十年的发展历程,只不过以前没有这样命名,而是发展到了一定阶段,人们意 ...
2020-06-28
导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个 ...
2020-06-24
Python火了,而且火得大红大紫,从工作到生活,处处都有python的身影。python 是一门兼具简单与功能强大的编程语言,它专注于如何解决问题、自由开放的社区环境以及丰富的第三方库......太专业了,我又不写编程, ...
2020-06-24
EXCEL是数据分析入门级的工具,今天小编继续给大家带来EXCEL使用的一些小技巧——EXCEL快捷键。在分析处理庞大的数据时,EXCEL快捷键可以帮助我们提高数据分析的效率。下面,跟小编一起来看,数据分析中常用的EXCE ...
2020-06-24
一、卡方分布定义 卡方分布 (χ2分布)是概率论与统计学中常用的一种概率分布。k 个独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若k 个随机变量Z1、 ...
2020-06-24
因果推断(causalinference),缘起人类的本能或经常自发提出的一个简单问题:为什么(why)?事实上,作为科学研究的核心与宗旨——因果推断就是关于此问题的严肃思考、科学验证或因果分析(causal analysis)。目前,因 ...
2020-06-23
当下数据分析与人工智能发展迅速,各行各业都需要数据做支持,小到我们每个人的社交网络、运动轨迹、消费信息,大到企业的销售、运营、产品数据,都需要做数据分析。因此,数据分析师已然成为当前最火爆、最热门就 ...
2020-06-23
大家整理了,数据分析入门常用的EXCEL在数据分析行业,EXCEL是最基础的、入门级的,也是最常用,最容易上手的工具了。想要学习数据分析的小伙伴可以选择先从EXCEL入手,下面小编就给函数,希望对各位小伙伴有所帮 ...
2020-06-23
目前数据分析行业火热,市面上的数据分析培训机构和课程也层出不穷,想要学习数据分析的小伙伴在选择时一定要擦亮眼睛,选择教学质量,服务质量都靠谱的机构。CDA数据分析系统培训,由经管之家CDA数据分析研 ...
2020-06-22
2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%—40%的增速,需求 ...
2020-06-22
CDA(Certified Data Analyst),亦称“CDA数据分析师”,指在互联网、零售、金融、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。“CDA数据分析师认 ...
2020-06-22
PCA在机器学习中很常用,是一种无参数的数据降维方法。PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 求出协方差矩阵 求 ...
2020-06-16注明:本文章所有代码均来自scikit-learn官方网站 在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力 ...
2020-06-16在翻译sklearn文档 2.无监督学习 部分过程中,发现协方差矩阵几乎贯穿整个章节,但sklearn指导手册把协方差部分放在了这一章节偏后的部分,作为机器学习一个基础概念,在这篇文章中,想把协方差矩阵的相关知识以及 ...
2020-06-16刚刚接触pandas的朋友,想了解数据结构,就一定要认识DataFrame,接下来给大家详细介绍! 初识pandas数据结构:DataFrame import numpy as np import pandas as pd data = {\"name\": [\"Jack\", \"Tom\ ...
2020-06-12异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。离群点和新奇点检测是不同的,有一个重要的区分必须掌 ...
2020-06-12
异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。 下图是一个使用支持向量机SVM进行新奇点检测 ...
2020-06-12K-means算法旨在选择一个质心, 能够最小化惯性或簇内平方和的标准: K-means算法原理分析 首先随机选取K个初始质心,最基本的方法是从数据集$X$中选择$K$个样本。 将每 ...
2020-06-10主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01