京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据在四个层面上的价值思考
1、思考一下,数据是什么?
“掌握数据就掌握一切”,已经成为大部分互联网公司的基本认识,你只要有用户数据,行为数据,关系链数据,就可以在此基础上衍生出很多新的玩法,新的服务等等甚至之前不存在的产品。
那么数据是什么呢?
我理解的数据其实就是我们个人和社会活动中所有状态和行动的记录。这种记录可以是连续的,也可以是离散的。可以是单点的,也可以是关联的。
数据可以由数字构成,也可以由简单的标签构成,可以是复杂的图像,也可以仅仅由“YES” or “NO” 两种形态。
关键的是,你如何定义这个数据,以及如何使用这些数据。
如果只是将其存储在物理的计算机存储器中,这些数据就是历史,是对资源的浪费。
2、数据在四个层面上的价值分析
数据价值的分析可以从多个角度进行,应用层面,行业层面,小到个人体重管理,大到国家国际战略决策,都可以阐述数据价值。这篇文章,主要是从数据关系和处理方法角度来看数据有哪些价值,以及为实现这些价值,需要做哪些准备和之前遇到的一些坑。
第一层:孤立数据
孤立数据,也可以看成是一个单点数据,其实就是最基本的表示一个状态或者一个记录。这种数据当然也是有价值的,比如:多个孤立的数据可以刻画一个具体的事物,一个人,一个企业等等,都可以通过单点的数据来进行基本描述。
孤立数据是一切数据分析的前提。对于孤立数据,我想表达的一个思考就是,尽可能的标准化。在数据产品设计的时候,或者在数据表的开发时,就需要讲这些孤立的数据定义青清楚。那个字段,通过哪种标识方式,代表哪个含义。同时这种定义,越广泛的范围采用,孤立数据的价值越大。比如:男/女 这种性别定义就非常简单,估计在全球范围内,都可以通用。
第二层:统计数据
我们在大学时代所学的统计学,概率论基本都是对数据的统计处理方法。统计数据是对一定时间或空间维度的数据进行分布计算,在此基础上,发现一些规律和特征,同时依照这种规律进行未来的预测。
最近有个很有意思的现象,国家在严格控制房产价格,各地政府为了保住乌纱帽,无不在统计数据上做文章,抑制中心地区的高价房出售,同时又大量放出郊区低价房。结果不到一个月,全国房价上涨得到有效控制,有些城市还出现大幅下跌。于是,各地官媒喜大普奔,报道房价下跌,政府有功。
“统计数据会撒谎”也是一个大多数人的认识。我们在应用统计数据的时候,首先需要定义如何统计,统计的目标和价值衡量标准在哪里?
比如:我想看下一个月之内,会员在某一个场景下各个时段的操作频次。这个时候就要问一下自己,一个月的数据是否能真实的反应你所想要的市场规律,是不是要扩大到一个季度或者一年。同时如果你是想分析用户转化,那么是不是多加几个场景纵向比较,以确认在哪个场景去投入更多资源等等。
第三层:关联数据
关联数据就开始深入到多维度上面去了,对一个主体的多维数据进行计算,以发现维度之间的关系,是互相促进的,还是互相抑制的。最优组合点以及价值临近点在哪里?
作为数据挖掘的一个重要方法,关联分析在推进系统里面使用很多。关联数据,可以有效的进行服务打包,商品打包。从海量的销售数据中进行关联数据分析,可以发现很奇特的组合。比如有段时间,我在分析会员来电情况,我们会发现,询问A问题的用户,通常会在电话结束后进行B操作,这种关联性,然我们优化了服务流程,在同类用户中,我们通过对A类来电进行B类服务的推荐,很好的进行了服务推广。达到非常好的效果。
第四层:智能数据
智能数据,就是指通过复杂的机器学习算法进行计算得出的数据,这种数据有时候是无法解释其内在原因的,但是智能化是未来的方向,并且速度越来越快。
我所理解的智能数据,是通过大量的数据训练,来实现内在模式的底层规律建设,在此基础上,对新数据的判断和结果产出。就比如最近很热门的Master 大战人类围棋高手,就是在Master进行了大量围棋基本规则定义,以及无数围棋落子模式训练后,形成的一种具有自我判断和计算意识的围棋模式。它之所以能战胜,更多胜在其计算能力和学习深度上面。比人类有了更多层的预测,并在此基础上判断了每一步的胜率。
智能数据是未来进行决策辅助的重要环节,它将像一个先知一样,协助人类预测未来,警示我们在现有模型下的发展结果。从这个角度上看,恐惧大可不必。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14