京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据不是“最正确”,而是“最可能”
这两年大数据的发展速度令人惊讶,深究起来似乎要感谢商家们不遗余力地“宣传”,让大数据终于落入凡间,然而,聚光灯之外的大数据又是怎样的呢?
你真的懂得大数据吗?
仔细想想,你真的懂得大数据吗?笔者发现很多人其实都是道听途说,一知半解。最近 RADICA DATA LAB 早前进行“大数据市场应用调查”,表示教育水平更高者更熟悉大数据。
大数据其实并不是甚么新奇奥秘的玩意,说穿了它就只是 Found Data ,将零散杂乱的各种数据统合分析,从而演算出某些结论、推测以及反应。昔日的数据库是被动的,它要求使用者逐一回馈,像是填写各项问卷、收集技术样本等等。
“最可能的答案”而非“最正确的答案”
不论是收集过程、数量以及分析数据都需要花费大量时间,而且往往是针对一些特定主题及目的,数据亦不够全面。然而由于现在电脑及手机的普及,以及网络通讯的流行,实现新的数据收集方式:将大量“数位化资讯”进行演算分析从而“数据化”。即使是普通人也会听闻及发现,为什么手机会知道自己的喜好,搜索时都是将自己常去的网站排名靠前,显示的广告都是自己有兴趣的,这就是大众所感知到的“大数据”如何影响自己。
大数据有别过去收集数据的方式,它不需要刻版而特定的数据,纵使再零碎不全,都一律交由电脑收集及识别。大众日常于网络上做的每一步活动,都有纪录下来,让有关方面可以依据需要分析用户个人喜好、居住地区、考虑条件、特定浏览时间等等提供“最可能的答案”,而非“最正确的答案”。
大数据重视关联
大数据是违反科学的:科学讲求精确,它却讲求模糊。科学讲求因果,它只重视关联。科学只纪录有用的数据,它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文,之后 1965 年 L.A.zadeh 发表模糊集合理论,正式奠定基础。模糊理论实际上是模糊集合、模糊关系、模糊逻辑、模糊控制、模糊量测等理论的泛称。
过去人类尤其是西方科学重精确轻模糊,胡适亦曾撰文《差不多先生传》,[大数据魔方]崇尚西方学风的他们抨击讽刺中国人特有的“近似推理( Approximation reasoning )”:缺乏科学精神,凡事模棱两可,只要差不多就好。讽刺的是不出数十年,西方科技发展就要学习差不多先生,追求不明确与模糊概念。事实上,模糊理论应用最有效最广泛的领域就是模糊控制。模糊控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难,并取得了一些惊人的成效:大数据就是其中的佼佼者。
大数据未必百分百正确,但又合乎一般人理解的范围
例如“青年”这个概念,它的内涵大家都清楚明白,但是什么样的年龄阶段内的人是青年,恐怕大家莫衷一是,因为在“青年”这个概念中没有一个清晰确定的边界与外延,这就是模糊概念。人们在认识模糊性时往往带有主观性,每个人对模糊事物的认知不可能完全相同。我们询问一千人他们认知中“年青”的年龄范围,那么我们可能得到一千个不同的答案。尽管如此,当我们用模糊统计的方法对海量数据进行分析时,答案又具有一定的规律性。
大数据就是以相近的原理运作,假设我们要求电脑在甲城市报告“低收入青年的数量”,这里所说的“低收入”、“青年”都是模糊概念,过去的统计学要先求出“何谓低收入”“何谓青年”的“精确范围”然后才能进行下一步的统计:你要先告诉电脑某个薪金以下是低收入,哪个年龄阶层是青年,然后在资料库指定栏位找符合的条目。然而在大数据时代下,电脑能通过模糊概念去分析判断,演算法会自己跑自己分析“低收入”及“青年”大概的范围,将相关的数据条列出来。它未必百分百正确,但又合乎一般人理解的范围。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23