京公网安备 11010802034615号
经营许可证编号:京B2-20210330
对大数据的理解与思考
首先,大数据的到来,对人们的观念将带来深远的影响。
我们以前习惯认为:找到现象背后的原因,比清楚现象是什么更重要。通过“塔吉特怀孕预测”的例子可以看到,通过关联分析、聚类分析等数据挖掘方法,大家很容易找到事物之间的关系。但是,这些大数据分析结果,并不会直接告诉我们,事物之间为什么存在这些关系。在不清楚为什么存在这些关系之前,又的确看到了这些关系带来了价值;所以,在大数据应用领域就需要改变以前的思考方。即:先找到“是什么”再去找“为什么”;清楚是什么,与搞清楚为什么同等重要。
手工统计时代,出于收集全部数据非常困难或代价巨大的原因,很多数据分析都是采用抽样数据;但是,现在不同了,随着信息技术的发展,现在很多领域都能够方便的收集到全量数据。诸如无纸化办公的兴起、信息系统的使用、电子商务的发展等等,都为收集全量数据提供了便捷的条件。那么,这时候数据的“样本”=“全体数据”。这相对以前来说,也是革命性的影响。
在抽样分析时代,个别样本的质量甚至决定结果的质量。在大数据时代,这也变了,可以允许个别数据的不精确,甚至错误。举个简单例子来说明这个道理,比如在温室大棚里放一只温度计,当这只温度计有问题时,整个温度都是不准确的。若在大棚里均匀分布十几只温度计,其中一只有问题,对温室大棚温度的统计结果无碍大事,基本可以忽略其影响。
其次,大数据应用,影响商业变革和社会进步。
大数据应用正改变着企业的业务发展方式。比如:京东、天猫通过对交易数据的“二次利用”,寻找目标客户、定向推荐商品。也正是这些数据的二次利用给他们提供了大量价值,促进了这些企业的发展,推动着他们在营销、供应链与客户服务等领域的管理变革。同时,交易数据并不因为二次利用,而降低其价值;这也是,大数据应用与传统资源使用不同的地方。
数据的“混搭”分析,推动着商业发展和社会的进步。比如历史天气信息与航班误点信息,这两个不同领域的信息一块儿分析,便可以推算未来几天航班的误点率。再比如,通过神经中枢肿瘤患病率和手机使用时间长短之间的大数据关联分析,来研究神经中枢肿瘤患病率是否与手机使用时间长短有关系等等。
大数据的应用,也促生了很多商业机会。随着大数据时代的到来,形成了很多大数据拥有公司,以及大数据技术公司;数据与技术的结合变促生了很多大数据应用,因此带来了很多商业机会。例如,现在很多商业银行对自己大量客户的交易信息分析,规划新的理财产品,与其他商家合作,联合搞定向促销等等。
再次,大数据时代不再有个人隐私,将形成新的信息安全机制。
现在还经常听到诸如某某窥探我的隐私之类的话语,但是,在大数据时代几乎没有个人隐私,这不是骇人听闻。因为,现在微博、搜索引擎、社交网络、电商购物,已经成了我们生活中必不可少的一部分。根据每个人在互联网上留下的痕迹,通过大数据分析,很容易分析出一个人的爱好、习惯、性格、癖好等等。所以,大家都被“第三只眼”实时监控着,在大数据时代,几乎没有个人隐私!
没有个人隐私,是否就代表每个人可以随便传播别人隐私了呢?答案当然是否定的。因为传播别人隐私是不道德的,甚至是违法的。所以,现在新的信息安全规则正在重新定位,其中一个基调是:让数据使用者承担责任,不能滥用别人的隐私;我个人感觉这也比较合理。
总结
大数据只是“新概念”,并不是“新事物”。过去数据就存在,只是我们没有收集这些数据。但是,现在收集了这些数据,这个世界变得不一样了;它更新了人们过去对数据应用的认识,加快了商业和社会发展的新陈代谢,从中也让大家也看到了很多机会。大数据时代,已经到来。极目远眺,也看不到尽头。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21