京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据预言
大数据改变了管中窥豹时代的混沌和蒙昧,以及面对未知风险的脆弱和无助
大数据时代之前,面对碎片化的数据,人们容易以偏概全,如同只能依赖触觉感知大象的盲人,对现象做出有偏差的判断。而大数据则可以让人们去认识事物,以PB为量级的统计链条将分散的小数据拼接起来,同时把决定事物性状的、反应规律的、决定走向的点找出来,呈现出一个更加接近本质的全景图。
这幅诱人的全景图不仅意味着对知识的梳理和对过去的传承变得更加容易,而且极大减少了未来的不确定性。在大数据打造的“负熵化”世界里,人类将对未知世界带来的挑战进行充分准备。
“大数据可以帮我们更加准确的定位未来,决策的质量可以提高。”中国人民大学信息资源管理学院院长赵国俊在接受《中国经济和信息化》记者采访时表示,“预知未来已不再依赖占卜和巫术,而是一种科学。”
大数据打假
大数据打破了人们对统计数字的迷信。
传统意义上,中国社会一直缺乏数字管理的精神,过去对上级负责的评价体系导致政府和企业有时候会根据目标调整“统计数字”。这一尴尬局面有望被打破。
广东省大数据委员会成员、《大数据》一书的作者涂子沛在接受《中国经济和信息化》记者采访时表示,大数据时代绝不是大数字时代,人们会从非直接相关数据中解读出有效信息。“数据是事实,是记录,而不是拍脑门、生捏出来的统计数字。”他强调,大数据可以让假信息无处可遁。
在炒房热浪屡抑不止的今天,空房率成为判断购房行为是否满足刚性需求的标准。对于房地产企业公布的数字心存质疑的老百姓有了新的检验标准——通过难以伪造或疏于伪造的小区用电用水量判断空房率。与此有异曲同工之妙的是在技术水平没有突破的情况下,通过用电量对部分好大喜功、追求政绩地区公布的产值或GDP进行检验。
这一思路并不新鲜。早在2007年,时任辽宁省委书记的李克强对来访的美国驻华大使表示,他更喜欢通过三个指标来追踪辽宁的经济动向:全省铁路货运量、用电量和银行已放贷款量,以挤掉统计数字的水分。英国杂志《经济学人》在2010年把这种思路称为“克强指数”。
非直接相关数据的利用正体现了大数据的一个主要特点:多源头的信息形成系统的数据库,互相印证,从而剥离一定的假数据。我国各级部门的信息平台相对独立,除非特大或焦点事件,否则各种信息重叠和信息矛盾现象严重。
这一点为企业“投机”提供了机会。假设累进税制规定以5000个杯子为界,月销售量在5000个之下的企业缴纳所得税的税率为3.5%,而5000个之上为4%。企业在向国税局申报时,为了企业经济利益,可能上报销售量为4900个。
与此同时,地方政府为了扶持地方产业,塑造龙头企业形象,经常出台鼓励政策,对销售量大、盈利能力高的企业给予奖励和政策倾斜。这时,企业可能会申报销售量为1.2万个。
在寻租成本较低、监督审查制度不完善的机制下,双重标准下的双重数字使得企业往往关注短利,缺乏长线经营、长效发展的战略眼光,也造成了产业升级迟缓低效。而大数据要求在更大背景下、更大平台上共享信息,这种利用A数据来发现或修正B数据的清洗功能将放大企业说假话的成本。
大数据洗牌
大数据让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦苦挣扎转向在蓝海领域奋起直追的战略机遇。
传统IT行业对于底层设备、基础技术的要求非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。
这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头过河的试错阶段。
中国市场的规模之大也为这一产业发展提供了大空间、大平台。阿里巴巴[微博]积累了超过1000万亿的单表记录,这样的数据规模在世界范围内都是罕见的。进入大数据时代之前,传统信息产业99%的核心产品可能是国外的,国内产品只有1%~2%,中国企业基本上没有话语权。大数据时代则给了中国企业更多机遇。
我国的优势还体现在中国传统文化和思维角度上。注重宏观把握全局的大意识与大数据的精神本质相符。赵国俊认为,此时如果中国重视大数据,加速推进这一战略在中国政策和实践上落地,就有可能实现相对加速,从而在大数据时代的IT格局里争取话语权,实现信息产业领域的弯道超越。
“炒作概念甚至不是一件坏事儿。”涂子沛表示,“如果可以带动大数据概念的普及,提升中国人的数据管理理念,就是好事。”中国独特的体制允许我们在其他国家不可能想象的尺度上办大事、办好事,让政府、企业界、学术界、投资界齐心协力推动这次可能深刻改变社会和经济的变革。
大数据产业的发展格局在信息化社会背景下,影响尤为深远。与物质资源相比,大数据突破了物理界限,可以共享共用。随着国民经济和社会发展对信息的依赖性日益增强,较量的是谁更会从大数据中发现战略价值。对这一资源的占有意识和利用率越高就意味着对该资源的控制能力越强,而控制话语权的国家可以制定规则。
“规则是取代战争、形成国际秩序的新办法。”涂子沛认为。先来者主导的国际规则决定了国际秩序和世界格局,后来者必须承认。这种对先发优势的认可和遵守形成了稳定有序、互相推进的世界格局。
大数据战略
在新的挑战面前,中国的政府官员、专家和学者都在呼吁政府形成这样一种意识:数据是一种战略资源,作为鸡肋或负担扔给外国企业去处理、分析的时代应该一去不复返。
大数据产业
中国大数据产业要形成自主完整的链条。
这一产业远未成熟,目前国内大数据经济生产往往是粗放型的,还没有到精细化的程度。在大数据开创的蓝海领域里,技术或数据积累拥有相对优势的商家不需要长远规划精准定位就可以赚钱。然而,如果注重数据质量,对分散在企业生产经营流程各个环节的基础数据进行清洗,反而会延长见利周期。这就造成了国内数据分析公司遍地开花,但普遍浮躁,疏于思考如何更高效利用数据进行精细化分析。
渴望长寿、关注社会声誉的旗舰企业更容易从这种短视逐利行为误区中走出。赵国俊认为,拥有大数据资源积累的大企业应当通过不断兼并有核心能力的中小企业,把众多小帆船组合成铁壳船,并且进一步做大为航空母舰级别的企业。大数据的价值在于通过整合达到1+1>2的效果。
涂子沛提出中国的大数据产业链尚不完整。大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强的在线数据分析工具,以及数据可视化的产品呈现,中国都缺乏具有核心竞争力的产品。而阿里巴巴这类大公司应当承担核心角色。
对于国内在大数据产业有优势的公司,涂子沛建议要注意三个问题。首先,收集数据时科学规划。有的放矢的收集数据可以避免关键数据没有收集到位的尴尬,保证数据质量。其次,企业内部应当建立统一、高质量的数据治理框架。最后,首席数据官或数据治理委员会必须有绝对权威,因为数据整合涉及各部门职能和商业流程的整合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13