京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据预言
大数据改变了管中窥豹时代的混沌和蒙昧,以及面对未知风险的脆弱和无助
大数据时代之前,面对碎片化的数据,人们容易以偏概全,如同只能依赖触觉感知大象的盲人,对现象做出有偏差的判断。而大数据则可以让人们去认识事物,以PB为量级的统计链条将分散的小数据拼接起来,同时把决定事物性状的、反应规律的、决定走向的点找出来,呈现出一个更加接近本质的全景图。
这幅诱人的全景图不仅意味着对知识的梳理和对过去的传承变得更加容易,而且极大减少了未来的不确定性。在大数据打造的“负熵化”世界里,人类将对未知世界带来的挑战进行充分准备。
“大数据可以帮我们更加准确的定位未来,决策的质量可以提高。”中国人民大学信息资源管理学院院长赵国俊在接受《中国经济和信息化》记者采访时表示,“预知未来已不再依赖占卜和巫术,而是一种科学。”
大数据打假
大数据打破了人们对统计数字的迷信。
传统意义上,中国社会一直缺乏数字管理的精神,过去对上级负责的评价体系导致政府和企业有时候会根据目标调整“统计数字”。这一尴尬局面有望被打破。
广东省大数据委员会成员、《大数据》一书的作者涂子沛在接受《中国经济和信息化》记者采访时表示,大数据时代绝不是大数字时代,人们会从非直接相关数据中解读出有效信息。“数据是事实,是记录,而不是拍脑门、生捏出来的统计数字。”他强调,大数据可以让假信息无处可遁。
在炒房热浪屡抑不止的今天,空房率成为判断购房行为是否满足刚性需求的标准。对于房地产企业公布的数字心存质疑的老百姓有了新的检验标准——通过难以伪造或疏于伪造的小区用电用水量判断空房率。与此有异曲同工之妙的是在技术水平没有突破的情况下,通过用电量对部分好大喜功、追求政绩地区公布的产值或GDP进行检验。
这一思路并不新鲜。早在2007年,时任辽宁省委书记的李克强对来访的美国驻华大使表示,他更喜欢通过三个指标来追踪辽宁的经济动向:全省铁路货运量、用电量和银行已放贷款量,以挤掉统计数字的水分。英国杂志《经济学人》在2010年把这种思路称为“克强指数”。
非直接相关数据的利用正体现了大数据的一个主要特点:多源头的信息形成系统的数据库,互相印证,从而剥离一定的假数据。我国各级部门的信息平台相对独立,除非特大或焦点事件,否则各种信息重叠和信息矛盾现象严重。
这一点为企业“投机”提供了机会。假设累进税制规定以5000个杯子为界,月销售量在5000个之下的企业缴纳所得税的税率为3.5%,而5000个之上为4%。企业在向国税局申报时,为了企业经济利益,可能上报销售量为4900个。
与此同时,地方政府为了扶持地方产业,塑造龙头企业形象,经常出台鼓励政策,对销售量大、盈利能力高的企业给予奖励和政策倾斜。这时,企业可能会申报销售量为1.2万个。
在寻租成本较低、监督审查制度不完善的机制下,双重标准下的双重数字使得企业往往关注短利,缺乏长线经营、长效发展的战略眼光,也造成了产业升级迟缓低效。而大数据要求在更大背景下、更大平台上共享信息,这种利用A数据来发现或修正B数据的清洗功能将放大企业说假话的成本。
大数据洗牌
大数据让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦苦挣扎转向在蓝海领域奋起直追的战略机遇。
传统IT行业对于底层设备、基础技术的要求非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。
这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头过河的试错阶段。
中国市场的规模之大也为这一产业发展提供了大空间、大平台。阿里巴巴[微博]积累了超过1000万亿的单表记录,这样的数据规模在世界范围内都是罕见的。进入大数据时代之前,传统信息产业99%的核心产品可能是国外的,国内产品只有1%~2%,中国企业基本上没有话语权。大数据时代则给了中国企业更多机遇。
我国的优势还体现在中国传统文化和思维角度上。注重宏观把握全局的大意识与大数据的精神本质相符。赵国俊认为,此时如果中国重视大数据,加速推进这一战略在中国政策和实践上落地,就有可能实现相对加速,从而在大数据时代的IT格局里争取话语权,实现信息产业领域的弯道超越。
“炒作概念甚至不是一件坏事儿。”涂子沛表示,“如果可以带动大数据概念的普及,提升中国人的数据管理理念,就是好事。”中国独特的体制允许我们在其他国家不可能想象的尺度上办大事、办好事,让政府、企业界、学术界、投资界齐心协力推动这次可能深刻改变社会和经济的变革。
大数据产业的发展格局在信息化社会背景下,影响尤为深远。与物质资源相比,大数据突破了物理界限,可以共享共用。随着国民经济和社会发展对信息的依赖性日益增强,较量的是谁更会从大数据中发现战略价值。对这一资源的占有意识和利用率越高就意味着对该资源的控制能力越强,而控制话语权的国家可以制定规则。
“规则是取代战争、形成国际秩序的新办法。”涂子沛认为。先来者主导的国际规则决定了国际秩序和世界格局,后来者必须承认。这种对先发优势的认可和遵守形成了稳定有序、互相推进的世界格局。
大数据战略
在新的挑战面前,中国的政府官员、专家和学者都在呼吁政府形成这样一种意识:数据是一种战略资源,作为鸡肋或负担扔给外国企业去处理、分析的时代应该一去不复返。
大数据产业
中国大数据产业要形成自主完整的链条。
这一产业远未成熟,目前国内大数据经济生产往往是粗放型的,还没有到精细化的程度。在大数据开创的蓝海领域里,技术或数据积累拥有相对优势的商家不需要长远规划精准定位就可以赚钱。然而,如果注重数据质量,对分散在企业生产经营流程各个环节的基础数据进行清洗,反而会延长见利周期。这就造成了国内数据分析公司遍地开花,但普遍浮躁,疏于思考如何更高效利用数据进行精细化分析。
渴望长寿、关注社会声誉的旗舰企业更容易从这种短视逐利行为误区中走出。赵国俊认为,拥有大数据资源积累的大企业应当通过不断兼并有核心能力的中小企业,把众多小帆船组合成铁壳船,并且进一步做大为航空母舰级别的企业。大数据的价值在于通过整合达到1+1>2的效果。
涂子沛提出中国的大数据产业链尚不完整。大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强的在线数据分析工具,以及数据可视化的产品呈现,中国都缺乏具有核心竞争力的产品。而阿里巴巴这类大公司应当承担核心角色。
对于国内在大数据产业有优势的公司,涂子沛建议要注意三个问题。首先,收集数据时科学规划。有的放矢的收集数据可以避免关键数据没有收集到位的尴尬,保证数据质量。其次,企业内部应当建立统一、高质量的数据治理框架。最后,首席数据官或数据治理委员会必须有绝对权威,因为数据整合涉及各部门职能和商业流程的整合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29