
处理好这十大关系,再说有序推进我国大数据事业
我们对大数据的认识可以划分为几个层次:宏观层面,大数据是“战略资源”;中观层面,大数据是“产业”;微观层面,大数据是“经济资产”。同时,大数据也是“科学”和“技术”。
英美大数据发展六阶段
回顾英美大数据发展历程,至少已经经历了六大阶段:(1)早期萌芽阶段。从上世纪90年代开始到本世纪初,是大数据发展的萌芽阶段,主要体现为数据挖掘和处理技术的日渐成熟,代表性事件则是“啤酒和尿布”关联销售案例的出现。(2)应用驱动的探索阶段。从本世纪初到2006年,是大数据的应用探索阶段,少数领先的科技巨头公司例如美国的亚马逊、谷歌公司等已经基于自身业务特点,逐步探索大数据应用,研发大数据技术,实现商业变现和增值。此阶段的标志性事件是谷歌发布了分布式文件系统Google File System、分布式处理框架MapReduce和非结构化数据库BigTable三驾马车,奠定了大数据应用的基石。(3)技术传播和爆发阶段。2006年,在现任Apache软件基金会主席Doug Cutting的主导下,开源大数据软件的代表Hadoop横空出世,并且逐渐取得了工业届、学术界、大数据社区的认可,成为大数据届的事实标准。(4)社会传播和大众认知阶段。从2008年开始,在鼓吹者的推波助澜之下,大数据逐渐走入大众视野,进入了广泛的社会传播阶段。其标志性事件是Nature杂志刊发了大数据专刊,标志着大数据从技术领域逐渐进入公众领域,大数据理念开始在公众中传播。(5)政府开放数据阶段。2009年,美国政府建立了统一开放数据网站Data.gov,英国也着手开始打造数据公开系统,宣布大数据进入政府开放数据阶段。(6)大数据产业走向成熟阶段。在经历了上述几个发展阶段后,英美大数据产业逐渐走向成熟,标志性事件是杀手级大数据应用和处于统治地位的大型企业出现,例如美国的Palantir。
我国政务大数据建设和政府数据开放
有序推进我国大数据事业,以及政务大数据建设和政府数据公开,需要正确认识并处理好以下十大关系:
(一)对政府数据开放的认识:
政府数据的开放涉及多个层面:一是政府的数据应该可以通过在线、或者公开且容易获取的渠道访问及下载,数据的格式应该尽量接近标准格式;二是政府所开放的数据应该允许获取者的加工、利用和再传播;三是对于不涉及国家安全的数据应尽量向全体公众开放,对于敏感数据可配套数据分级管理制度;四是开放的数据应该是明细数据,并且尽量遵循完整性原则。
(二)政府在数据开放当中扮演的角色:主导方和受益方
政府作为数据的采集、拥有、管理者,在数据开放当中既作为数据的提供方,同时又应成为数据的消费者。政府作为数据开放平台的主导方,往往需要承担数据开放所带来的成本增加。但是,其实政府也是数据开放的受益方。例如,上级政府可以通过监控下级政府所开放的数据估算某一个指标,从而与下级所上报的指标进行对比,发现异常。政府通过开放数据,在公共服务方面,可以吸引更多的人参与探索甚至是试错,在经济方面,以数据开放形成的杠杆效应培育大数据产业。
(三)政府数据开放的路径:加强数据目录和元数据建设
在开放数据的过程中,各国政府通常都会建立相关的配套制度,各部门明确需要梳理和开放的数据资产,根据各类数据的属性,建立方便公众获取数据的途径,例如形成数据开放目录,通过建立层次化的目录结构,配合搜索、关联推荐等常用互联网大数据功能,降低浏览和定位数据的难度,也避免了低端建设数据开放信息化网站的困境。同时,需要加强元数据的建设,尽量完整的描述采集方式、数据质量、用户描述、口径指标、甚至是血缘关系等元数据。在数据开放的优先级方面,可以通过多种考量维度设置开放的优先级,例如数据集的信息化程度和完整程度,同时参照美国等国的社会需求优先级导向方式。
(四)大数据与统筹设计的关系:
习近平指出,随着互联网特别是移动互联网发展,社会治理模式正在从单向管理转向双向互动,从线下转向线上线下融合,从单纯的政府监管向更加注重社会协同治理转变。要以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。
(五)大数据与价值的关系:
无论大数据的特征包含几个V,大数据最为根本的着眼点在于通过高效的存储、管理、分析、使用数据,产生巨大的价值。目前而言,产生价值最为显著也最为迫切的应用集中在两个领域,一是企业界通过数据实现变现和增值;二是社会和政府通过数据解决问题、提升整体效率。
在数据价值落地方面,仍然存在着很多问题,例如:有的机构不掌握数据,对于大数据感觉无从下手,不知道如何收集数据、应该收集哪些数据;有的机构掌握着数据,也愿意开展大数据应用,但是感觉无从下手;有的机构是手握“数据富矿”找数据,找不到具体的应用场景;有的机构应用了大数据,但是由于运用不合理的方式方法,结果大打折扣。上述问题主要是对大数据应用的价值点不清晰以及对于实现价值的路径不清晰。
(六)大数据与共享的关系:
大数据时代,数据成为资产,创造数据价值的过程其实就好比水的流动。水通过流动就能产生动力,大数据通过流动才能产生价值。滴水难以形成力量,很多水汇集成江河湖海就能形成汹涌澎湃的力量,在大数据时代,数据的关联、交叉、汇聚、共享才能催生业务价值。
(七)大数据与创新的关系:
科学技术的发展已经进入了第四范式阶段,即由数据驱动的创新阶段。在自然科学领域,科学家们正在尝试利用数据驱动科学理论的发展。在社会科学领域,如何通过数据驱动从而实现科学决策、优化政府治理、配置经济和社会资源,利用大数据助力双创工作的开展,也是值得探讨的问题。可以预见,数据范式未来会在社会科学领域发挥重大价值,因为通过宏观大尺度的观察和细节数据的收集处理以及类比分析,就可能模拟、预判政策的执行效果或者精准的感知社会态势。
(八)大数据与人才培养的关系:
大数据最终为人创造价值,也依赖于人实施、产生、创造数据的价值,因此,大数据应当以人为本。想要真正运用好大数据,需要培养懂得业务的大数据人才。如果不懂得业务,就无法准确提炼、定位、搜寻到大数据潜在的应用价值点。如果一线业务人员能够像使用WORD、Excel等办公软件一样轻松自如的应用一些大数据的工具和成果,那么大数据创新就会不断涌现,真正的大数据价值时代就会来临。
(九)大数据与模型的关系:
目前阶段,模型是连接数据和业务价值之间的桥梁,数据通过模型转化为结论,进而指导下一步的行动。最近一段时间,我国各地方政府、社会机构组织了大量的大数据比赛和开放数据大赛,一方面促进了数据开放和流动,另外一方面吸引了更多的社会力量参与数据创新。虽然比赛办得风风光光,但是比赛过后,由于知识产权的问题,一般的模型是不公开的,造成了很多优秀的成果无法传播和扩大影响,比较可惜。在这方面,可以增强探索,例如参照美国数据竞赛网站Kaggle的模式,通过激烈性竞赛,将最好的模型设计原理公开,从而加速模型和知识的扩散和传播。
(十)大数据与安全和隐私保护的关系:
从棱镜门事件到我国出现的诈骗案,信息泄露给社会造成了难以弥补的损失。从技术角度讲,有了大数据之后,信息安全的挑战更大了。同时,大数据也带来了隐私保护的问题。大数据隐私泄露可能发生在多个环节:一是组合信息泄露问题,例如单个信息不造成泄露,但是将网络中的多个信息碎片组合起来就有可能泄露隐私信息;二就是流程泄露问题,数据在存储、传输和处理过程中会造成泄密;三是基础设施造成信息泄露,目前用来存储大数据的基础设施本身有很多安全问题,例如由于历史原因,国内大部分政府、银行、能源机构的数据库软件和服务器仍然采用国外的产品,这对存储于其上的数据构成了泄露的风险;四是针对大数据的APT攻击,敏感大数据更容易成为攻击目标。五是第三方导致的泄露,第三方平台掌握大量大数据,会产生滥用和误用的风险,导致信息泄露。其他类型的安全隐患包括:非授权访问、传输过程中破坏数据完整性、拒绝服务攻击、网络病毒等。
在隐私保护方面,英美很多机构都设置了隐私保护专家,并且都提出了全生命周期数据隐私保护的概念,即在数据从生产到加工、传播的每个环节,都加入了隐私保护的评估和机制保证,而不只是在最后开放的环节才考虑隐私的问题。当前,数据脱敏和匿名化也面临着一些挑战,例如有专门针对数据匿名化的反匿名化技术;根据披露的邮编、年龄范围和搜索关键词就能定位到具体的人;通过用户观看的多部电影名称和大致时间范围定位到用户。
未来展望
数据开放和数据创新最终离不开数据价值体现,也离不开生态系统的支撑。通过构建数据融合、开放、共享、共创的机制,打通“政产学研用金介贸媒”的开放数据体系,通过社会态势感知、沟通渠道顺畅、政策影响评估等典型应用,建立一套用数据说话、用数据决策、用数据管理、用数据创新的管理机制,提高政府的决策、治理、服务、监督、风险防范等综合水平,实现公共利益的最大化,通过数据流引领技术流、物质流、信息流、资金流、人才流形成合力。
当前,只有深刻、清醒的认识大数据存在的各种困难和挑战,坚持从实际出发,立足于大数据的发展趋势和中国发展变化的实际情况,敢于创新,走自主特色的道路,积极探索,才能深入推进我国大数据国家战略的伟大事业,助力实现中华民族伟大复兴的“中国梦”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27