京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据进入挖掘为王时代“新矿工”挖掘新未来
一堆毫无交集的数据,经过一番交融荟萃,催生出全新的应用,激发出全新的商业模式,孕育出新的产业,培育出新的经济增长点,颠覆着传统的经济活动…… 数据挖掘显现的这一系列价值,正在推出一个以数据挖掘为核心的大数据价值输出新时代。
影响所及,无所不达。3月1日,一场围绕数据挖掘的全球赛事——2017中国国际大数据挖掘大赛在我国首个大数据试验区贵州宣布启动。
“相对于采集、储存,数据挖掘是大数据走向应用创造价值的关键。”大赛组委会一位负责人表示,“贵州在拼命开放数据的同时,也在全力进行数据挖掘,就是要尽快‘逼出’大数据的价值,让大数据战略释放出大红利。”
贵州只是全球大数据浪潮的缩影。无论中国的西部,还是美国的硅谷,“挖掘”的声音在全球同步响起,汹涌澎湃。数据资源的开放,挖掘工具的进步,商业前景的清晰,数据挖掘成为新一轮市场热点,愈发受到资本的追捧。
数据价值输出新时代
“如果把大数据比作石油,那么挖掘就是勘探、钻井、提炼、加工。核心是把数据资源变现成商用价值。”一位曾参与国家大数据行动计划纲要起草的专家表示,数据资源已经成为国家战略性资源,我国必须尽快在大数据挖掘这个关键点有所突破。
目前国际主流的做法是把大数据链条分为数据获取、预处理、存储、挖掘或分析、可视化五个关键环节,挖掘被认为是核心。
“真正的大数据就体现在大数据的深度挖掘应用。”中科院院士、北京理工大学副校长梅宏在一次大数据论坛上表示。
“这实际上是数据价值在不断提升的体现。”上述国家大数据行动计划纲要起草专家分析说,以前是对于数据资源的利用,更多是信息的获取,例如企业通过经营数据的分析统计,总结过去的经营活动。而现在不再局限于信息获取,同时实时数据资源的挖掘,可以优化业务模块,可以催生新的业务模块,这是颠覆性的。
全球知名咨询公司德勤发布的《2016分析趋势报告》认为,数据挖掘的威力和价值正在凸显出,它帮助人们作出更明智的决策,优化企业和社会运转。“商界正在积极寻找可以让他们赢得优势的科学方法。”
“我们已经走进数据价值输出的时代。”该专家表示,“大数据依靠挖掘而呈现的巨大商业价值,正在成为推动经济变革的新引擎。”
挖掘需要更多的数据
丰富的数据源是进行大数据挖掘的前提。德勤最新发布报告《2017德勤技术趋势》指出,数据资源正在指数级的增长,到2020年,全球的数字预计将达到44泽字节(zetta bytes)。”
尽管数据资源在全球呈指数级增长,但是数据资源的开放和共享程度却亟待提升。“从国际上看,政府数据开放还处于初期阶段,主要通过制定战略或政策文件形式指导开放。”中国信息通信研究院互联网法律研究中心主任工程师杨筱敏说。
杨筱敏说,2015年我国密集发布了多个相关文件,其中最主要的是国务院《促进大数据发展行动纲要》。纲要对相关政策进行了梳理,提出在开放前提下加强安全和隐私保护,在数据开放的思路上增量先行,提出在2018年底前建成国家统一的数据开放平台。
“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”2016年5月9日的全国推进简政放权放管结合优化服务改革电视电话会议上,国务院总理李克强要求尽快实现政府数据开放。
实际上,嗅觉灵敏的贵州、宁夏等省份,早在几年前就开始布局大数据。贵州甚至是全国第一个大数据综合试验区,政府数据开放是其重要的试验内容。
贵州在2014年开始大数据行动,第一步就是打造一个数据开放共享的“聚通用”云上贵州平台。到了2016年下半年时候,贵州突然加大了推进力度,启动“数据‘聚通用’攻坚会战”。
贵州省大数据发展管理局副局长康克岩介绍,2017年元旦前夕,贵州省法人单位、人口、空间地理、宏观经济四大基础数据库数据汇入共享平台,贵州率先实现50%以上政府数据“云上”开放共享。
记者梳理发现,北京、上海、浙江、青岛、武汉地已建立了专门的政府数据开放平台。最近,河北省和安徽省均表示要在2018年底前初步建成政府数据开放平台。
在此次大赛启动会上,来自贵阳、北京、上海、深圳、广州、杭州等17个国内政府数据开放先行城市的代表,共同发布了《共同促进数据开放及应用行动宣言》,呼吁共同努力促进政府数据开放。
“新矿工”挖掘新未来
随着数据资源越来越多,数据形态越来越丰富。康克岩在分享贵州数据开放经验时表示,在进行海量数据汇集过程中,有一个难题就是数据格式不统一、标准不统一。
形态各异的数据正是大数据的显著特征。海量的图片、声音和视频甚至互联网上的闲言碎语——《2017德勤技术趋势》将这种非结构化的数据称之为暗数据。
德勤在报告里宣称,这些暗数据是比以往任何时候都更有价值的数据源,当然,对挖掘技术的要求也越来越高。
不过这并没有阻挡市场的热情,越来越多大数据企业和数据科学家加入到“暗数据挖掘”战。
移动信息化研究中心2月10日发布的《2016中国大数据市场研究报告》显示,国内大数据企业此前主要聚焦在技术壁垒较低的应用、可视化等环节,而在存储和挖掘等环节,极少有企业切入。但是到了2016年,看到了利好消息。该报告显示,从2013年到2016年,数据挖掘在大数据产业链中的分布情况从4.1%上升到9.2%。
该报告也显示,从大数据主要产业链市场份额占上看,数据存储约占12.5%,存储14.7%,应用7.9%,挖掘占比最高,为17.3%。报告认为产业链纵向各环节均属蓝海市场,而挖掘高风险与高收益并存。
麦肯锡更是对数据挖掘大唱赞歌。麦肯锡全球研究所一份报告指出,到2025年,物联网11.1万亿美元的年产值中60%将来自于对数据的整合和挖掘。
事实上,国内资本看好大数据挖掘这片市场,多数大数据创新企业在A轮或A轮以前可以融到数千万的启动资金,极大程度的催熟创新企业的成长。
知名风投看好,作价千万提前布局,这其中不乏有IDG资本、经纬中国、达晨创投的身影。聚焦于数据挖掘的昆仑数据曾获得达晨创投数千万元的A轮融资。
资本的热捧下,人工智能(AI)、深度学习等大数据挖掘技术和工具的概念也烈焰高涨。时代呼唤新的“矿工”,寻找新的挖掘技术和工具,成为抢占大数据风口的制高点,关于数据挖掘的赛事也成为外界观察大数据脉动的风向标。
“2017年大赛将聚焦数据挖掘及应用,清晰展现大数据价值路径。”上述大赛组委会负责人士表示,“以贵阳为代表的贵州,在政府数据开放领域形成领先全国的态势,为大数据挖掘大赛提供了很好的基础和支撑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27