京公网安备 11010802034615号
经营许可证编号:京B2-20210330
图文:大数据刚刚过了炒作的高峰期_数据分析师培训
长期从事国家863计划高技术研究,1995年当选中国工程院院士,2002年当选第三世界科学院院士。现任国家“973计划”项目首席科学家,中科院计算所首席科学家,曙光公司董事长、中国计算机学会名誉理事长、国家信息化专家咨询委员会信息技术与新兴产业专委会副主任、中国科学院学位委员会副主席等职。
世界已进入了大数据时代。很多人从西方获知关于它的研究现状、重大意义,以及面临的挑战。
在中国科学界,大数据的研究和思考也在往纵深推进。大数据科学作为横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向,与此相关的理论和现实问题,得到深入的探讨。中国工程院院士李国杰长期以来研究大数据,近日,他接受了本报记者的专访,为我们呈现了一位中国科学家眼里的大数据思考。
对可能的负面影响不能掉以轻心
记者:“大数据”现在很热,也有些人比较悲观,比如法国著名哲学家斯蒂格勒最近在中国接受采访时说,如果大数据依旧是促使人类快速做决定,依旧是资本大爆炸、技术大爆炸,那么人类是没有未来的。你认为他是不是多虑了?
李国杰:斯蒂格勒认为,机器的处理是非理性化的,而没有人的理性控制,完全依赖机器是非常危险的。要将大数据推动的无序的资本运作变为有序,给人类留出做理性决策的时间,看清楚人类与技术共存的更好的方向在哪里。
一般来说,技术本身是中性的,关键看人类如何使用。技术的发展,尤其是信息技术的发展,早期往往有一个指数性增长的阶段。但任何增长都有极限,经过一段高速发展之后,一定会遇到增长的零界点(或叫“断点”)。所谓“科学发展观”就是要有理智,未雨绸缪,防止技术的负面作用无节制的扩大,导致出现灾难性的崩溃。
大数据刚刚过了炒作的高峰期,Gartner公司预测大数据技术还要5-10年后才会成为较普遍采用的主流技术(云计算和企业3D打印2-5年后就能成为主流)。从现在起,我们就应该关注如何使大数据技术和产业走上科学发展的轨道,对大数据可能带来的负面影响,比如对个人隐私的侵犯等,绝不能掉以轻心。
历史上许多新技术出现时,都曾有人担心可能危害人类的生存。交流电发明时,许多人反对将交流电接入到住宅内,但现在交流电无处不在。人类已经吃过无节制地滥用技术的苦头,将来应该会更理智地使用新技术。
大数据更难对付的是“泛数据”
记者:数据分析的历史远比大数据长。上世纪90年代兴起的数据挖掘技术的宗旨就是发现数据中有用的模式,提供有用的决策信息。在你看来,大数据的“大”是什么意思?数据挖掘是怎么演变为大数据的呢?
李国杰:上世纪70年代企业已开始采用数据库,后来在数据库的基础上发展了决策支持系统,80年代演变为商业智能和数据仓库,主要用于处理结构化的交易数据。上世纪90年代以来,由于万维网的流行,出现大量半结构化的数据(Web数据)。移动互联网和物联网的兴起使得非结构化的数据(照片和视频数据)成为网络数据的主流。近几年科学实验和工业数据也在指数性增长,其规模不亚于网上数据。数据量急剧增加、数据格式的多样化呼唤新的数据分析处理技术,大数据技术顺运而生。
其实,所谓“大数据”的特征并不仅仅是数据量大,更难对付是“杂数据”(半结构化和非结构化的数据)和“快数据”(要求实时相应的数据和流式数据,如股市交易和远程视屏点播等),更合适的名称也许是“泛数据”。
从基于数据发现情报、知识、价值和支持决策的角度,“大数据”与“小数据”并没有本质性的区别,数据分析技术上也没有集成电路和光纤通信级别的划时代发明。也许过几年人们就不再使用“大数据”这个热词,但数据的采集和分析将成为人类认识世界、改造世界越来越重要的科学技术。
重视数据,就是强调用事实说话
记者:在去年中国人民大学召开的以“开放政府数据”为题的研讨会上,你曾经说,在大数据时代,数据不仅仅是工具,也是战略,也是世界观,也是文化,为什么这样讲?能否具体解释一下?
李国杰:数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。战争可能从过去的靠子弹和导弹发展到靠数据决胜的时代。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后将使我们像错过工业革命机会一样延误一个时代。
大数据通过“量化一切”而实现世界的数据化,将会改变人类认知和理解世界的方式,带来全新的大数据世界观。现在,数据已成了科学认识的基础,数据挖掘技术将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了新的认知途径。
数据文化是一种先进文化,其本质就是尊重客观世界的实事求是精神,数据就是事实。重视数据,就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。在开展智慧城市业务的过程中也发现,大多数老百姓目前对政府开放公共数据并不太关心。要让大数据走上健康发展轨道,首先要大力弘扬数据文化。
大数据促进国家治理体系的现代化
记者:目前推动大数据应用的动力主要是企业,政府对大数据似乎相对被动,给人的感觉好像就是官博、官微等互联网应用,即便投资大数据,主要目的好像还是增加GDP,大数据对政府意味着什么?政府到底要做什么?
李国杰:除了促进经济发展,大数据的另一方面效益是促进国家治理体系的现代化,提高现代化治理能力,国家治理能力的现代化不能光用GDP来反映。经济系统类似于人体的血液系统,国家治理体系类似于神经系统,我们不必用左手来证明右手的重要性。
在发展大数据技术和产业的过程中,政府可做的事情很多,主要包括:通过立法和监督培育大数据产业链和公平的企业竞争环境;加大与大数据有关的科技投入,着力突破大数据关键技术;打破部门壁垒,促进数据融合和集成;推进政府公共数据的开放共享,建设大数据开放平台;建立国家层面的数据标准体系,为数据管理提供操作指南;通过立法尽快建立个人隐私保护制度,为公众创造一个良好的大数据安全环境;加快大数据公共基础设施建设;加大大数据人才培养的力度等等。
多做一些“颇为朴实”的事情
记者:人们常说大数据是沙里淘金、大海捞针,但往往不知道沙里有没有金,海里有没有针,浪费了很多精力,你认为大数据的大价值究竟体现在哪里?
李国杰:人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据更大的价值是带动有关的科研和产业,提高各行各业通过数据分析解决困难问题和增值的能力。大数据的价值主要体现在它的驱动效应。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,所谓“啤酒加尿布”的数据挖掘经典案例其实也是Teradata公司一个经理编出来的“故事”。多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。
不要攀比大数据系统的规模,要比实际应用效果
记者:中国在大数据方面和其他一些国家的差距究竟有多大?主要体现在哪些方面?我国在发展大数据中要注意哪些问题?
李国杰:中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个TOP10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入TOP10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。另外,在数据的开放共享方面,我国也落后于许多国家(包括一些发展中国家),在保护个人隐私等立法上,我国还没有引起重视。
我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。钱学森先生曾倡导“大成智慧学”,提出“必集大成,才能得智慧”。大数据的力量就是来自“大成智慧”。一定要高度重视不同来源和不同格式数据的集成融合,强调不同部门、不同学科的协作。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelli-gence)。发展大数据的目标是要获得协同融合的“无缝智慧”。
数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心。许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27