京公网安备 11010802034615号
经营许可证编号:京B2-20210330
图文:大数据刚刚过了炒作的高峰期_数据分析师培训
长期从事国家863计划高技术研究,1995年当选中国工程院院士,2002年当选第三世界科学院院士。现任国家“973计划”项目首席科学家,中科院计算所首席科学家,曙光公司董事长、中国计算机学会名誉理事长、国家信息化专家咨询委员会信息技术与新兴产业专委会副主任、中国科学院学位委员会副主席等职。
世界已进入了大数据时代。很多人从西方获知关于它的研究现状、重大意义,以及面临的挑战。
在中国科学界,大数据的研究和思考也在往纵深推进。大数据科学作为横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向,与此相关的理论和现实问题,得到深入的探讨。中国工程院院士李国杰长期以来研究大数据,近日,他接受了本报记者的专访,为我们呈现了一位中国科学家眼里的大数据思考。
对可能的负面影响不能掉以轻心
记者:“大数据”现在很热,也有些人比较悲观,比如法国著名哲学家斯蒂格勒最近在中国接受采访时说,如果大数据依旧是促使人类快速做决定,依旧是资本大爆炸、技术大爆炸,那么人类是没有未来的。你认为他是不是多虑了?
李国杰:斯蒂格勒认为,机器的处理是非理性化的,而没有人的理性控制,完全依赖机器是非常危险的。要将大数据推动的无序的资本运作变为有序,给人类留出做理性决策的时间,看清楚人类与技术共存的更好的方向在哪里。
一般来说,技术本身是中性的,关键看人类如何使用。技术的发展,尤其是信息技术的发展,早期往往有一个指数性增长的阶段。但任何增长都有极限,经过一段高速发展之后,一定会遇到增长的零界点(或叫“断点”)。所谓“科学发展观”就是要有理智,未雨绸缪,防止技术的负面作用无节制的扩大,导致出现灾难性的崩溃。
大数据刚刚过了炒作的高峰期,Gartner公司预测大数据技术还要5-10年后才会成为较普遍采用的主流技术(云计算和企业3D打印2-5年后就能成为主流)。从现在起,我们就应该关注如何使大数据技术和产业走上科学发展的轨道,对大数据可能带来的负面影响,比如对个人隐私的侵犯等,绝不能掉以轻心。
历史上许多新技术出现时,都曾有人担心可能危害人类的生存。交流电发明时,许多人反对将交流电接入到住宅内,但现在交流电无处不在。人类已经吃过无节制地滥用技术的苦头,将来应该会更理智地使用新技术。
大数据更难对付的是“泛数据”
记者:数据分析的历史远比大数据长。上世纪90年代兴起的数据挖掘技术的宗旨就是发现数据中有用的模式,提供有用的决策信息。在你看来,大数据的“大”是什么意思?数据挖掘是怎么演变为大数据的呢?
李国杰:上世纪70年代企业已开始采用数据库,后来在数据库的基础上发展了决策支持系统,80年代演变为商业智能和数据仓库,主要用于处理结构化的交易数据。上世纪90年代以来,由于万维网的流行,出现大量半结构化的数据(Web数据)。移动互联网和物联网的兴起使得非结构化的数据(照片和视频数据)成为网络数据的主流。近几年科学实验和工业数据也在指数性增长,其规模不亚于网上数据。数据量急剧增加、数据格式的多样化呼唤新的数据分析处理技术,大数据技术顺运而生。
其实,所谓“大数据”的特征并不仅仅是数据量大,更难对付是“杂数据”(半结构化和非结构化的数据)和“快数据”(要求实时相应的数据和流式数据,如股市交易和远程视屏点播等),更合适的名称也许是“泛数据”。
从基于数据发现情报、知识、价值和支持决策的角度,“大数据”与“小数据”并没有本质性的区别,数据分析技术上也没有集成电路和光纤通信级别的划时代发明。也许过几年人们就不再使用“大数据”这个热词,但数据的采集和分析将成为人类认识世界、改造世界越来越重要的科学技术。
重视数据,就是强调用事实说话
记者:在去年中国人民大学召开的以“开放政府数据”为题的研讨会上,你曾经说,在大数据时代,数据不仅仅是工具,也是战略,也是世界观,也是文化,为什么这样讲?能否具体解释一下?
李国杰:数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。战争可能从过去的靠子弹和导弹发展到靠数据决胜的时代。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后将使我们像错过工业革命机会一样延误一个时代。
大数据通过“量化一切”而实现世界的数据化,将会改变人类认知和理解世界的方式,带来全新的大数据世界观。现在,数据已成了科学认识的基础,数据挖掘技术将传统的经验归纳法发展为“大数据归纳法”,为科学发现提供了新的认知途径。
数据文化是一种先进文化,其本质就是尊重客观世界的实事求是精神,数据就是事实。重视数据,就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。在开展智慧城市业务的过程中也发现,大多数老百姓目前对政府开放公共数据并不太关心。要让大数据走上健康发展轨道,首先要大力弘扬数据文化。
大数据促进国家治理体系的现代化
记者:目前推动大数据应用的动力主要是企业,政府对大数据似乎相对被动,给人的感觉好像就是官博、官微等互联网应用,即便投资大数据,主要目的好像还是增加GDP,大数据对政府意味着什么?政府到底要做什么?
李国杰:除了促进经济发展,大数据的另一方面效益是促进国家治理体系的现代化,提高现代化治理能力,国家治理能力的现代化不能光用GDP来反映。经济系统类似于人体的血液系统,国家治理体系类似于神经系统,我们不必用左手来证明右手的重要性。
在发展大数据技术和产业的过程中,政府可做的事情很多,主要包括:通过立法和监督培育大数据产业链和公平的企业竞争环境;加大与大数据有关的科技投入,着力突破大数据关键技术;打破部门壁垒,促进数据融合和集成;推进政府公共数据的开放共享,建设大数据开放平台;建立国家层面的数据标准体系,为数据管理提供操作指南;通过立法尽快建立个人隐私保护制度,为公众创造一个良好的大数据安全环境;加快大数据公共基础设施建设;加大大数据人才培养的力度等等。
多做一些“颇为朴实”的事情
记者:人们常说大数据是沙里淘金、大海捞针,但往往不知道沙里有没有金,海里有没有针,浪费了很多精力,你认为大数据的大价值究竟体现在哪里?
李国杰:人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据更大的价值是带动有关的科研和产业,提高各行各业通过数据分析解决困难问题和增值的能力。大数据的价值主要体现在它的驱动效应。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,所谓“啤酒加尿布”的数据挖掘经典案例其实也是Teradata公司一个经理编出来的“故事”。多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。
不要攀比大数据系统的规模,要比实际应用效果
记者:中国在大数据方面和其他一些国家的差距究竟有多大?主要体现在哪些方面?我国在发展大数据中要注意哪些问题?
李国杰:中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个TOP10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入TOP10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。另外,在数据的开放共享方面,我国也落后于许多国家(包括一些发展中国家),在保护个人隐私等立法上,我国还没有引起重视。
我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。钱学森先生曾倡导“大成智慧学”,提出“必集大成,才能得智慧”。大数据的力量就是来自“大成智慧”。一定要高度重视不同来源和不同格式数据的集成融合,强调不同部门、不同学科的协作。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelli-gence)。发展大数据的目标是要获得协同融合的“无缝智慧”。
数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心。许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04