京公网安备 11010802034615号
经营许可证编号:京B2-20210330
专访英特尔中国研究院院长吴甘沙:期待数据开放带来真正的大数据时代
吴甘沙,2000年加入英特尔,2011年晋升为首席工程师,同年他共同领导公司的大数据中长期技术规划。在英特尔工作期间,他发表10余篇学术论文,有22项美国专利,14项专利进入审核期。
在英特尔中国研究院院长吴甘沙的微博上,有一句英文的自我简介,可大致译为“勇敢而与众不同地思考大数据”。自2011年担任英特尔首席工程师以来,他一直主持研究院大数据方面的研究。站在大数据思维和技术研发“潮头”的他认为,研究大数据的乐趣在于“当大多数人在考虑第N个阶段的时候,开始考虑N 1个阶段”。
当前,贵州也站在了大数据产业的“潮头”。而环顾全球,大数据正以燎原之势,从一个热词迅速转化为科研院所、政府、企业、个人共同关注、研究、应用的对象,一种新的生产力正蓬勃兴起。贵州、贵阳要引领发展趋势,对话大数据专家,从他们那儿汲取智慧是一种事半功倍的途径。为此,记者近日专访了吴甘沙。
大数据是指数社会的蛋白质
“如果以世纪之交作为分隔线,上世纪的数据文化、思维和方法论还停留在前大数据时代,真正意义上的大数据思想本世纪初才破茧而出。”吴甘沙说。
“2012年,大数据成为显学。”吴甘沙介绍,这一年,达沃斯的《大数据,大影响:全球发展的新可能》和奥巴马政府的《大数据研发计划》共同确立了大数据在世界范围的战略位置,而涂子沛《大数据》和舍恩伯格《大数据时代》在国内的出版,也使2012年被称作中国的大数据元年。
对于大数据,吴甘沙常常理解为:“摩尔定律是指数社会的基因,而大数据是指数社会的蛋白质。”上世纪60、70年代,英特尔创始人之一的戈登·摩尔提出:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。这一定律常常被用来形容信息技术进步的速度。而吴甘沙认为,随着移动互联时代的到来,数据爆发式增长在量上也越来越符合摩尔定律的指数递增规律。
“基因决定生命特征,是初始点,而蛋白质是生命的物质基础,是生命活动的主要承担者,也就是说,大数据会越来越像原材料,像货币,变成社会生命活动的主要承担者,关系到每一个人的数据化生存。”吴甘沙断言。
他进而举例说,在大数据、云计算、移动互联网和物联网等现代前沿信息技术之中,大数据是根本和核心,云计算是方式和手段,移动互联网、物联网则是物化大数据和云计算价值的应用。
大数据发挥作用的关键在于数据开放
当下,“互联网+”这一名词及其对应的发展趋势正方兴未艾,而吴甘沙则提出了“大数据×”这一说法。他说,大数据与很多传统产业融合在一起能够产生乘法效应,不同产业之间融合还能产生数据外部效应,即一个产业的数据如果用于另外一个产业,能迸发出巨大价值。
在研究中,吴甘沙越来越发现,乘法效应要充分发挥,必须走数据开放之路,让不同领域的数据真正流动起来、融合起来。“最开始,大数据的主要矛盾是互联网公司或在线数据太多的问题,接着,主要矛盾变成人没有能力从数据中提取价值的问题,最后主要矛盾变成中小公司、传统行业无法获得数据,数据孤岛的问题。”吴甘沙说,正因为如此,最近四五年,他个人的研究方向也从关注数据与机器的关系到关注数据与人,再到眼下关注数据与数据的关系。
那么,哪些数据适合开放呢?吴甘沙认为:“不涉及个体的公共数据和科研数据都可以开放,涉及个体的数据要明确数据权属、隐私界定,获得拥有者授权,采用技术匿名化之后再考虑开放。”他同时建议,可以借鉴英美,开放原始数据,而非提炼数据,保证数据满足蒂姆·伯纳斯-李提出的数据开放五星标准。
目前,贵阳正通过宽带贵阳和全域公共免费WiFi城市建设,推动社会企业和个人动态数据的“块”上集聚。吴甘沙认为,WiFi采集数据的优点就是有数据发生所在地点的信息,方便把数据放到不同的语境中分析。但他也坚持,在数据集聚之后,同样需要明确获得用户对数据的授权。
数据交易定价机制仍待实践中摸索
广义的数据开放还包括数据的共享及交易。吴甘沙认为,在大数据时代,如何让数据变成政府决策、企业经营的第一要素,数据的交易显得尤为关键。
4月14日,贵阳大数据交易所完成了首批交易。在吴甘沙看来,这样一个基于市场进行价值发现和定价,连通大数据供需双方,让数据像股票交易那样高频率碰撞的交易市场,在大数据时代是大势所趋。
但他同时指出,无论是数据的交易,还是交易过程中数据的定价,现在都没有标准的答案,“一来要从实践中摸索,二来要有意识地跟经济界做思想碰撞。”他举例说,数据在公开市场交易的时候,是根据市场价值发现机制来定价,根据数据的种类来定价,还是根据数据访问API的调用次数来定价?企业的数据资产价值几何?个人数据是否也需要定价,它的价值是不是应该由个人自己来享受,而不是完全让互联网服务提供商从中获益……
尽管这些困惑尚无定论,但吴甘沙认为这也正是大数据的魅力所在。对于大数据,深耕多年的他认为,乐趣在于“当大多数人在考虑第N个阶段的时候,开始考虑N 1个阶段”。
对于正在争先发展大数据的贵阳,吴甘沙认为过去一年多的工作“非常棒”,他同时给出建议:要想在与北京等发达地区发展大数据的竞争中不落伍,人才聚集和可持续的供给非常关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04