
继移动互联网后的又一个浪潮:大数据
数据成为 DT 时代的核心要素。 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接、贴身肉搏的激烈程度。巨头们争夺的最终目标是数据资源。数据已成为 DT(数据技术)时代的核心要素。世界经济论坛报告曾经预测: “未来的大数据 将成为新的财富高地,其价值可能会堪比石油”,成为战略性资源。
被低估的影响:大数据将指引人类走向智能社会。 一方面大数据“量”和“质”的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致人工智能出现突破性进展,而人工智能又进一步加速了大数据价值的挖掘和应用,使人类社会进入了向智能社会 发展的“正循环”。
政府:推动大数据应用的最关键力量。 政府拥有最多且最具应用价值的核心数据,一方面大数据已经上升至各国国家战略,政府推进大数据开放已经是大势所趋: 美国等发达国家纷纷布局大数据产业,推出大数据相关政策。大数据对整个世界的影响力呈现快速增长趋 势,将引发新一轮大国竞争。 另一方面我国对大数据的政策支持力度上不断提升,大数据战略将上升至国家战略, 国务院已经下达各部委大数据工作任务行动时间表,大数据发展紧迫性和必要性可见一斑,同时也意味着我国大数据发展面临历史性机遇。
数据价值正在被不断发现。 互联网早期有句名言 “在网上,没有人知道你是一条狗。 ”如今有了大数据,在网上,不仅有人知道你是一条“狗”,而且还知道你是一条什么样的“狗”,爱吃什么、什么时候睡。大数据除了具有挖掘商机、精准营销、决策支持、提高效 率等发现价值功能,还有创造价值的功能:能创造新的消费体验、创造新的商业模式和创造新的消费需求。
大数据产业链: 一是数据收集, 其途径:
1、自行收集。如今年 1 月工行“融e 购”商城正式上线,其目的是希望通过发展电商来获得大数据方面的主动权;
2、与第三方合作。如平安银行携手 eBay 推出“贷贷平安商务卡”;
3、“线下数据”转变为“线上数据”。传统行业的“线下数据”转变为“线上数据”将是 DT 时代的血液之一。 “线下数据”就是传统行业的优势。
二是数据处理,数据处理包括鉴别、整理、归类以及建模分析、挖掘利用等,数据科学家可能成为未来最热门职业。三是技术支撑,包括硬件和软件两部分。
大数据与产业的聚合效应。 大数据与生物医药、农业、电信、视频、 互联网金融、工业互联网、车联网、信息安全等产业的结合将产生巨大的化学反应。
1. 大数据: DT 时代的核心要素
1.1. 大数据是未来社会的核心资源
大数据是“互联网+”的核心要素。 互联网的未来在于连接一切,从连接人与人向连接人与服务、人与物、物与物扩散, 使得海量数据的生产和连通变成现实,成为大数据应用的基础。 尤其在传统行业,信息及数据是被忽视的, 缺乏有效的手段进行充分利用, 互联 网与传统产业融合的重要目的在于将潜在信息和数据的价值进行释放, 因此,评价“互联网 +”的指标绝非是简单的信息化,而是对企业的整体生态系统进行数据化, 让企业的一切业务都变得可以分析, 进而更好的识别市场和用户。
从某种程度上来说, 数据是现实世界在虚拟世界的一个“映像”, 可以通过数据挖掘对“虚拟映像”进行分析, 进而对工作流程、商业模式、产品设计产生巨大的影响, 服务于产业本身。 正如马化腾所说,“互联网 +”代表的是一种“信息能源”,能够促使互联网 与传统产业不断融合。
数据逐渐成为整个经济社会的核心资源。十八世纪的农业社会,经济整体以农业为主,十九世纪制造业起步, 1950 年 GDP 大部分是制造业, 而未来数字经济占据经济的主体地位已经成为必然的趋势。全球经济从农业经济到工业经济再到信息经济演变的驱动力来自于 技术的突破,技术在改变生产力和生产关系。信息要素全面升级,尤其是云计算正在变成基础设施,数据在变成整个经济社会的核心资源。
1.2. 被低估的影响: 大数据将指引人类走向智能社会
1.2.1. 大数据“量”和“质”的双提升奠定机器智能的基础
第一,万物互联造就了数据“量”的阶跃发展。 从人类文明出现到 2003 年,人类总共才产生了 5EB(ExaBytes)的数据。计算机出现后, 尤其是近年来移动互联网和物联网的出现, 数据产生的速度和规模开始急剧提升, 过去几年产生的数据比以往 4 万年的数据总 量还要多。预计随着互联网与产业的加速融合,未来数据体量的增速将呈现指数上升态势。 IDC 预计 2020 年全球数据使用量将达到 40ZB(ZettaBytes),需要约 429 亿个 1TB的硬盘进行存储,届时中国产生的数据量将占到全球总量的 21%。
第二,数据逐步趋向与由“端”产生, 从“质”上讲兼具多维性与完备性。 数据的产生一定会在云、端、网这三个视角产生。 2014 年全球互联网用户有 30 亿, Facebook 有 22亿注册用户,月活跃用户超过 13 亿人口。我们在 2014 年全球智能手机出货量突破 13 亿,连网设备超过 300 亿个。 未来可能会有 80-90%数据基于用户智能终端和联网设备产生,由于这些数据连接人体、连接环境、连接物体、连接思想, 将原来看似无关的维度(时间、地域、食品、做法,成分,人的身份和收入情况等)联系了起来, 构成了今天的非常 生动的数据社会的景象,这种数据连接起来才能流动共享,真正实现数据的社会经济价值。
1.2.2. 数据驱动颠覆传统计算机算法, 导致人工智能出现突破性进展
互联网的发展为训练机器模型提供了足够多的数据量,而这种数据驱动算法以深度学习为代表,不但颠覆了传统的计算机算法,也使得人工智能出现突破性拐点。一个典型的例子是 2005 年 NIST 对全世界各家机器翻译系统评测的结果中,从未做过机器翻译的Google, 不仅一举夺得了各项评比的第一名,而且将其它单位的系统远远抛在了后面,而 Google 系统和其他系统主要的优势就在于使用了其他对手近万倍的数据量。 而国内人工智能代表公司科大讯飞近几年在采用深度学习算法,利用大数据训练后,近几年其语音识别和手写识 别错误率均保持 30%-50%的下降。
1.2.3. 大数据与人工智能相互促进,实现发展的正循环
人工智能是解决大数据的数量和效率之间矛盾的关键
传统的机器学习通过标记数据进行有监督学习,随着其处理数据量的增大, 需要外界的支持和帮助也就不断增加, 且计算结果准确性也会受到影响。 因此越来越多的数据将成为负担,也更容易达到极限或产生错误结果。人工智能的突破性技术——深度学习是从未经标 记的数据展开学习,更接近人脑的学习方式,可以通过训练之后自行掌握概念,且输出结果会随着数据处理量的增大而更加准确。同时,深度学习在加速回归定律的指引下会使得进化过程中产物(输出结果)获得指数级增长,当深度学习的效率变得更高,就会吸引更多 的资源向它聚合,使其发展更为迅速。
大数据利用人工智能实现大数据应用的正循环
百度首席科学家吴恩达层提出 : 从优秀产品到大量用户,再到海量数据,最后返回优秀产品是一个良性循环,但最后一个环节“海量数据到优秀产品”会出现问题,因为当数据积累过多时,就无法对这些数据进行完整和准确的处理。
以百度为例, 百度的数据处理自上而下分成开放云、数据工厂和百度大脑三个层级,最底层的开放云收集数据,数据工厂对数据库进行管理,最上层百度大脑的模拟神经网络通过机器学习高效的输出结果,从而实现行业应用,百度大脑就是在最后一个环节体现出巨大价 值,带来更好的信息处理能力,从而产生更加广泛和深入的行业应用,比如百度大数据此前在医疗、交通和金融领域的应用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19CDA 数据分析师:让统计基本概念成为业务决策的底层逻辑 统计基本概念是商业数据分析的 “基础语言”—— 从描述数据分布的 “均 ...
2025-09-19CDA 数据分析师:表结构数据 “获取 - 加工 - 使用” 全流程的赋能者 表结构数据(如数据库表、Excel 表、CSV 文件)是企业数字 ...
2025-09-19SQL Server 中 CONVERT 函数的日期转换:从基础用法到实战优化 在 SQL Server 的数据处理中,日期格式转换是高频需求 —— 无论 ...
2025-09-18