
中国制造2025变革,背后的大数据来龙去脉
大数据的成长路径一定是个长期成长过程,实用分析工具与先进分析理念,真正释放数字化分析的力量,由人类轨迹产生的数据,与机器自动产生的数据得出洞见,从管理决策推导运营方案,最终实现数据价值提升。无论是为促销产品还是作为战略目标,大数据已然成为很多公司和机构过度使用的术语。笔者认为,数据基本就是两类,一类是人类轨迹产生的数据,另一类机器自动产生的数据。这两类数据构成了我们今天的大数据多结构化数据源。大数据不仅要关注实际数据量的多少,而最重要的是关注在大数据的处理方法,让数据产生巨大的创新价值。这也就是为何以谷歌为代表的技术创新类的公司会在未来成为全球市值最高的公司的核心原因之一。
实现工业4.0或中国制造2025的前提之一是构建智能工厂,其核心要素包括了信息物理系统(CPS),物联网(IOT),智能认知,社交媒体,云计算与移动,以及M2M。智能工厂构成了工业4.0的一个关键特征。智能工厂将从现在通过中央控制中的模式转向通过自行优化和控制其制造流程来实现。
柔性生产的三个方面
1.人、机器和资源如同在一个社交网络里自然地相互沟通协作。
2.生产出来的智能产品能够理解自己被制造的细节以及将如何用。它们积极协助生产过程,回答诸如“我是什么时候被制造的”“哪组参数应被用来处理我”“我应该被传送到哪”等等问题。
3.机器和产品之间的数据传输将通过使用微处理器、存储装置、传感器和发送器来实现。这些装置将被嵌入至几乎所有可想象的机器、待加工产品、材料、智能工具和用于组织数据流的新型软件,由此实现产品和机器的相互通信并和交换数据。
大数据在智能工业的特征
1.处理方法比数据本身值钱
无论是为促销产品还是作为战略目标的方式,大数据已然成为很多公司和机构过度使用的术语。2012年高德纳(Gartner)给出德大数据定义里面,特别强调大数据是多样化信息资产,不仅关注实际数据,而最最重要的是关注大数据处理方法。数据量大还是量小本身并不是判断大数据价值的核心指标,而数据的实时性(velocity)和多元性(variety)应该对大数据的定义和价值更具直接的影响。
2.多结构化数据:包含人类和机器数据
我们大多数人会认为大数据包含了非结构化数据与结构化数据。我更提倡大数据是“多结构化数据”的说法,无论是自由文本还是关系数据库等,大数据可以由人类产生的数据足迹与机器自动生产的数据两大板块形成。大数据的工具和技术能够为不同的结构化数据服务。在信息化与工业化融合的过程与商业活动中,我们需要加强机器数据的采集,分析,并且把此项工作作为智能制造的核心工作之一。
3.大数据的机器数据让我们的业务变得透明
在现代工业供应链中,随着大数据应用的普及,我们可以感受到了从采购,生产,物流与销售市场都是大数据的战场。大数据可以帮助我们实现客户的分析和挖掘,它的应用场景包括了实时核心,交易,服务,后台服务等。通过的载体包括了手机,传感器,穿戴设备,3D打印机和平板电脑等。传感器数据属于工业大数据类别之一,从这些机器数据中,我们可以保障生产,满足法律法规的要求,提升环保,改善客户服务。通过帮我们找到已经发生的问题做好协助预测相类似问题未来重复发生的几率与时间。
大数据的挑战
1.用理性了解大数据
作为与工业4.0联系最为紧密的两化融合任务,中国制造2015其核心是生产过程、产品的智能化,以及互联网与制造业的融。数据的灵活处理性成为第一个焦点。随着传统数据库(database)和数据仓库(datawarehouse)的运行越来越缓慢,并很难满足企业业务的发展需要,数据的灵活性就成为了推动大数据技术发展的一个重要推动力。
2015年的大数据领域被看作是“数据湖(datalake)”与“数据藻泽”的状态之争。无论学术杰如何去诠释,其核心是强调一种基于对象的数据存储方式将收集来的数据以其最原生的格式(多结构化的)存储下来留作日后使用。“数据湖”具有很高的价值定位,它代表了一种可扩展的基础架构,非常经济且超级灵活。
3.自主大数据数据服务成为主流
随着大数据工具和服务的发展,2015年,IT行业将逐渐缓解发展瓶颈的局面,许多商业用户和数据科学家将会借助相关工具和服务访问大量数据。自助服务大数据将成为IT行业的一种趋势,它允许商业用户可以通过自助服务接触大数据。自助服务还可以帮助开发者、数据科学家和数据分析师直接进行数据探索和处理工作。当我们了解大数据的时候,业务的价值和IT的成本是我们主要衡量未来IT的标准,业务价值驱动大数据创新。Hadoop不再成为我们讨论的大数据主题。我们需要了解更多的是业务创新,数据变现和业务场景的探索。
下一代的大数据体系——数据湖
每个数据项都应有清楚的追踪,可追溯其源系统以及该数据项产生的时间等信息。2010年JamesDixon以此理念,创造了数据湖(dataLake)这个术语,当时他打算将数据湖泊作为单一数据源来使用,而多数据源将形成“水景园”。尽管还是最初的构想,如今最普遍的应用是将数据湖泊当做许多数据源的结合。现有数据仓库在分析能力的缺失,业务对数据获取能力的提升,高级分析方法的创新是一种必然。
数据湖泊是近十年出现的术语,用来描述数据世界中,数据分析管道的重要组成部分。作为一个信息系统,数据湖泊是大型的基于对象的存储库,数据以其原始格式存储。通过全面的监控和分析,通过数据的分析模型的建立,学习,模拟,行动,最终实现内容认知的智能。有并行体系以及无需移动数据即可对数据进行计算操作的明显特点。
特点1:数据湖泊是一个并行体系,能够存储大数据
数据湖泊的每个数据元素都有独特的标识符,并有一组扩展的元数据标签。
数据湖泊以数据源提供数据时的原格式(不论原格式是什么)存储原始数据。没有预设的数据模式,每个数据源都可以使用任何模式。由消费者根据自己的目的来理解数据。
特点2:数据湖体系无需移动数据即可对数据进行计算操作
通常数据仓库一方面要清理,一方面还要聚合数据,从而使分析更加容易。但科学家往往也反对这点,因为聚合意味着丢弃数据。你不知道今天或者几年以后哪些数据会有价值,所以数据湖泊应包含所有数据。数据湖泊使用平坦架构存储数据。这个理念是建立一个单一存储区,用来存储组织内任何人员可能需要分析的所有原始数据。通常人们使用Hadoop对湖泊内的数据进行各种操作,但这个概念比Hadoop要宽泛的多。
总结
大数据技术自身在快速的发展,从1.0到大数据3.0的数据湖时代,我们要理性的看待大数据,在关注数据量的同时,应该更加重视数据分析的能力和方法。笔者认为,实用分析工具与先进分析理念,真正释放数字化分析的力量,由人类轨迹产生的数据,与机器自动产生的数据得出洞见,从管理决策推导运营方案,最终实现数据价值提升。
业界有很多大数据的技术公司提供不同的技术,其中也包含了一大堆的开源软件开发出来的。大数据的成长路径一定是个长期成长过程。在不同的阶段,来打造不同的IT能力,我们倡导的是开放式大数据架构。不仅仅为大的数据集服务,同时企业中业务人员有很多小数据集的分析和探索。在很好满足业务的不同需求下,大数据一定是一种混搭技术,利用现有的IT投资来达到整个回报的最大化。特别在中国智能制造2025的变革中,数据湖不会是数据仓库和BI平台的终结者,但数据湖一定是未来企业数据技术(DT)的核心纽带,成为引导中国制造2025变革的数字宠儿。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11