
工业大数据的理论体系
大数据的课程我讲过多次。除了给专业人人士讲,我个人几乎都不满意。有个问题一直困惑着我:“工业大数据”到底该讲什么,才不至于以偏概全?或者说,理论体系应该包含哪些内容? 下面是我想到的一点原则性的观点——可以从哪些视角看待它。
1、工业大数据的意义:从DIKW体系的角度看
我用DIKW体系的观点解释大数据的意义:将人类带入智能社会。大数据够把人类带入智能社会的核心优势在于“知识”的生产和应用。我们把智能理解为“感知、决策和执行”的统一,则大数据能很好地提供“感知”和“决策”所需要的知识。
2、大数据与业务系统的关系:概念。
很多人把数据和大数据混淆起来。一个典型的表现是把业务系统(如MES、ERP)的功能说成大数据的应用,似乎只要数据都是大数据。在我看来业务系统看数据,侧重数据用于完成特定业务的一次利用。数据作为信息的载体,数据的生命周期相对较短。
大数据则侧重数据的二次利用或重复利用,数据主要作为知识的载体。当然:大数据主要由业务系统(如ERP、MES)产生、积累,并最终服务于业务系统。
3、大数据的特征:甲乙方的视角
甲乙双方看待大数据的特征是不同的。
其中,甲方就是希望通过大数据创造价值、改进业务的业务人员,而乙方是帮助甲方实现目标的IT技术人员。
大数据的甲方视角:有三个特征(样本=全体等,后面详细展开),都与获取知识相关。而获取了知识才能创造价值。大数据的乙方视角即“4V特征”。这四个特征关注的是IT技术人员数据处理的困难。
显然,乙方的工作应该服从甲方的业务需求。从这个意义上讲,乙方可能遇到4V涉及的困难、也可能遇不到,视甲方的实际情况而定。我讲的课主要是甲方视角,而IT专业人士讲的课主要是乙方视角。
4、大数据与知识获取的可行性(甲方视角、大数据特征)
(从甲方看)大数据的价值在于产生知识。人们经常提到的大数据的几个特征(样本=全体、相关非因果、混杂性),都可以归结为便于获得知识。
l 样本=全体。解决知识的存在性问题。人类的一切知识都来源于历史;如果大数据能够完整地记录历史,就会蕴含知识。这一点强调的是样本分布的完整性。
l 不拘泥于因果。一般说法的是“相关关系而非因果关系”,而我将其改为“不拘泥于因果”。人类的知识有很多种,一种是说不出来的“默会知识”、一种是说的清楚的知识;而说得清楚的知识又包括理论知识和经验知识。其中,理论知识是讲究因果的;如果有把知识拘泥于因果则是不完备的。所以,“不拘泥于因果”解决了知识完的整性问题。
l 混杂性。本质是知识的可获得、可验证性,保证知识的质量。获得知识的一个本质要求是区分偶然联系和非偶然联系。混杂性可以用于解决这个问题。
换句话说,这三个特点保证了知识的存在性、完整性和可获得性。这就是大数据的意义所在。我们知道:智能制造需要知识才能形成闭环、互联网可以让知识的价值放大。所以,在智能制造、工业互联网的背景下,大数据的价值猛增。
5、知识类型的角度:多角度观察
我一直认为,大数据的价值在于获得、存储和运用知识的能力。而“知识”可以分类——可以从多个维度来看:
l 默会知识、经验知识、理论知识。
默会知识就是说不清楚、难以变成程序代码的感性知识。例如,从图像中人是一个人、下棋时对“势”的理解,都是感性知识。
感性知识之外的经验知识。这些知识说得清楚怎么做,不一定需要说明原因。如某种方法较好、哪条路走的快等——实际上好就是好了,不一定需要解释。
理论知识就是说得清楚原因、可以解释、甚至可计算的知识。
如前所述,大数据的优势在于可以更容易地获得默会和经验知识——这在过去是很难的。过去计算机用到的知识,往往需要人们写成代码——但这只是人们大脑中的一部分知识。单纯依靠理性知识,难以实现智能化。
l 正向知识(建模获得)、逆向知识(根因分析)。
从原因到结果的知识,我称其为正向知识。数学建模过程就是建立正向知识。从结果到原因的知识,我称为逆向知识。就是所谓的根因分析。
l 联系型知识、设计型知识。
因果知识、感性知识等体现的都是信息之间的联系。而设计型的知识指的是产品、工艺设计等。设计型知识占用的计算机存储量很大。在大数据时代,设计型知识容易存储、处理了。
6、大数据获得知识的途径:承载知识和提炼知识
用大数据获得知识有两种方式:一种就是数据本身就承载知识;一种是数据承载的是信息、需要从数据提炼出知识。
第一种典型的就是产品设计数据、各种标准、成功案例等。快速响应、个性化定制的前提和手段,就是这种知识的共享。
对于这些知识,有时候会面临的困难之一是如何找到它们。而找到这些知识本身就可能是需要获得的知识。典型的就是谷歌搜索。AI算法对解决这个问题可能是有用的。
第二种知识就是前面说的、通过建模或根因分析得到的知识。工业上对知识是有明确需求的、以至于难以达到;但机理却是相对明确的。我谈的很多方法论,其实就是在这两个方面的。下面还会提到。
7、通过大数据获得价值:转型升级才能创造蓝海
从某种意义上说,大数据创造价值就是促进知识创造价值。这些知识要用在提高质量、效率,降低成本等具体问题上,才能创造价值。
人们遇到的真正困惑,或许是如何找到这些“问题”。这些问题大概可以分成两类:一类是现有业务的痛点;第二类是转型升级以后面临新的要求。
对于业务痛点,往往是:“该做的都做了,剩下的往往是难以做的。”所以,难以找到合适的问题。对于这类困惑,大数据只是手段之一。往往要综合运用各种手段,大数据才能给创造价值。
对于第二类困惑,往往是业务本身或外部变化引发的。例如,采用了新的生产方式或技术手段、用户对质量要求提高了、数字化水平提高了、企业的业务重心转移了(创新和服务的比重增大了)等等。这些变化,我统称为“转型升级”。对于这类新的问题,大数据方法比较容易发挥作用。
数据分析曾经被认为是“没有办法的办法”。我把最近突然变热的原因,归结到智能制造相关技术引发的企业转型升级。这时,大数据技术进入了一个蓝海。大数据进入蓝海的原因,不仅是获得知识更方便等原因,更是知识的放大:把知识变成计算机可执行的代码、实现人机知识的共享,知识在互联网上实现共享,都会让知识的价值倍增。从而让“知识生产”的经济性大大提升。
总体上看,转型升级是战略问题,大数据应用是战术问题。战略重点的改变,才能给大数据的应用创造条件。否则,再好的技术都可能成为屠龙之技。
8、大数据建模分析的方法论:算法只是细节问题
谈到大数据分析与建模,很多人马上想到各种算法。在我看来,对数据分析与建模问题来说,算法问题其实是战术问题——也就是说,还需要有个战略问题,用来决定分析什么问题、分析问题的次序和路径等。CRISP_DM就是这个层面上的逻辑。我还想将其逻辑进一步简化:
1、明确业务需求;确定需求是真实的、一旦分析成功则具有可行性。
2、数据分析方法:解决问题的次序和切入点的问题。
其中,前面两步做得好的话,后面的算法会比较简单。我总觉得,学术界把算法看得太重、过度重视算法技巧。技巧易于发论文,但不符合工程逻辑。
9、总结
人们关注工业大数据的终极目标是创造价值;方向是提升智能化;核心问题是知识的获取和应用。用好大数据的关键是搞清楚战略和战术的关系,也就是做什么事情、做事的次序和切入点等问题。单纯从分析方法或数据角度看问题,是看不清楚问题全貌的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14