浅议工业大数据分析的方法论-CDA数据分析师官网

热线电话：13121318867

浅议工业大数据分析的方法论

2016-09-16

浅议工业大数据分析的方法论

人们常说，工业大数据是用来挖掘价值的。但更关键的是：价值应如何被挖掘？

我曾经在多个场合申明：“大数据用到工业，特点是对可靠性要求高，而取得可靠性的难度大。” 这个矛盾是个拦路虎，一定要解决才行。为了解决这个矛盾，我再次提出：“知识首先存在于人的脑子当中，需要用数据去雕琢、证伪、修正——而不是强调从数据里面发现新知识 ”——这与商务大数据是不同的。

我的这个观点有个潜台词：人脑中的知识是模糊甚至是错误的，这才需要去雕琢和证伪。其实，人脑中的多数认识是正确的；但可以挖掘价值的地方，却往往是模糊的、甚至是错误的。事实上，大数据创造的价值是通过修正人的认识中的不足和偏差来实现的。

人脑中的这些模糊认识，发生在什么情况下呢？

一种情况是受部门利益或流程标准的限制。我们知道，组织大到一定程度，就要划分成若干部门；机制复杂到一定程度，就要流程化、标准化。这些都是促进生产力发展的。但是，这些事情又会制约信息的流动和科学决策，从而容易形成与组织利益不一致的个人和部门利益。同时，“标准”和流程的缺陷与不足，让一些价值损失“合法化”，难以从组织整体的高度优化决策。认清事实，就便于我们创造系统的价值。

经验主义、教条主义、官僚主义与唯命是从，也容易让人形成模糊甚至是错误的认识。早在10多年前，我就意识到：在创新过程中，需要强调价值创造。强调价值创造的原因，是为了避免误入歧途——离开具体的背景，片面追求好的指标。但最近却越来越感到：这个口号正在误导一些企业。在这个口号的引导下，间接创造价值、系统创造价值都被压制了；与风险同在的价值被压制了；算不清楚收益的工作被压制了；长远的价值被压制了。其实，错的不是口号，而是简单地理解这些口号。语言的表现力是有限的；再明确的语言，到了蠢材那里都会被误解。而唯命是从、经验主义、教条主义、官僚主义，就会让人变蠢。有个段子形象地表达了这种现象。市领导到公园考察：“那些多些绿化那就更好了”于是，园长让人运来了一顿盐（把‘绿化那’听成‘氯化钠’）堆在公园里。这个段子看似好笑，在很多地方其实非常接近现实。

还有人认为：系统的价值损失不大，就不重视这些问题。我却觉得，系统价值其实很大，但主要是被掩盖掉了。另外，考虑到很多制造企业的利润率也只有1%~2%，能把小的方面优化起来，利益也是客观的。其实，把局部优化都做好了，整个企业就可能发生质变——这就好比把坑坑洼洼的道路修成了高速公路，司机就可以放心开高速了。否则，你会花费太多的成本来预防“异常”。

数据如何才能起到上述作用？

老大说过一句话：打铁还需自身硬。本人也有个对应的观点：数据的力量来自于真实和科学。这句话的含义是：人们在推进数字化的时候，常常被认识水平和局部利益所绑架、被政绩观绑架，使得数据不具备科学性和真实性。数据不科学，怎么可能用来修正人的错误认识呢？试想，如果真的是“经济增长就靠统计局了”，国家还能搞好吗？英国有位前首相说：“世界上有三类谎言：谎言，弥天大谎和统计数据。”。搞数据的人，一定要知道：数据是会骗人的。学会不被数据所骗，是数据分析的基本功。

让数据代表科学和真实，其实并不容易。不仅要看到文化和制度的原因，也有技术和认识方面的原因。这里，就需要有方法论的支持。举个例子，希望引发大家的思考：

1、从A地到B地，平均2小时。其实，从Ａ地到Ｂ地有两条路，一条平均半小时，一条平均１０小时，只是很少有人走１０小时的那条路。那么，如果你不知有两条路，仅知道“从A地到B地，平均2小时。”，真的能代表科学与事实吗？

2、喜欢打牌的人，50%是骗子。我们知道：一般来说，这句话是错的。但是，如果统计的对象是一群罪犯呢？结果还是有可能的。

这两个例子用来供大家思考，并没有什么答案。爱其实，很早之前，人们就提出“数据质量”的概念。数据质量，不仅是精度问题，更是“适用性”问题——适用的结果，才是真实的结果。在笔者看来，在大数据时代，让我们有更好的条件通过各种对比，判断一个结论的“适用性”：因为可以找到一大堆的案例进行对比——语文老师从小就告诉我们：有对比才会有说明。

但是，对比说明就那么容易吗？当然也不容易，需要找到一种与业务知识相关的知识和逻辑，才能便于对比说明。否则，整出一个“关公战秦琼”也难说。有了业务知识，就能避免这些笑话。如果缺少业务知识，就很难判断一个分析结果是假象还是众所周知的无聊论断——如前所述，在工业过程中，系统复杂性很容易导致“发现”大量的假象和无聊的结果。如果没有起码的业务知识，时间就会都浪费在无聊的“发现”上。

现在回到开头：工业大数据分析的最终目的是挖掘价值。但现实中直接的作用在于展示现实——展示那些头脑中被假象和错误观念蒙蔽的现实。在被蒙蔽的现实中，隐含着改进的空间——这就是金子所在的地方。当然，看到价值并不等于能够解决问题——这些问题很可能需要用智能制造的办法来解决。所以，我设想：工业大数据或许可以作为智能制造的先导。智能制造的第一要义是“信息感知”：用大数据感知真实的现实，岂不正是智能制造的先导吗？孙子说“知己知彼百战不殆”，不也是要先做到“信息感知”吗？克服官僚主义，不要也要靠“信息感知”。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；