京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在企业管理信息化的大背景下,数据分析技术已经成为企业应用关注的一个焦点,但由于历史原因,大部分人对传统的统计分析和新起的数据挖掘都不太了解,存在着许多模糊认识。这里先谈谈对统计方法的两种常见的误解。
对统计分析的两种误解
统计学有很强的数学背景,所以常见的误解是:统计学家约等于数学家,数学家约等于陈景润,陈景润约等于歌德巴赫,于是统计学家约等于歌德巴赫。问题来了,歌德巴赫和企业的数据管理有什么关系呢?对于统计学来说,这种误解实在是极大的不幸。著名统计学家George Box有句名言:所有的模型都是错误的,而其中有些模型是有用的。这种话表面上看来是很放肆的,但统计学家们在处理实际问题的时候,所采取的就是这种实用主义态度。统计学家是一群跟数据打交道的工程师,工程师们也要使用大量的数学公式和计算,但决不是坐在屋子里证明高深的数学定理或者哥德巴赫猜想的怪才。
还有一种误解是:统计好象和会计连在一起。说这种话的人其本意是指企业里统计员的工作和会计的工作差不多,统计员和会计的工作为统计分析提供了数据基础。但我们一般说到的统计分析却是指基于数理统计发展起来的诸多方法。这样看来,把统计和会计混为一谈是有些低估统计分析的难度和潜力了。简单说来,会计系统把营业活动转化为数据,在数据编码和标准化方面都有独到之处,它为企业管理提供了大量的基础数据,会计系统构成了定量管理的基础设施;统计方法如果要在企业的管理实践中发挥更大的作用,就应该学习会计的这种标准化思路,让自己更便于使用,更加贴近用户的理解,一句话,变得更加“傻瓜化”。
再看企业决策支持系统
从企业决策支持系统的角度来评估各种量化管理方法的意义,这时实施一种具体的统计方法或者数据挖掘技术,实际上就相当于实施一个项目。量化管理方法很多,而统计方法是一个大类,尤其适用于在不确定环境和信息不充分下的决策。
企业在选用系统的时候,该怎么办?一个通用的问题处理模型就能够说明,通用的问题处理模型包括:问题、可用的资源和技术、成本,综合考虑这三个方面的作用就能够达成一个相对合理的解决方案。这个通用的问题处理模型当然适用于企业寻找信息化途径的努力。
从一个统一的角度来看,企业定量管理的基础是数据的收集和处理系统,一般叫作决策支持系统。用这个金字塔图可以清楚地看到逐级提炼的过程(从噪音到数据、信息、知识和智慧)的提炼过程。决策所依赖的,至少是知识这个层次的加工结果,而未加工的原材料就是所谓的噪音。从这个广义的模型出发,我们可以把会计看作一个信息系统,各个层次之间的交界处需要采用特定的方法来完成提炼,而每个界面上可以运用的技术都是不一样的。
一个信息系统可以包括会计系统、数据库体系和数据分析体系,有一种常见的误解认为统计方法只涉及从数据以后开始的分析工作。其实,巧妇难为无米之炊,统计方法的运用效果取决于基础数据,而收集何种基础数据,怎样节省收集数据的成本,如何降低数据收集过程中的误差,都需要一定的理论指导,统计学为回答这些问题提供了许多很有效的解决方案。
和实际的矿山一样,开掘银矿、煤矿和金矿所用的技术是完全不一样的。完成从噪音到智慧的过程包括其中的中间产物,也有一个对症下药的问题,再考虑到实施的成本和数据分析的难度(比如数据量,数据维数等等),数据处理很容易被人理解为一种艺术。说统计分析和数据挖掘带有艺术色彩应该基本正确,这就象淘金和看病一样,不一定最贵的药就最好。比如对统计方法和统计软件的选用,就是有区别的。小型企业的信息化,基本上依赖ACCESS数据库和EXCEL界面就可以完成;大型企业的信息化则需要和专业的管理软件公司合作才能完成。早期信息化的成本和失败率往往都比较高,这和病急乱投医的情形差不多。
有些人生富贵病,典型症状就是一定要吃贵重的药,否则病好不了,这种现象在企业信息化中也能看到。打个比方,美国企业的信息化接近于坚持锻炼,中国企业的信息化则更像病后康复――有了健康人的示范效应,中国的企业就特别着急,不注意信息系统和自身管理实践的融合,只买贵的、不买对的,结果是交了不少学费。笔者希望对数据分析的运用不要陷入同样的误区。
计算机扮演的角色
从以往的情况来看,统计方法的大规模推广依赖于计算能力的不断增强或者说计算成本的大幅下降。芯片制造技术和软件工程的迅猛发展给人们留下了深刻印象,但是数据量的增长却始终走在计算机的增长前面。这种力不从心的感觉是历史上的常态。完全手工计算的时候,人们会认为多元线性回归的计算是很恐怖的;有手摇计算机的时候,作主成分分析是非常恐怖的;现在,海量数据来了,虽然拥有20年前无法想象的计算能力,有关的分析工作还是让人头痛不已。但是,计算机还是让统计学跟在后面,不断开拓自己的领地。所以,统计学应该感谢计算机,是计算机让统计学变成了真正的实用学科。
另一方面,计算机学科又在不断侵入统计的领域,模糊统计学的边界。很多人都在比较自由地利用计算机,“自以为是”地进行数据分析或者所谓的、不严密的统计分析,他们往往不把“统计专家”的意见放在眼里。有很多大量使用统计方法来分析问题的人甚至没有接受过足够的统计学科训练。对于许多计算数学方面的专家来说,统计学家的权威地位是比较古怪的东西。
偏偏还有许多统计方法的发展历程是这样的:实际应用部门的人提出了一种经验方法,然后其他非统计专业的人开始模仿并推广,最后统计学家跟在后面,努力说明这种方法在统计意义下的合理性并把这种方法整理得更符合学院派的需要。得到广泛应用的方法就会进入统计教科书,成为统计学的组成部分。有些时候,统计学落在了应用的后面。
现在,依赖严格数学假设和推理的统计分析方法依然是统计学的主流。但是面对外行们的自由行动,统计学家比较无奈。数据挖掘正在充当新的入侵者甚至是竞争者,统计学家应该区分自己的理论和实际应用,结果统计学家内部开始分化,放下架子的人越来越多,这是好事。但是,许多来自计算科学的数据挖掘专家为了凸显自己的革命者形象,会宣称自己并非统计学家,甚至强调无须懂得统计学,这就有些虚无主义,做过了头。
结语
我们可以把眼光放得远一点,从数据转化来看,会计做得很好;从对数据质量的描述和要求来看,也是会计做得更规范,那么各种数据分析方法都可以从中吸取经验。而分析数据的经验是统计方法更加丰富,新起的数据分析方法一定要划清界线的话,就不能充分利用已有的经验,显然会付出更多的不必要的成本。而从企业信息化的需求来看,将企业的决策支持系统看作一个整体,然后尽量从企业的一体化视图出发来选择和运用已有的各种量化管理方法。一句话,就是不要神化任何量化管理方法才是正途。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27