京公网安备 11010802034615号
经营许可证编号:京B2-20210330
透过大数据看企业创新
如何发现大数据中的价值,是我们研究大数据的重要原因。作者介绍了若干简单的数据分析模型,分析创业成功的效率。另外,通过对比连续三年的演讲的话题的数量,得出了那些话题正在走向热门。而话题中的热点词的变化,也反映了话题方向的变化。
技术与创新是几乎所有初创IT公司赖以生存发展的根本,也是像Google、Apple这样的巨无霸们前进的动力,EMC也不例外。除了自上而下的创新,EMC更加注重自下而上的crowdsourcing式的创新。在每年的Innovation Showcase活动中,EMC鼓励员工针对公司的产品,服务,运营,员工等各个方面提出自己的创意。经过一系列的评审,出众的点子会入围 Finalist,甚至成为某些奖项的Winner。更重要的,这些点子还有被立项孵化的可能。
在2011年度的Innovation Showcase中,EMCer们创纪录地提出了近1500个创新Ideas,可谓百花齐放,百家争鸣。通过分析这样的数据,我们首先可以:
• 获得基本的统计信息。类似商业报表,我们可能关心的信息包含有多少人参与了这样的活动,他们的地理分布,他们的职位分布,哪些人是effective innovators等等。
更有趣的,我们可以对这些Idea进行一个主题模型分析,从而:
• 洞察到这些点子的潜在语义结构
• 分析这些点子包含的主题信息,同时刻画主题。
EMC是一个技术驱动的IT公司,通过深化主题分析的结果,我们更进一步地
• 了解到哪方面的技术是EMCer最关心的,并且
• 研究年复一年的技术趋势的变化。
为了达到这些目的,以数据分析为己任的ELC大数据实验室利用相关分析工具,通过数据科学家和对公司业务熟悉的领域专家们的密切协作,从数据中挖掘出了一些有趣的结果。在保护公司IP和个人Privacy的前提下,我们选择性地展示其中一些结果。
1.寻找Effective Innovators
Figure 1 气泡图帮助寻找effective innovators
为了在所有的Submitter中寻找最有效率的创新者,我们统计了每个Innovator的投稿数(NEntries)和入围Finalist的点子数目(NFinalists)。我们可以效率定义:
Effectiveness = NFinalists / NEntries
除了这种数值的表示,我们也使用了可视化的方法来辅助寻找effective innovator。如图所示,横轴表示NEntries,纵轴表示NFinalists。每个innovator的(NEntries, NFinalists)对应于图中的一个点。比如红框内的点表示某个Innovator投了14个Ideas,其中5个入围。定性地说,位于图中左上角的 Innovator都是有效率的创新人。需要注意的是,当多个Innovator具有相同(NEntries,NFinalists)对时,它们在图上显示为同一个点。点的颜色深度反映了这种重合度的强弱。
我们是利用Google Public Data Explorer来做这样的展现的,利用这个工具的一个好处就是方便发布分析结果:https://plus.google.com/u/0/113662585874608138956/posts/SHYJ6NjYsYj。它提供基本的交互功能,比如将鼠标放置某点上, 会显示此Innovator的姓名。为了公司宝贵的人力资源,这儿显示的姓名全都做过加密,希望能替公司保护各位Innovator的信息^-^。
2.寻找Idea中蕴含的主题
通俗地说,主题分析就是去分析发现每一篇文章的主要议题是什么。比如新浪新闻上有讲政治的,有讲体育的,也有关于军事的,属于同一个主题下的文章应该在用词、表达上有一定的相似处。所以,主题分析本质上是一个聚类(Clustering)的过程,即把相似的文章聚成一类,然后通过分析这一类文章的内容来概 括出主题。这儿需要强调的是,通常的主题分析是一种探索性的、无监督的分析:数据里面没有显性的主题或Tag;甚至在分析前,也不知道这些文本里蕴含了多 少个主题,每个主题的名字是什么。
主题分析最流行的工具是LDA(Latent Dirichlet Allocation)。LDA是ML大牛David Blei在博士期间在老牛M. I. Jordan的指导下做的工作。最早的Journal Version是2003年的JMLR,最近Blei又写了一片关于LDA的综述类文章“Introduction to Probabilistic Topic Models”。关于这个课题,
初级的读者可以了解一下LDA是为了做什么的,重点理解Bag of Words的输入,以及输出的结果的展现。
中级的读者如果有概率图模型PGM的基础,可以试着了解LDA所基于的概率假设和概率模型是什么,去思考为什么这样的假设是合理的。这儿需要一些基本概念,比如独立,条件独立,联合分布的分解,以及图模型的plane representation。
高级的读者们需要去搞定的是基于LDA的推理算法。因为LDA是一个Bayesian Model,所以整个推理的中心就是计算感兴趣的变量的后验分布posterior probability。为了这个目标,可以采用sampling based method,比如Gibbs sampling;也可以首先把问题转化为一个优化问题,然后用Variational EM的方法迭代求解。市面上两种方法都有很多实现,可能有自己不同的应用场景,也不好说哪种方法更优。
Figure 2 文本分布图
利用LDA我们对于EMC 2011 Innovation Showcase的数据进行了分析,上图显示的是从中发现的25个主题。每个bar的高度对应属于这个主题的文章个数。对于每个主题我们可以逐一显示属于它的那些文章,并且也可以显示“Word Scoring”,即在主题中每个词的重要性。由于篇幅关系,我们这儿只关注一些特别的主题。
显然,在所有主题中,Topic22享有最高的权重。为了理解Topic 22的含义,我们看一下此主题中的重要词汇。
我们把如图所示的结果展示给熟悉公司的领域专家,得到的回答是Topic22应该是关于Employee Engagement,Productivity and Benefits 。换句话说,在这次创新活动中,有相当数量的点子是针对员工与公司的关系的。很有意思的发现!
EMC是一个High-Tech公司,理所当然的我们有更多的技术性的创新。通过对于其他主题的分析,我们找到了关于存储的主题,关于云计算的主题,关于大数据的主题等等。主题分析对于理解这些创新点子的隐含结构信息有很大的帮助。
3.寻找主题的趋势和演化规律
很幸运,EMC把员工的Idea当成公司的财富保留了下来,即使是去年,前年以及更久远的数据;更幸运的,我们拿到了这批数据,从而可以主题的趋势分析。下面我们就举例分析这几年EMCer在创新中所关注的主题的趋势。
Figure 3 三年来的主题趋势
通过在2011年的LDA模型上对于2009,2010,2011数据进行推理,我们得到了入上图所示的所有25个主题在这三年里受关注的变化。根据这个图以及前一节所进行的主题诠释,我们就可以回答诸如“近些年EMCer是如何看待cloud或者big data的?”这类问题。比如,topic22代表的employ engagement主题在2011年达到一个峰值;topic4代表的big data有一个稳步的增长;而topic9代表的cloud基本保持平稳。
主题的演化讲的是同一个主题的内容随着时间变化而变化的规律。比如说,我们看到在这三年里,每年都有将近60篇的Idea是关于cloud云计算的。我们可以通过这些文章的常用词理解关于云计算创新的演化。
通过上图我们看到,EMCer的想法和公司的战略以及主流的云计算趋势是非常吻合的:在09年EMCer对云计算的认识还停留在系统主机的基础上,到了10年大家开始讨论虚拟化以及私有云的技术,而在去年的重点则转变为包含私有云和公有云的混合云技术。
再以big data大数据主题topic4为例:
在前两年,大数据分析在EMC还只是关于一般数据库的查询和分析。2010年收购了Greenplum之后,我们看到,不仅更多的人讨论数据分析,而且在2011年大家开始关注大数据,Greenplum,和实时的分析。
4.结语
从2007年开始的5年间,EMC总共有6000多位员工参与了每年的Innovation Showcase活动。在这个分析中,Big Data Lab的数据科学们积极的和熟悉公司业务运作的F/D Engineer们协同工作,通过分析这些Idea来刻画EMC的创新生态系统。使大家对于EMCer的创新结构有了一定的了解。
通过这样的分析我们获得了重要的actionable insights来帮助提高公司创意文化。具体的actions包括对于新兴趋势进行引导和加强,组织针对某个主题的special interest group等等。只有通过这些后续的动作,才能真正让数据分析的结果发光发热,给公司增值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12