如何建立数据分析的思维框架-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读如何建立数据分析的思维框架

如何建立数据分析的思维框架

2017-01-16

如何建立数据分析的思维框架

曾经有人问过我，什么是数据分析思维？如果分析思维是一种结构化的体现，那么数据分析思维在它的基础上再加一个准则：

不是我觉得，而是数据证明

这是一道分水岭，“我觉得”是一种直觉化经验化的思维，工作不可能处处依赖自己的直觉，公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现，它依托于数据导向型的思维，而不是技巧，前者是指导，后者只是应用。

作为个人，应该如何建立数据分析思维呢？

建立你的指标体系

在我们谈论指标之前，先将时间倒推几十年，现代管理学之父彼得·德鲁克说过一句很经典的话：

如果你不能衡量它，那么你就不能有效增长它。

所谓衡量，就是需要统一标准来定义和评价业务。这个标准就是指标。假设隔壁老王开了一家水果铺子，你问他每天生意怎么样，他可以回答卖的不错，很好，最近不景气。这些都是很虚的词，因为他认为卖的不错也许是卖了50个，而你认为的卖的不错，是卖了100。

这就是“我觉得”造成的认知陷阱。将案例放到公司时，会遇到更多的问题：若有一位运营和你说，产品表现不错，因为每天都有很多人评价和称赞，还给你看了几个截图。而另外一位运营说，产品有些问题，推的活动商品卖的不好，你应该相信谁呢？

其实谁都很难相信，这些众口异词的判断都是因为缺乏数据分析思维造成的。

老王想要描述生意，他应该使用销量，这就是他的指标，互联网想要描述产品，也应该使用活跃率、使用率、转化率等指标。

如果你不能用指标描述业务，那么你就不能有效增长它。

了解和使用指标是数据分析思维的第一步，接下来你需要建立指标体系，孤立的指标发挥不出数据的价值。和分析思维一样，指标也能结构化，也应该用结构化。

我们看一下互联网的产品，一个用户从开始使用到离开，都会经历这些环节步骤。电商APP还是内容平台，都是雷同的。想一想，你会需要用到哪些指标？

而下面这张图，解释了什么是指标化，这就是有无数据分析思维的差异，也是典型的数据化运营，有空可以再深入讲这块。

指标体系没有放之四海而皆准的模板，不同业务形态有不同的指标体系。移动APP和网站不一样，SaaS和电子商务不一样，低频消费和高频消费不一样。好比一款婚庆相关的APP，不需要考虑复购率指标；互联网金融，必须要风控指标；电子商务，卖家和买家的指标各不一样。

这些需要不同行业经验和业务知识去学习掌握，那有没有通用的技巧和注意事项呢？

好指标与坏指标

不是所有的指标都是好的。这是初出茅庐者常犯的错误。我们继续回到老王的水果铺子，来思考一下，销量这个指标究竟是不是好的？

最近物价上涨，老王顺应调高了水果价格，又不敢涨的提高，虽然水果销量没有大变化，但老王发现一个月下来没赚多少，私房钱都不够存。

老王这个月的各类水果销量有2000，但最后还是亏本了，仔细研究后发现，虽然销量高，但是水果库存也高，每个月都有几百单位的水果滞销最后过期亏本。

这两个例子都能说明只看销量是一件多不靠谱的事情。销量是一个衡量指标，但不是好指标。老王这种个体经营户，应该以水果铺子的利润为核心要素。

好指标应该是核心驱动指标。虽然指标很重要，但是有些指标需要更重要。就像销量和利润，用户数和活跃用户数，后者都比前者重要。

核心指标不只是写在周报的数字，而是整个运营团队、产品团队乃至研发团队都统一努力的目标。

核心驱动指标和公司发展关联，是公司在一个阶段内的重点方向。记住是一个阶段，不同时期的核心驱动指标不一样。不同业务的核心驱动指标也不一样。

互联网公司常见的核心指标是用户数和活跃率，用户数代表市场的体量和占有，活跃率代表产品的健康度，但这是发展阶段的核心指标。在产品1.0期间，我们应把注意力放到打磨产品上，在大推广前提高产品质量，这时留存率是一个核心指标。而在有一定用户基数的产品后期，商业化比活跃重要，我们会关注钱相关的指标，比如广告点击率、利润率等。

核心驱动指标一般是公司整体的目标，若从个人的岗位职责看，也可以找到自己的核心指标。比如内容运营可以关注阅读数和阅读时长。

核心驱动指标一定能给公司和个人带来最大优势和利益，记得二八法则么？20%的指标一定能带来80%的效果，这20%的指标就是核心。

另外一方面，好的指标还有一个特性，它应该是比率或者比例。

拿活跃用户数说明就懂了，我们活跃用户有10万，这能说明什么呢？这说明不了什么。如果产品本身有千万级别的注册用户，那么10万用户说明非常不健康，产品在衰退期。如果产品只拥有四五十万用户，那么说明产品的粘性很高。

正因为单纯的活跃用户数没有多大意义，所以运营和产品会更关注活跃率。这个指标就是一个比率，将活跃用户数除以总用户数所得。所以在设立指标时，我们都尽量想它能不能是比率。

坏指标有哪些呢？

其一是虚荣指标，它没有任何的实际意义。

产品在应用商店有几十万的曝光量，有意义吗？没有，我需要的是实际下载。下载了意义大吗？也不大，我希望用户注册成功。曝光量和下载量都是虚荣指标，只是虚荣程度不一样。

新媒体都追求微信公众号阅读数，如果靠阅读数做广告，那么阅读数有意义，如果靠图文卖商品，那么更应该关注转化率和商品销量，毕竟一个夸张的标题就能带来很高的阅读量，此时的阅读量是虚荣指标。可惜很多老板还是孜孜不倦的追求10W+，哪怕刷量。

虚荣指标是没有意义的指标，往往它会很好看，能够粉饰运营和产品的工作绩效，但我们要避免使用。

第二个坏指标是后验性指标，它往往只能反应已经发生的事情。

比如我有一个流失用户的定义：三个月没有打开APP就算做流失。那么运营每天统计的流失用户数，都是很久没有打开过的，以时效性看，已经发生很久了，也很难通过措施挽回。我知道曾经因为某个不好的运营手段伤害了用户，可是还有用吗？

活动运营的ROI（投资回报率）也是后验性指标，一个活动付出成本后才能知道其收益。可是成本已经支出，活动的好与坏也注定了。活动周期长，还能有调整余地。活动短期的话，这指标只能用作复盘，但不能驱动业务。

第三个坏指标是复杂性指标，它将数据分析陷于一堆指标造成的陷阱中。

指标能细分和拆解，比如活跃率可以细分成日活跃率、周活跃率、月活跃率、老用户活跃率等。数据分析应该根据具体的情况选择指标，如果是天气类工具，可以选择日活跃率，如果是社交APP，可以选择周活跃率，更低频的产品则是月活跃率。

每个产品都有适合它的几个指标，不要一股脑的装一堆指标上去，当你准备了二三十个指标用于分析，会发现无从下手。

指标结构

既然指标太多太复杂不好，那么应该如何正确的选择指标呢？

和分析思维的金字塔结构一样，指标也有固有结构，呈现树状。指标结构的构建核心是以业务流程为思路，以结构为导向。

假设你是内容运营，需要对现有的业务做一个分析，提高内容相关数据，你会怎么做呢？

我们把金字塔思维转换一下，就成了数据分析方法了。

从内容运营的流程开始，它是：内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览。

这是一个标准的流程，每个流程都有指标可以建立。内容收集可以建立热点指数，看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计，用户阅读是阅读时长。

从流程的角度搭建指标框架，可以全面的囊括用户相关数据，无有遗漏。

这套框架列举的指标，依旧要遵循指标原则：需要有核心驱动指标。移除虚荣指标，适当的进行删减，不要为添加指标而添加指标。

维度分析法

当你有了指标，可以着手进行分析，数据分析大体可以分三类，第一类是利用维度分析数据，第二类是使用统计学知识如数据分布假设检验，最后一类是使用机器学习。我们先了解一下维度分析法。

维度是描述对象的参数，在具体分析中，我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度，时间也是一种角度，所以它们都能算维度。

当我们有了维度后，就能够通过不同的维度组合，形成数据模型。数据模型不是一个高深的概念，它就是一个数据立方体。

上图就是三个维度组成的数据模型／数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的2010二季度的销量，也能知道书籍在江苏地区的2010一季度销量。

数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标，都可以作为维度使用。下面是范例：

将用户类型、活跃度、时间三个维度组合，观察不同用户群体在产品上的使用情况，是否A群体使用的时长更明显？

将商品类型、订单金额、地区三个维度组合，观察不同地区的不同商品是否存在销量差异？

数据模型可以从不同的角度和层面来观察数据，这样提高了分析的灵活性，满足不同的分析需求、这个过程叫做OLAP（联机分析处理）。当然它涉及到更复杂的数据建模和数据仓库等，我们不用详细知道。

数据模型还有几种常见的技巧、叫做钻取、上卷、切片。

选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等，2010年一季度变成1月、2月、3月。上卷则是钻取的相反概念，将维度聚合，比如浙江、上海、江苏聚合成浙江沪维度。切片是选中特定的维度，比如只选上海维度、或者只选2010年一季度维度。因为数据立方体是多维的，但我们观察和比较数据只能在二维、即表格中进行。

上图的树状结构代表钻取（source和time的细分），然后通过对Route的air切片获得具体数据。

聪明的你可能已经想到，我们常用的数据透视表就是一种维度分析，将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片：用城市维度和工作年限维度，计算平均工资。

除了Excel、BI、R、Python都能用维度分析法。BI是相对最简便的。

谈到维度法，想要强调的是分析的核心思维之一：对比，不同维度的对比，这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比，比如不同地区维度的对比，比如产品类型的区别对比，比如不同用户的群体对比。单一的数据没有分析意义，只有多个数据组合才能发挥出数据的最大价值。

我想要分析公司的利润，利润 = 销售额 - 成本。那么找出销售额涉及的指标／维度，比如产品类型、地区、用户群体等，通过不断的组合和拆解，找出有问题或者表现良好的原因。成本也是同理。

这就是正确的数据分析思维。总结一下吧：我们通过业务建立和筛选出指标，将指标作为维度，利用维度进行分析。

很多人会问，指标和维度有什么区别？

维度是说明和观察事物的角度，指标是衡量数据的标准。维度是一个更大的范围，不只是数据，比如时间维度和城市维度，我们就无法用指标表示，而指标（留存率、跳出率、浏览时间等）却可以成为维度。通俗理解：维度>指标。

到这里，大家已经有一个数据分析的思维框架了。之所以是框架，因为还缺少具体的技巧，比如如何验证某一个维度是影响数据的关键，比如如何用机器学习提高业务，这些涉及到数据和统计学知识，以后再讲解。

这里我想强调，数据分析并不是一个结果，只是过程。还记得“如果你不能衡量它，那么你就不能有效增长它”这句话吗？数据分析的最终目的就是增长业务。如果数据分析需要绩效指标，一定不会是分析的对错，而是最终数据提升的结果。

数据分析是需要反馈的，当我分析出某项要素左右业务结果，那么就去验证它。告诉运营和产品人员，看看改进后的数据怎么样，一切以结果为准。如果结果并没有改善，那么就应该反思分析过程了。

这也是数据分析的要素，结果作导向。分析若只是当一份报告呈现上去，后续没有任何跟进、改进的措施，那么数据分析等与零。

业务指导数据，数据驱动业务。这才是不二法门。

解答上篇文章的思考题，可能大家等急了。

你是淘宝的数据分析师，现在需要你预估双十一的销量，你不能获得双十一当天和之前的所有数据。只能获得11月12日开始的数据，你应该如何预估？

因为是开放题，所以没有固定答案。

大家的回答分为两类：

一类是通过后续双十一的销量，判断16年，缺点是需要等一年，优点是简单到不像话。

二类是通过11月12日之后的销量数据，往前预估，期间会考虑一些权重。缺点是双十一属于波峰，预估难道大，优点是可操作性好。

因为题目主要看的是分析思维，目的是找出可能的思路，所以有没有其他的方法呢？

我们尝试把思维放开，因为销量能反应商品，有没有其他维度？我们可能会想到：退换货率、和商品评价率。因为双十一的商品只能在12日后退换货和收货后评价，我们就能根据这两个指标平日的平均比率，以及双十一商品的后续退换和评价总数，预估卖出总量。退换货率肯定会虚高一些（毕竟双十一退货不少），那么商品评价率更准确。

还有其他方法么？当然有，比如会有不少人用蚂蚁花呗支付双十一，那么后续还款的比率能不能预估？

如果再将思路放开呢？虽然我不知道淘宝当天的数据，但是可以寻求外部数据，比如京东，京东的双十一销量是多少，是平时的多少倍，那么就用这个倍数去预估淘宝的。整体的分析结构就分为：

外部数据

京东等其他平台双十一销量

内部数据

商品数据

商品评价率、退换货率、商品销量

支付数据蚂蚁花呗支付比率等

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；