一、数据的来源

一手数据 vs 二手数据

1.一手数据(Primary data)

也称为原始数据。顾名思义，是指直接获取，没有经过加工或者第三方传递获得的数据。比如传统调研中的问卷测评、小组访谈、面对面沟通等形式获得的数据，或者是互联网时代用户直接填写的个人信息数据以及平台抓取的行为数据等等。

2.二手数据(Secondary data)

主要是相对于一手数据而言，指的是通过第三方或者是现有的数据资料获取的数据。比如国家统计局数据、知名文献中罗列的数据等等。一手数据的来源渠道，一般比较固定，往往是和自身直接相关。比如搭建的网站，组织的活动，开展的调研等。而二手数据则相对比较多样化，凡是会产出数据相关信息的第三方机构都可以作为来源渠道。

3.优劣势分析

一手数据和二手数据，在实际应用中都是非常重要的。它们不同的优缺点，可以很好地互补，从而帮助企业在效果和效率间找到比较好的平衡。

CDA LEVEL 1 考试，知识点汇总《<a href='/map/shujucaiji/' style='color:#000;font-size:inherit;'>数据采集</a>方法》

在实际项目中，一般会把两类数据进行结合。总结来看，一手和二手数据的选择，可以参考右图的形式进行判断。

同时，在一手数据的使用过程，需要特别注意的是，要对采集回来的数据进行逻辑合理性验证。

而二手数据，因为收集的过程由第三方完成。因此数据的可信性和准确度，就依赖于第三方机构的可信性。

二、抽样方法

如何获取一手数据？

当我们需要获取一手数据的时候，一种常用的方式就是抽样调查。抽样调查不止在传统行业中比较常用，在现在互联网企业中也时常会用到。比如一些优惠活动或者特定客群营销等方案的测试，就需要用到抽样的方式选择测试群体。在做抽样调查时，我们都希望尽可能地减少误差，让抽样的样本能够充分代表整体的特征。那么误差和哪些因素相关呢？抽样误差(Sampling Error)的大小，主要由样本容量的大小和抽样方式来决定。一般，我们认为抽样可以分类两类：一类我们叫做概率抽样(Probability Sampling)，也叫作客观抽样。第二类，我们叫做非概率抽样 (Non-probability Sampling)，也叫作主观抽样。下面我们来分别介绍这两种抽样方法。

概率抽样

顾名思义，是一种基于概率的抽样方式，因此也被称为客观抽样。从理论的角度来说，概率抽样是符合科学和统计原则的，抽样误差可以估计。也是在可能的情况下，最优先被推荐使用的抽样方法。但是，精确度高的方法，往往操作的复杂度和耗费的成本也会相对偏高。概率抽样，虽然可以避免主观判断带来的谬误，但是它常常受限于项目经费、时间和保密性等原则，从而难以实际使用。

非概率抽样

和概率抽样相反，非概率抽样是一种简单、易使用的抽样方式。它主要通过抽样者的判断，包括对样本特征的判断和对项目成本的考量，综合特殊的要求或者设定，最终选择合适的样本。因此，这种方法会受到主观因素的影响，不符合统计科学的原则，抽样误差是无法估计和计算的。但是在实际应用中，大量的案例还是证明了非概率误差依然有一定的有效性。在样本量充足的前提下，通过设定简单的配比，以及选择有经验的抽样者，基本上可以保证抽样结果的有效性。而且由于非概率抽样比较容易重复操作，因此用非概率抽样反复进行同一试验，结果往往也有趋同性。另外，这一抽样方式，虽然无法衡量抽样误差，但是由于抽样过程可以进行设计和控制，因此可以更简单有效地控制非抽样误差（Non-sampling Error）。

总结来说，概率抽样和非概率抽样，我们可以通过以下的表格进行区别：

三、概率抽样方法

介绍了概率抽样和非概率抽样之后，我们重点来看一下概率抽样方法。常用的概率抽样方法主要有以下4种：

分层抽样（Stratified Sampling）

正如之前提到的，简单随机抽样的假设并不总是成立。如果总体可以按照一些特征分成若干层。层与层之间差异明显，每个层内部的个体特征相近，那么我们可以对每个层做简单随机抽样。抽样结果合并的集合，就是我们最终确认的抽样样本。在实际操作中，我们可以按照每一层的个体数量来决定抽取数量，使得每个层抽取的比例都相等，这样的抽样我们叫做按比例分层抽样。一般，如果每层重要性差不多，数量差异也不是很大的情况下，我们都是这样操作的。而如果有一些层非常重要，或者有些层的个体数非常少，那么我们就要采取非按比例分层抽样的方法。如果总体中个体间呈现明显的几类，那么使用分层抽样可以更好地反映总体。避免简单随机抽样可能带来的样本集中或者特征缺失的情况。因此，在概率抽样中，分层抽样也是使用最多的一种。我们在对城市，或者是大型的业务线进行研究的时候，都可以采用分层抽样。

系统抽样（Systematic Sampling）

除了分层抽样之外，系统抽样也对简单随机抽样，进行了改进。使用系统抽样的时候，仍然需要将个体进行编号，然后根据抽样样本容量决定抽样的间距。因此又叫做等距抽样或者机械抽样。这种方法，减少了抽样过程中的人力和时间消耗。不过，系统抽样一般很少作为单独的抽样方法使用，通常是配合其他方法一起进行。

分段抽样（Multi-stage Sampling）

前面提到的，都是一次性抽取完成样本的方法，这些方法可以统称为单阶段抽样。然而在有些情况下，我们并不能一次性完成样本的抽取，比如在全国范围内选择一定数量的用户作为试点调查。这个时候我们需要分阶段地去完成抽样过程，这种方法，我们叫做分段抽样。分段抽样中，我们首先把总体划分成一些大小差不多的群体。在这些群体中随机抽取几个。被抽中的群体，就作为下一步进行随机抽样的“总体”。因此，在学习过程中，一定要注意区分分段抽样和分层抽样。虽然两者都是对总体进行了一定的划分。但是分层抽样是按照一定特征进行划分，划分的目的是为了避免特征的过分集中和缺失。抽取的过程也是一步完成的，只有在分层之后才会进行随机抽样。而分段抽样则不同，它是由于总体太大，无法直接进行抽取，所以才需要进行多步抽样。每一次对总体的划分是为了进行随机抽取，而抽取后，下一步的“总体”就会得到一定程度的减小。

如何选择抽样方法？