搜集数据

来自维基学院
 >统计学 >搜集数据

在上一章节我们介绍了统计学和其内的一些基础概念,现在我们就深入拓展其中至关重要的搜集数据的环节。

数据的来源[编辑 | 编辑源代码]

所有的统计数据必然有来源,无论来自调查还是各种实验,各种情况下我们都会接触到各种数据。然而,在统计学中,做为使用者的我们需要注重的是我们获取数据的渠道。比如说有人做了实验得到一组数据,被我们拿来用于我们的一项研究,那么这组数据就是间接来源的数据;如果是我们自己做的实验或调查,那么这组数据就是直接来源。这是两种数据来源的渠道。

与我们研究内容相关的数据存在的时候,我们通常就会对这些数据进行整理、再加工,转化为可以嵌入我们这一研究的有用的信息,即间接来源的数据。一般来说这一类数据可以从系统的外部获取,例如政府部门会定期公开的数据资料、第三方机构自行调查整合的资料、又或是各种出版物中含有的资料。另一方面,我们也可以从内部获得这些数据,比如说公司内部财务报表、各类活动的统计单、或是一些会计核算的资料。

非常明显为了获取间接来源的数据,也就是我们俗称的二手资料,不需要花费很多的经济成本及人力成本,无论在网上还是现实中,搜寻资料都十分便捷。而这种资料,主要的贡献就是可以帮助我们分析问题、定义问题、检验研究中的假设。因而我们通常会从二手资料开始做研究,这里也提倡研究绝大部分问题时最先考虑使用二手资料。

但是二手资料的缺陷也很明显,其局限性使我们在使用时也不能盲目利用,而是要采取谨慎小心的态度看待这些数据。尽管很多数据的产生和我们研究的问题可能是一致的方向,但是更多时候我们可以看到我们所搜集到的间接来源并非为了特定的符合我们研究的问题而产生的。在这样的情况下,这些二手资料回答我们研究所问的能力就有所欠缺,例如数据本身和研究的关联不多,或可能数据不准确,或数据失去了时效性等。因此,在利用二手资料前我们也要先评估二手资料在我们的研究中的价值。

我们这里就可以看出二手来源的优点是方便、快捷、成本低,缺点则是针对行不够。那么一般当我们收集到的二手来源不能满足研究需求的时候,就可以试图收集一手资料,这其中会需要我们自己进行调查和实验。通常来说,调查是针对我们社会中的某种经济、生活、文化等现象的,比如说经济学家就可以通过调查来分析经济形势、经济现象的发展趋势或经济现象之间的联系和影响。从这里就可以看出如果我们调查的个体越多,对趋势、现象的把握就越准确。所以我们可以看到非常熟悉的一个词普查,专门指对总体中的所有个体进行的调查。普查而来的数据相对于这个总体而言会为我们带来全面、完整的信息,因而我们可以对普查数据进行分析和挖掘。

很明显的是普查数据会因为个体数量多而比较耗时耗力,对数据的整合也很耗时。所以说一般情况下,我们不能一直用普查的办法去收集数据,这个时候数据就不完整,因而我们需要考虑如何抽取有效的样本、如何减少样本分析的误差。