跳转到内容

统计学引论

来自维基学院
 >数学系 >统计学 >统计学引论

认识统计学

[编辑 | 编辑源代码]

尽管这门课程很大程度上被划分在基础数学的范围外,但是统计学的实用性是不容忽视,甚至可以说比你在中学时学习的很多数学知识更加“基础”。

理解、掌握统计学的一些基础知识,已经融入了人们的生活之中。比如说,当我们出门时看天气预报,股民们紧紧盯着屏幕上的数字跳动,又或者当我们观看球赛时对球员的得分等数据倒背如流,这都是统计的范畴。在生活中,同样的有很多内容并不是那么直观,比如当你在社交媒体上刷到了各类文章,用各种数字想要说明你需要吃什么、喝什么、用什么,这些数字就算是真实可靠的,它们是否真的会带来这些结论?

另一方面,当我们观看球赛时所知道的数据,也会被教练拿来制定对策;公司的高管会想要知道自己部门的运作情况,查看统计表格;我们人生开始最重要的一段旅程-学校,更是充满了各种统计信息,也为无数家庭带来喜怒哀乐。

因此,理解并掌握统计学的知识是重要的技能,懂得统计方法不但能提高你的生活水平,更能提高你的整体知识水平。

应用统计学

[编辑 | 编辑源代码]

很多没有接触过相关一些知识的人可能有疑问,明明只要自己看得懂这些数字就好了,为什么还要继续学习?这就是统计学根本的目的之一。统计学首先本身定义有很多,但是大致上就是围绕数据进行收集、整理、分析等操作的一门科学。这就非常明显,我们学习统计学,其实就是为了看懂数字,分析数字。这里,我们先将统计学的内容分成几个大块:收集数据、处理数据、分析数据、解释结论。顾名思义,我们研究的数据是来自各领域的各类数据,因此需要收集数据来提供研究;利用图形、表格等方式把我们收集到的数据整合起来,就是处理数据;而分析则是进一步的整理那些数据,利用各种方式提取我们所需要的信息;最后通过已经处理过的数据,我们需要解释这些数据为什么会指向我们的结论。

而为了达到统计数据的目标,一般有两种大的途径,一是描述统计,二是推断统计。描述统计主要就是通过对数据的整理和分析得到一个结果,推断统计尽管和描述统计的重复步骤有很多,但是主要的区分点在于推断统计是利用样本数据去推断某个整体的特征的方式。

统计数据

[编辑 | 编辑源代码]

一切统计都基于一定的数据支持,那么数据的统计就极为关键。我们一般可以把统计数据分成几种,如分类数据、顺序数据和数值型数据。

分类数据:这是一种非数字类型的数据,主要方式是对不同的事物进行分类,都可以使用文字来表达,例如人口的性别分男女,你的学科分文理。

顺序数据:这也是一种可以非数字类型的数据,主要方式是对同一个种类的事物进行排行,例如学校中的成绩尽管有不同的分数,很多时候会使用不及格、优良等描述方式来为不同的成绩排序。

数值型数据:这是按照数字为基准的一种数据,利用具体的数字表述结果。因为数值型数据通常使用数值来表达,我们也可以称之为数量数据。比如成绩按照分数、统计公司收入。

当然在实际应用中还有很多种情况,需要我们采取不同的方式表示这些数据。比如当我们试图表现在一个时间点或者短时间内不同的数据,则我们可以将其称为截面数据。当我们想要一整个时间线上不同时间点的数据集合时,我们就可以把这种集合称之为时间序列数据。

了解基础概念

[编辑 | 编辑源代码]

和其他任何学科一样,我们需要使用一些特定的术语去准确的表达所思所想,下面列举几个最为基础的几种概念,词语也许很多人也已经熟悉。

  • 总体(population),这是我们所研究的所有数据的一个集合,即我们统计的对象总体。比如说,当我们想要检验一个批次的产品的质量是否达标,这一个批次就是我们统计的总体,其中每一个产品就是一个个体。当然有的时候总体不能确定一个精确的范围,假设我们想要知道一个新的产品的受欢迎程度,但是我们很难确定购买这个产品的客户到底有多少。在这种情况下,我们就可以依靠我们一开始研究相关课题的目的来界定一个总体。我们根据总体包含的个体的一些性质可以为总体分类,这里根据其内个体数量的特性将总体先分为有限总体和无限总体。有限总体是一个可以明确确定范围并且已知个体数量可数的集合;反之则为无限总体,是一个不可数的个体的集合。
  • 样本(sample),这是从总体中抽取的一个集合,可以是一个个体也可以是一部分个体组成的集合。这个集合中的个体的数量就是样本量(sample size),我们可以通过抽样的方式去判断总体的一些特征。上面我们说要分有限总体和无限总体其实和抽样有很大的关系。在抽样时,如果我们是从无限总体中抽样,那么每次抽取样本,这个样本都可以作为独立存在,而不会影响从同一个总体中再次抽样;反过来说,在有限总体中抽样,那么每次抽取样本,这个总体中的个体就因为抽取了样本而缺少了这个个体,从而影响到下一次抽取的结果。这两种不同的结果会导致最后当我们利用样本进行研究时所得的结论。
  • 参数(parameter),这是一种用来描述总体的一些特征的数字度量,给予我们对一个特征的直观的数值表达。一般来说,在统计学中我们会遇到的一些参数有总体平均数、总体标准差等。这一点和我们在数学学习中很像,我们在高等数学的学习中各种参数会用字母、符号来代表,例如有虚数i、自然常数e、也会用ƒ来表达映射一样,统计学中我们也会用比如μ来表示平均数,这在物理学中则可以代表摩擦系数,需要注意区别。
  • 统计量(statistic),这是一种用来描述样本的一些特征的数字度量,给予我们对样本特征的一个间接的表达。由于统计量是基于样本的数据而计算出来的,那么当我们随机抽样后,统计量就成为了样本的一个函数。同参数一样,我们会用字母来代表统计量,不过大部分情况下,我们会看到参数多用希腊字母,而统计量则用英文字母。比如我们有样本标准差s,总体标准差σ。
下一章节:搜集数据