跳至內容

統計學引論

來自維基學院
 >數學系 >統計學 >統計學引論

認識統計學

[編輯 | 編輯原始碼]

儘管這門課程很大程度上被劃分在基礎數學的範圍外,但是統計學的實用性是不容忽視,甚至可以說比你在中學時學習的很多數學知識更加「基礎」。

理解、掌握統計學的一些基礎知識,已經融入了人們的生活之中。比如說,當我們出門時看天氣預報,股民們緊緊盯着屏幕上的數字跳動,又或者當我們觀看球賽時對球員的得分等數據倒背如流,這都是統計的範疇。在生活中,同樣的有很多內容並不是那麼直觀,比如當你在社交媒體上刷到了各類文章,用各種數字想要說明你需要吃什麼、喝什麼、用什麼,這些數字就算是真實可靠的,它們是否真的會帶來這些結論?

另一方面,當我們觀看球賽時所知道的數據,也會被教練拿來制定對策;公司的高管會想要知道自己部門的運作情況,查看統計表格;我們人生開始最重要的一段旅程-學校,更是充滿了各種統計信息,也為無數家庭帶來喜怒哀樂。

因此,理解並掌握統計學的知識是重要的技能,懂得統計方法不但能提高你的生活水平,更能提高你的整體知識水平。

應用統計學

[編輯 | 編輯原始碼]

很多沒有接觸過相關一些知識的人可能有疑問,明明只要自己看得懂這些數字就好了,為什麼還要繼續學習?這就是統計學根本的目的之一。統計學首先本身定義有很多,但是大致上就是圍繞數據進行收集、整理、分析等操作的一門科學。這就非常明顯,我們學習統計學,其實就是為了看懂數字,分析數字。這裏,我們先將統計學的內容分成幾個大塊:收集數據、處理數據、分析數據、解釋結論。顧名思義,我們研究的數據是來自各領域的各類數據,因此需要收集數據來提供研究;利用圖形、表格等方式把我們收集到的數據整合起來,就是處理數據;而分析則是進一步的整理那些數據,利用各種方式提取我們所需要的信息;最後通過已經處理過的數據,我們需要解釋這些數據為什麼會指向我們的結論。

而為了達到統計數據的目標,一般有兩種大的途徑,一是描述統計,二是推斷統計。描述統計主要就是通過對數據的整理和分析得到一個結果,推斷統計儘管和描述統計的重複步驟有很多,但是主要的區分點在於推斷統計是利用樣本數據去推斷某個整體的特徵的方式。

統計數據

[編輯 | 編輯原始碼]

一切統計都基於一定的數據支持,那麼數據的統計就極為關鍵。我們一般可以把統計數據分成幾種,如分類數據、順序數據和數值型數據。

分類數據:這是一種非數字類型的數據,主要方式是對不同的事物進行分類,都可以使用文字來表達,例如人口的性別分男女,你的學科分文理。

順序數據:這也是一種可以非數字類型的數據,主要方式是對同一個種類的事物進行排行,例如學校中的成績儘管有不同的分數,很多時候會使用不及格、優良等描述方式來為不同的成績排序。

數值型數據:這是按照數字為基準的一種數據,利用具體的數字表述結果。因為數值型數據通常使用數值來表達,我們也可以稱之為數量數據。比如成績按照分數、統計公司收入。

當然在實際應用中還有很多種情況,需要我們採取不同的方式表示這些數據。比如當我們試圖表現在一個時間點或者短時間內不同的數據,則我們可以將其稱為截面數據。當我們想要一整個時間線上不同時間點的數據集合時,我們就可以把這種集合稱之為時間序列數據。

了解基礎概念

[編輯 | 編輯原始碼]

和其他任何學科一樣,我們需要使用一些特定的術語去準確的表達所思所想,下面列舉幾個最為基礎的幾種概念,詞語也許很多人也已經熟悉。

  • 總體(population),這是我們所研究的所有數據的一個集合,即我們統計的對象總體。比如說,當我們想要檢驗一個批次的產品的質量是否達標,這一個批次就是我們統計的總體,其中每一個產品就是一個個體。當然有的時候總體不能確定一個精確的範圍,假設我們想要知道一個新的產品的受歡迎程度,但是我們很難確定購買這個產品的客戶到底有多少。在這種情況下,我們就可以依靠我們一開始研究相關課題的目的來界定一個總體。我們根據總體包含的個體的一些性質可以為總體分類,這裏根據其內個體數量的特性將總體先分為有限總體和無限總體。有限總體是一個可以明確確定範圍並且已知個體數量可數的集合;反之則為無限總體,是一個不可數的個體的集合。
  • 樣本(sample),這是從總體中抽取的一個集合,可以是一個個體也可以是一部分個體組成的集合。這個集合中的個體的數量就是樣本量(sample size),我們可以通過抽樣的方式去判斷總體的一些特徵。上面我們說要分有限總體和無限總體其實和抽樣有很大的關係。在抽樣時,如果我們是從無限總體中抽樣,那麼每次抽取樣本,這個樣本都可以作為獨立存在,而不會影響從同一個總體中再次抽樣;反過來說,在有限總體中抽樣,那麼每次抽取樣本,這個總體中的個體就因為抽取了樣本而缺少了這個個體,從而影響到下一次抽取的結果。這兩種不同的結果會導致最後當我們利用樣本進行研究時所得的結論。
  • 參數(parameter),這是一種用來描述總體的一些特徵的數字度量,給予我們對一個特徵的直觀的數值表達。一般來說,在統計學中我們會遇到的一些參數有總體平均數、總體標準差等。這一點和我們在數學學習中很像,我們在高等數學的學習中各種參數會用字母、符號來代表,例如有虛數i、自然常數e、也會用ƒ來表達映射一樣,統計學中我們也會用比如μ來表示平均數,這在物理學中則可以代表摩擦係數,需要注意區別。
  • 統計量(statistic),這是一種用來描述樣本的一些特徵的數字度量,給予我們對樣本特徵的一個間接的表達。由於統計量是基於樣本的數據而計算出來的,那麼當我們隨機抽樣後,統計量就成為了樣本的一個函數。同參數一樣,我們會用字母來代表統計量,不過大部分情況下,我們會看到參數多用希臘字母,而統計量則用英文字母。比如我們有樣本標準差s,總體標準差σ。
下一章節:搜集數據