搜集數據
在上一章節我們介紹了統計學和其內的一些基礎概念,現在我們就深入拓展其中至關重要的搜集數據的環節。
所有的統計數據必然有來源,無論來自調查還是各種實驗,各種情況下我們都會接觸到各種數據。然而,在統計學中,做為使用者的我們需要注重的是我們獲取數據的渠道。比如說有人做了實驗得到一組數據,被我們拿來用於我們的一項研究,那麼這組數據就是間接來源的數據;如果是我們自己做的實驗或調查,那麼這組數據就是直接來源。這是兩種數據來源的渠道。
與我們研究內容相關的數據存在的時候,我們通常就會對這些數據進行整理、再加工,轉化為可以嵌入我們這一研究的有用的信息,即間接來源的數據。一般來說這一類數據可以從系統的外部獲取,例如政府部門會定期公開的數據資料、第三方機構自行調查整合的資料、又或是各種出版物中含有的資料。另一方面,我們也可以從內部獲得這些數據,比如說公司內部財務報表、各類活動的統計單、或是一些會計核算的資料。
非常明顯為了獲取間接來源的數據,也就是我們俗稱的二手資料,不需要花費很多的經濟成本及人力成本,無論在網上還是現實中,搜尋資料都十分便捷。而這種資料,主要的貢獻就是可以幫助我們分析問題、定義問題、檢驗研究中的假設。因而我們通常會從二手資料開始做研究,這裡也提倡研究絕大部分問題時最先考慮使用二手資料。
但是二手資料的缺陷也很明顯,其局限性使我們在使用時也不能盲目利用,而是要採取謹慎小心的態度看待這些數據。儘管很多數據的產生和我們研究的問題可能是一致的方向,但是更多時候我們可以看到我們所搜集到的間接來源並非為了特定的符合我們研究的問題而產生的。在這樣的情況下,這些二手資料回答我們研究所問的能力就有所欠缺,例如數據本身和研究的關聯不多,或可能數據不準確,或數據失去了時效性等。因此,在利用二手資料前我們也要先評估二手資料在我們的研究中的價值。
我們這裡就可以看出二手來源的優點是方便、快捷、成本低,缺點則是針對行不夠。那麼一般當我們收集到的二手來源不能滿足研究需求的時候,就可以試圖收集一手資料,這其中會需要我們自己進行調查和實驗。通常來說,調查是針對我們社會中的某種經濟、生活、文化等現象的,比如說經濟學家就可以通過調查來分析經濟形勢、經濟現象的發展趨勢或經濟現象之間的聯繫和影響。從這裡就可以看出如果我們調查的個體越多,對趨勢、現象的把握就越準確。所以我們可以看到非常熟悉的一個詞普查,專門指對總體中的所有個體進行的調查。普查而來的數據相對於這個總體而言會為我們帶來全面、完整的信息,因而我們可以對普查數據進行分析和挖掘。
很明顯的是普查數據會因為個體數量多而比較耗時耗力,對數據的整合也很耗時。所以說一般情況下,我們不能一直用普查的辦法去收集數據,這個時候數據就不完整,因而我們需要考慮如何抽取有效的樣本、如何減少樣本分析的誤差。