统计学是干嘛的?

聊一聊什么是统计学
statistics
biostatistics
Author
Published

Thursday, November 28, 2019

统计学之所以存在,关键的原因只有一个,那就是变异及由此产生的抽样误差。没有变异,没有抽样误差,就没有统计学存在的理由。当我们把多个随机结果放在一起的时候,却能发现一定的规律性。正是因为这种规律的存在,所以我们仍然可以在变异中寻找规律,这也正是统计学的主要目的:从各种看似杂乱的现象中找出潜在的规律。

抽样调查

既然是规律,那就一定要在大多数人中存在,只在一小部分人中存在的现象不是规律,而是偶然,因为更多的是大多数人没有存在该现象,这才是规律。要证明一种现象是不是真正的规律,需要在大量人群中进行验证。由于我们无法接触到理论意义上的总体,因而我们换一种思路,调查部分具有代表性的样本,然后用统计学方法将样本的结果推广到总体,这就是我们所说的抽样调查。

统计推断与参数估计

统计学通常利用样本数据来推断总体结果,就是我们所说的用样本统计量推断总体参数。总体参数是客观存在的,经典的频率主义学派认为,总体参数是一个客观存在且固定的数值,而贝叶斯学派认为连总体参数自身也是个随机变量,所以也需要我们去估计。样本随机,样本统计量也是随机的,用它来估计总体参数,估计结果会存在一定的误差。但科学合理的抽样调查,其推断的结果是可靠的。偏差的样本会导致偏差的结论。样本必须足够代表总体。当然还需要考虑其他因素,比如调查员的水平、总体人群的变化等影响因素。

抽样误差

然而,即使代表性非常好的样本,也是无法真正等同于总体的,总会存在一定的抽样误差。样本统计量之间的差异就反映了抽样误差。由于抽样误差的存在,如果用样本统计量直接估计总体参数,那么肯定会有一定的偏差。所以在估计总体参数时需要考虑到抽样误差带来的偏差,因而我们在点估计之外,用置信区间来估计总体参数。抽样误差带来的偏差是多大呢?在实际中,我们不可能通过多次抽样,计算每个样本间统计量的差异大小从而去估计偏差大小,我们只能通过一次样本计算。这种根据一次样本计算抽样误差的大小就是标准误(standard error)。标准误几乎在所有统计方法中都会出现,因为它可以提示结果的可靠性:如果标准误较小,则说明抽样误差小,这意味着样本很稳定,对总体的代表性很好,由此推论结果较为可靠;如果标准误较大,则说明抽样误差大,提示样本代表性不强,这种情况下一般需要加大样本量,否则结果不可靠。