了解最基础的统计建模

George Edward Pelham Box, 伦敦学院大学博士,专于研究质量管理、时间序列分析、实验设计和 贝叶斯推理, 被称作 "one of the great statistical minds of the 20th century"说过:

All models are wrong, but some are useful.

George Edward Pelham Box (1919 – 2013)

有很多人理解经济模式、统计模式、计量经济模式、概率模式存在的意义,确实很多时候通过模式(model)得到的预测并不准确,可这些模式还是有它们存在的意义。人们通过模式用过去的数据来预测人们未来的行为及其结果,可是人类的行为是不可预测的,这就是为什么模式看似“没用”。在这些学术研究里,没有如物理一样的,永远不会被违反的地心引力。因为人是不可控的,在不一样的情景里,人们的行为会改变,所以我们需要做出不同的假设,代入不同的因素,用最适当的模式来解释发生的一切。

今天就和大家来讲讲简单的Statistical Modelling是怎么做的。

简单来说,有3个步骤:采集数据,根据采集的数据提出模式,最后用假设检验这个模式是否足够准确。

泊松模型 (Poisson Modelling)

一组数据显示,在伦敦,1096天中有903位85岁以上的男性逝世。

现在我们打算用泊松模型来建模每天逝世的85岁以上的男性。

预计的期望平均值是 \mu^{cap} = \frac{903}{1096}=0.8239

设X为每日逝世的男性人数。

根据泊松模型我们得到

P(X=x) = \frac{e^{-0.8239}(0.8238^{x})}{x}x=0,1,2...

接下来用拟合优度的卡方检验(Chi-square Goodness-of-fit Test)来检测泊松模型是否合适。

H_{o} :泊松模型是成立的

H_{1 } :泊松模型是不成立的

用泊松模型预计0人死亡的天数 =1096\times0.438717=480.834

用泊松模型预计1人死亡的天数 = 1096 \times 0.361459=396.159

以此类推

这里有一个要注意的点,当预计天数少过5的时候,我们要把那些天数和前一个天数相加,所以最后的模型预计数据是

我们现在可以算卡方检验统计了:

\chi^{2} = \sum_{}^{} \frac{({实际天数-预测天数})^{2}}{预测天数} =\frac{{(484-480.834)}^{2}}{480.834}+\frac{{(391-396.159)}^{2}}{396.159}+\frac{{(164-163.198)}^{2}}{163.198}+\frac{{(45-44.820)}^{2}}{44.820}+\frac{{(12-10.99)}^{2}}{10.99}=0.1857

{\chi}^{2} 的自由度 = 总行数 -1- 模型里的估量参数 = 5-1-1=3

如果 {\chi}^{2}\succ{\chi}_{0.01,3}^{2}=11.345 ,拒绝 H_{o} ,不然,不拒绝 H_{o}

0.1857\prec11.345 ,不拒绝 H_{o}

根据我们取得的数据我们无法在0.01显著性水平证明泊松模型是不适合的。

以上数据都是为了理解统计建模的例子,并不准确。


一点点自己的想法:

回想当初最开始接触统计的时候并不知道学分布、可靠区间、假设验证的意义在哪儿。只是老师说这种情况下要用这种分布,我们做假设验证第一步设 H_{o} H_{1 } ,然后如何如何就跟着做。一步一步学下来,现在才窥视到一点统计和概率的应用,以前学的知识也慢慢地串在了一起。

上个学期学统计真的学得挺痛苦的,我本身也不是有天赋的学生,上课听不懂,下课还要自己上网查资料看视频学。不过到最后真的觉得自己付出的努力都是值得的,我还想学更多统计的知识,期待自己能自如运用的那天。

共勉

Reference

George E. P. Box

来源:知乎 www.zhihu.com

作者:Lucia

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载