George Edward Pelham Box, 伦敦学院大学博士,专于研究质量管理、时间序列分析、实验设计和 贝叶斯推理, 被称作 "one of the great statistical minds of the 20th century"说过:
All models are wrong, but some are useful.
George Edward Pelham Box (1919 – 2013)
有很多人理解经济模式、统计模式、计量经济模式、概率模式存在的意义,确实很多时候通过模式(model)得到的预测并不准确,可这些模式还是有它们存在的意义。人们通过模式用过去的数据来预测人们未来的行为及其结果,可是人类的行为是不可预测的,这就是为什么模式看似“没用”。在这些学术研究里,没有如物理一样的,永远不会被违反的地心引力。因为人是不可控的,在不一样的情景里,人们的行为会改变,所以我们需要做出不同的假设,代入不同的因素,用最适当的模式来解释发生的一切。
今天就和大家来讲讲简单的Statistical Modelling是怎么做的。
简单来说,有3个步骤:采集数据,根据采集的数据提出模式,最后用假设检验这个模式是否足够准确。
泊松模型 (Poisson Modelling)
一组数据显示,在伦敦,1096天中有903位85岁以上的男性逝世。
现在我们打算用泊松模型来建模每天逝世的85岁以上的男性。
预计的期望平均值是
设X为每日逝世的男性人数。
根据泊松模型我们得到
当
接下来用拟合优度的卡方检验(Chi-square Goodness-of-fit Test)来检测泊松模型是否合适。
:泊松模型是成立的
:泊松模型是不成立的
用泊松模型预计0人死亡的天数
用泊松模型预计1人死亡的天数
以此类推
这里有一个要注意的点,当预计天数少过5的时候,我们要把那些天数和前一个天数相加,所以最后的模型预计数据是
我们现在可以算卡方检验统计了:
的自由度 = 总行数 模型里的估量参数 =
如果 ,拒绝 ,不然,不拒绝
,不拒绝
根据我们取得的数据我们无法在0.01显著性水平证明泊松模型是不适合的。
以上数据都是为了理解统计建模的例子,并不准确。
一点点自己的想法:
回想当初最开始接触统计的时候并不知道学分布、可靠区间、假设验证的意义在哪儿。只是老师说这种情况下要用这种分布,我们做假设验证第一步设 和 ,然后如何如何就跟着做。一步一步学下来,现在才窥视到一点统计和概率的应用,以前学的知识也慢慢地串在了一起。
上个学期学统计真的学得挺痛苦的,我本身也不是有天赋的学生,上课听不懂,下课还要自己上网查资料看视频学。不过到最后真的觉得自己付出的努力都是值得的,我还想学更多统计的知识,期待自己能自如运用的那天。
共勉
Reference
来源:知乎 www.zhihu.com
作者:Lucia
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载