了解最基础的统计建模

George Edward Pelham Box, 伦敦学院大学博士，专于研究质量管理、时间序列分析、实验设计和贝叶斯推理，被称作 "one of the great statistical minds of the 20th century"说过：

All models are wrong, but some are useful.

George Edward Pelham Box (1919 – 2013)

有很多人理解经济模式、统计模式、计量经济模式、概率模式存在的意义，确实很多时候通过模式（model）得到的预测并不准确，可这些模式还是有它们存在的意义。人们通过模式用过去的数据来预测人们未来的行为及其结果，可是人类的行为是不可预测的，这就是为什么模式看似“没用”。在这些学术研究里，没有如物理一样的，永远不会被违反的地心引力。因为人是不可控的，在不一样的情景里，人们的行为会改变，所以我们需要做出不同的假设，代入不同的因素，用最适当的模式来解释发生的一切。

今天就和大家来讲讲简单的Statistical Modelling是怎么做的。

简单来说，有3个步骤：采集数据，根据采集的数据提出模式，最后用假设检验这个模式是否足够准确。

泊松模型 (Poisson Modelling)

一组数据显示，在伦敦，1096天中有903位85岁以上的男性逝世。

现在我们打算用泊松模型来建模每天逝世的85岁以上的男性。

预计的期望平均值是 $\mu^{cap} = \frac{903}{1096}=0.8239$

设X为每日逝世的男性人数。

根据泊松模型我们得到

$P(X=x) = \frac{e^{-0.8239}(0.8238^{x})}{x}$ 当 $x=0,1,2...$

接下来用拟合优度的卡方检验(Chi-square Goodness-of-fit Test)来检测泊松模型是否合适。

$H_{o}$ ：泊松模型是成立的

$H_{1 }$ ：泊松模型是不成立的

用泊松模型预计0人死亡的天数 $=1096\times0.438717=480.834$

用泊松模型预计1人死亡的天数 $= 1096 \times 0.361459=396.159$

以此类推

这里有一个要注意的点，当预计天数少过5的时候,我们要把那些天数和前一个天数相加，所以最后的模型预计数据是

我们现在可以算卡方检验统计了：

$\chi^{2} = \sum_{}^{} \frac{({实际天数-预测天数})^{2}}{预测天数}$ $=\frac{{(484-480.834)}^{2}}{480.834}+\frac{{(391-396.159)}^{2}}{396.159}+\frac{{(164-163.198)}^{2}}{163.198}+\frac{{(45-44.820)}^{2}}{44.820}+\frac{{(12-10.99)}^{2}}{10.99}=0.1857$