深入进去,再出来
2013-05-26
这是一本200+页薄书,但是介绍的内容却很多,很多书上一句话的东西,可能别的书上要用几页介绍。所以读该书需要参考其他书,遇到不懂的就去查。
顾名思义,该书介绍的复杂数据统计方法,作者当然假设你会“简单”数据的处理。最好会一些R语言的知识。会读的稍微轻松些。
作者先从一个例子开始,公路一氧化碳数据,先用普通最小二乘,然后用逐步回归,一步一步的介绍自己的研究思路,我觉得这是非常难得的,很少有作者在书中介绍自己的思路的,仿佛结果是“显然的”。
做完回归后,作者发现虽然残差的Shapiro-wilk检验不能拒绝残差来自正态总体,但是从QQ图上看,残差很难说是正态的。(不知道什么是Shapiro-wilk检验,QQ图的赶紧查其他书了)。
通过研究变量关系发现,CO和traffic可以认为有线性关系,CO和Hour有类似sin曲线的关系,CO和Wind关系更加复杂。
然后作者联想到可以通过谐波分析,用有穷Fourier级数来代表时间序列
并且把traffic 和 wind的二次和三次项都包含到模型中(这当然是一个偏大的模型)。通过一步步的分析,最终得到一个“合适”的模型。
后面都是介绍当某些假设不满足时(我刚看,还没看完呢),我们可以用某某方法来解决,也是一步一步的,发现问题,给出方法。我自己觉得,对我自己来说,知道什么时候用什么方法,我就觉得可以了,如果不满足,可以找找资料,看为什么这些方法是对的,更进一步,问问自己,这些方法是如何想到的,弄清楚后,会成大牛吧?