数据分析的“剑谱”,每一招都很厉害
2013-08-21
自13年5月7日购买本书开始,笔者有近四个月时间在试着读懂这本书,忘不了每一个上下班的路上,电脑包里放着这本书,让我感受到事业的重量,每一个成功都是心血的浇灌。
闲话少说,回到数据分析上来,国内介绍spss的书已经有很多了,但大多是在讲解各种统计方法的时候,介绍spss软件是如何操作的。缺点是学完了之后,对数据的理解还不深入,以致于面对普通的数据,还是无从下手。其实这类书更适合当工具书来用。
自从读了“小蚊子乐园”博主的《谁说菜鸟不会数据分析》,通俗的语言,生动的情景设置,有读小说的享受。但还是很不满足,因为那毕竟是入门级的读物。
笔者继续在Amazon寻觅好的数据分析书,偶然之间看到了这本书,它让我眼前一亮,这本书的框架很完整,第一部分介绍了数据分析的方法论,相当于全书的纲要,总的来说,统计学方法需要严格的假设,更适合科学实验和学术研究;数据挖掘适用于商业。
第二章的数据分析方法体系,分析了数据的一般特征,比如数据的离散和连续两种属性,平均数、方差、偏度,也是各种具体的分析方法的概要,方法体系很完备。统计分析方法较为详细,机器学习算法简略一些。
有了上面两章“剑谱”的铺垫。接下来,两位数据分析的专家(分别是数据分析和DM)开始在一个个数据分析的项目中,施展他们的“剑术”了。
有一些分析项目较难,比如Cox回归、广义线性过程,真的要随时准备一本《SPSS教程》在手头上,笔者一开始就想把它们当做项目,训练自己的能力,不求快,但求理解掌握。于是在看本书的同时,也看了两本SPSS和clementine的教材。
过程蛮辛苦的,比如一些原案例中的clementine数据流相当复杂,要读懂模型图,没有别的好方法,只有对照clementine的说明书,按图索“理”,必要的时候还要自己动手在节点处增加一些“表”。最有收获的是第17章,电信客户流失的模型。衍生变量非常多,模型却不复杂,难怪一位前同事跟我说,有90%的精力花在数据处理和准备上了。
用这种笨方法,我基本上读完了一遍这本书,收获了很多自信。值得一提的是,这本书的装帧设计也蛮大气的,尤其是IBM三个字母,赫然醒目,确实是表里如一的。
要说读了这本书之后,数据分析的技能有突飞猛进的进步,也不是的,还要经过很多商业项目的锻炼,才能达到作者钱眼里“不滞于物,草木竹石皆可为剑”的境界。但这是一本出色的剑谱,以数据分析为志业的你们,不妨读一读它~~