浅出但不深入的数据分析入门书
2011-11-27
一句话评论:只有浅出,没有深入。不过还有几个地方非常有启发意义,分章节介绍
1. 第一章介绍数据分析的基本流程。确定——分解——评估——决策。虽然看过的几本书的表述方式不太一致,不过基本的思路还是一样的。
a. 确定:及了解及确定问题。
b. 分解:分解问题及数据。这本书里没写如何分解,可借鉴《金字塔原理》一书中的方法。即利用不同诊断框架,结构性分析问题。
c. 评估:解决、分析分解后的问题,得出结论。基本方式是比较。
d. 决策:把各个分解后问题的结论,重新组合,做出决策。
2. 还有一个名词:心智模型。你对外界的假设和你确信的观点就是你的心智模型。我们所有的分析都是建立在这个的基础之上的。从小了说,是具体问题涉及到的背景知识;从大了说,包括世界观方法论、宏观经济条件、和行业现状趋势的了解。
3. 第二章介绍设计一个实验的基本理论。需要控制组(对照组)、实验组。
4. 第三章是高中时代的最优化问题。介绍了solver这个excel插件
5. 第四章介绍图形的重要意义。散点图、多元图形
6. 第五章介绍了一种非常好的定性分析方法。作者命名为假设检验(此假设检验非统计学里的假设检验)。
a. 对一个问题或趋势提出几种可能的假设,用手头掌握的证据一个一个的检验。去除最不可能的。
b. 核心是证伪法,而不是满意法(线性、直觉)。
c. 对于不能排除的假设。用诊断性证据,找出否定性最小的假设。
d. 对不同的假设的支持力度不同,即为证据具有诊断性。可以通过定性的方式表示(+,-),也可以有定量的方式(+++,++,+,-,--,---)
7. 第六章介绍最基本的贝叶斯定理。一个收获是贝叶斯规则可以反复使用,前面一次实验结果,成为后面这次的基础概率,即新信息会改变基础概率。
8. 主观概率。用定量的主管概率代替定性的描述词。
a. 对可能性定量。比如很可能,有可能,不可能,非常可能的可能性是:70%,50%,15%,90%等等,这又是一种定量分析的途径。
b. 对新的证据,用贝叶斯规则修正主管概率。而不是又给出一个新的主观概率。
9. 第八章介绍了启发法。从直觉走向最优化
a. 直觉——启发法——最优化。大家都希望可以用最优化,不过大多数情况下最优化都是不可能的。(太高的时间、成本、技术要求)
b. 启发法:利用快省树(决策树),去除不重要不易测量的因素,而用可观测的,有说服力的因素代替。
10. 直方图是进行探索性分析的有用工具。
11. 第十和第十一章通过介绍最简单的线性回归,引出了误差的概念。
a. 慎重对待外插法
b. 平衡模型的解释性和预测性
c. 机会误差(残差)=实际结果与模型预测间的偏差
12. 最后两章是sql和数据整理知识的简单介绍