不是书评
2012-06-08
评论最下面的部分Version 1是我开始读这本书的时候写的东西,现在加上点基础部分。
对linear algebra, probability 要有非常强的直观认识,对这两个基础学的非常通透。Linear algebra 有几种常用的分解QR, eigendecomposition, SVD,搞清楚它们的作用和几何意义。Bayesian method的重要性也值得再三提起。
还有就是要懂基本算法,主要是指 searching algorithms 和 search space/decision tree 和 big O notation.
书本身应该来说写的非常清晰,没有用到什么高深的数学知识,看懂数学推导不困难。如果感觉看不懂数学推导,建议好好学习基础再来看。书里重要的是各种直观解释,多花时间思考书里提到各种方法的统计含义和几何含义。习题非常好,对理解各种算法本身有很大帮助;至少扫一眼。
严肃的读完1-4章和7章(作者在前言里已经说过),对linear/logistic regression要向对自家后院一样熟悉。其他章节按主题阅读,与其他data mining/machine learning 的对应章节或者论文一起阅读。
(Version 1)
我先说点题外话,然后是怎么读这本书。
其中一个作者Friedman是我们的老师,本来希望上课的时候老师能把书里的东西讲的清清楚楚,结果他讲课超级无聊,很多人都逃课了。按他自己的话说“上个quarter的statistical learning 我有次差点对着空教室讲课”。
牢骚发完了,说下读这本书要注意什么。好几个统计的和计算数学的博士都说这本书其实就是几个作者的工作和他们所玩领域的一个概览,初学者只读这本书肯定是搞不明白的,所以一定要读他们里面引用的paper啊!另外这些家伙假设读者已经知道hypothesis space searching 等等这种基本概念,neural network 也是讲的不太详细。所以另外的参考书就很重要了,像 machine learning, by Tom Mitchell, 就是给初学者写的好书。最后如果要编程的话,这本书里面没有code也没有online code,所以可以移步去读programming collective intelligence,里面的code 是python,至于R,可以google “data mining with r”,找本靠谱的书作参考。
这本书还是起了一个鸟瞰全局的作用的,当然鸟瞰的了不,还是要凭个人的努力和功力的。