机器学习 -- 从入门到精通
2010-12-27
个人觉得“机器学习 -- 从入门到精通”可以作为这本书的副标题。
机器学习、数据挖掘或者模式识别领域有几本非常流行的教材,比如Duda的模式分类,Bishop的PRML。Duda的书第一版是模式识别的奠基之作,现在大家谈论得是第二版,因为内容相对简单,非常流行,但对近20年取得统治地位的SVM、Boosting基本没提,有挂一漏万之憾。PRML侧重概率模型,体系详备,是Bayesian方法的扛鼎之作。和PRML相比,这本Elements of Statistical Learning对当前最为流行的方法有比较全面深入的介绍,对工程人员参考价值也许要更大一点。另一方面,它不仅总结了已经成熟了的一些技术,而且对尚在发展中的一些议题也有简明扼要的论述。让读者充分体会到机器学习是一个仍然非常活跃的研究领域,应该会让学术研究人员也有常读常新的感受。
这本书的作者是Boosting方法最活跃的几个研究人员,发明的Gradient Boosting提出了理解Boosting方法的新角度,极大扩展了Boosting方法的应用范围。书中Boosting部分是被相关学术论文引用最频繁的部分。个人觉得经常研读一下作者和其他Boosting流派打嘴仗的文章是学习机器学习很好的一个途径,因为只有这样尚未成熟(而又影响广泛)的领域中,你才能更具体地体会到一个学科是怎样逐渐发展成熟的,那些贡献卓著的研究人员是如何天才地发现问题解决问题的,又是如何因偏执而终究会被证明有一方至少是部分地无知的。这种体会是很难在那些发展成熟了的分支中找到的。Regularization方法是作者贡献丰富的另一个领域,也是这本书另一个最具趣味的部分。
这本书第一版在2000年出版,现在评论的第二版是09年出版的,包含了很多值得玩味的新内容。比如从Ensemble方法的角度来解释MCMC方法的优异性能,就是我以前没有注意到的。当然,也许只是因为我的知识范围还不够宽。