机器学习实战

内容简介：

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。

本书第一部分主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

作者简介：

Peter Harrington

拥有电气工程学士和硕士学位，他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利，在三种学术期刊上发表过文章。他现在是Zillabyte公司的首席科学家，在加入该公司之前，他曾担任2年的机器学习软件顾问。Peter在业余时间还参加编程竞赛和建造3D打印机。

目录：

目　录

第一部分　分类

第1章　机器学习基础2

1.1 　何谓机器学习3

1.1.1 　传感器和海量数据4

1.1.2 　机器学习非常重要5

1.2 　关键术语5

1.3 　机器学习的主要任务7

1.4 　如何选择合适的算法8

1.5 　开发机器学习应用程序的步骤9

1.6 　Python语言的优势10

1.6.1 　可执行伪代码10

1.6.2 　Python比较流行10

1.6.3 　Python语言的特色11

1.6.4 　Python语言的缺点11

1.7 　NumPy函数库基础12

1.8 　本章小结13

第2章　k-近邻算法 15

2.1 　k-近邻算法概述15

2.1.1 　准备：使用Python导入数据17

2.1.2 　从文本文件中解析数据19

2.1.3 　如何测试分类器20

2.2 　示例：使用k-近邻算法改进约会网站的配对效果20

2.2.1 　准备数据：从文本文件中解析数据21

2.2.2 　分析数据：使用Matplotlib创建散点图23

2.2.3 　准备数据：归一化数值25

2.2.4 　测试算法：作为完整程序验证分类器26

2.2.5 　使用算法：构建完整可用系统27

2.3 　示例：手写识别系统28

2.3.1 　准备数据：将图像转换为测试向量29

2.3.2 　测试算法：使用k-近邻算法识别手写数字30

2.4 　本章小结31

第3章　决策树 32

3.1 　决策树的构造33

3.1.1 　信息增益35

3.1.2 　划分数据集37

3.1.3 　递归构建决策树39

3.2 　在Python中使用Matplotlib注解绘制树形图42

3.2.1 　Matplotlib注解43

3.2.2 　构造注解树44

3.3 　测试和存储分类器48

3.3.1 　测试算法：使用决策树执行分类49

3.3.2 　使用算法：决策树的存储50

3.4 　示例：使用决策树预测隐形眼镜类型50

3.5 　本章小结52

第4章　基于概率论的分类方法：朴素贝叶斯 53

4.1 　基于贝叶斯决策理论的分类方法53

4.2 　条件概率55

4.3 　使用条件概率来分类56

4.4 　使用朴素贝叶斯进行文档分类57

4.5 　使用Python进行文本分类58

4.5.1 　准备数据：从文本中构建词向量58

4.5.2 　训练算法：从词向量计算概率60

4.5.3 　测试算法：根据现实情况修改分类器62

4.5.4 　准备数据：文档词袋模型64

4.6 　示例：使用朴素贝叶斯过滤垃圾邮件64

4.6.1 　准备数据：切分文本65

4.6.2 　测试算法：使用朴素贝叶斯进行交叉验证66

4.7 　示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向68

4.7.1 　收集数据：导入RSS源68

4.7.2 　分析数据：显示地域相关的用词71

4.8 　本章小结72

第5章　Logistic回归 73

5.1 　基于Logistic回归和Sigmoid函数的分类74

5.2 　基于最优化方法的最佳回归系数确定75

5.2.1 　梯度上升法75

5.2.2 　训练算法：使用梯度上升找到最佳参数77

5.2.3 　分析数据：画出决策边界79

5.2.4 　训练算法：随机梯度上升80

5.3 　示例：从疝气病症预测病马的死亡率85

5.3.1 　准备数据：处理数据中的缺失值85

5.3.2 　测试算法：用Logistic回归进行分类86

5.4 　本章小结88

第6章　支持向量机89

6.1 　基于最大间隔分隔数据89

6.2 　寻找最大间隔91

6.2.1 　分类器求解的优化问题92

6.2.2 　SVM应用的一般框架93

6.3 　SMO高效优化算法94

6.3.1 　Platt的SMO算法94

6.3.2 　应用简化版SMO算法处理小规模数据集94

6.4 　利用完整Platt SMO算法加速优化99

6.5 　在复杂数据上应用核函数105

6.5.1 　利用核函数将数据映射到高维空间106

6.5.2 　径向基核函数106

6.5.3 　在测试中使用核函数108

6.6 　示例：手写识别问题回顾111

6.7 　本章小结113

第7章　利用AdaBoost元算法提高分类

性能 115

7.1 　基于数据集多重抽样的分类器115

7.1.1 　bagging：基于数据随机重抽样的分类器构建方法116

7.1.2 　boosting116

7.2 　训练算法：基于错误提升分类器的性能117

7.3 　基于单层决策树构建弱分类器118

7.4 　完整AdaBoost算法的实现122

7.5 　测试算法：基于AdaBoost的分类124

7.6 　示例：在一个难数据集上应用AdaBoost125

7.7 　非均衡分类问题127

7.7.1 　其他分类性能度量指标：正确率、召回率及ROC曲线128

7.7.2 　基于代价函数的分类器决策控制131

7.7.3 　处理非均衡问题的数据抽样方法132

7.8 　本章小结132

第二部分　利用回归预测数值型数据

第8章　预测数值型数据：回归 136

8.1 　用线性回归找到最佳拟合直线136

8.2 　局部加权线性回归141

8.3 　示例：预测鲍鱼的年龄145

8.4 　缩减系数来“理解”数据146

8.4.1 　岭回归146

8.4.2 　lasso148

8.4.3 　前向逐步回归149

8.5 　权衡偏差与方差152

8.6 　示例：预测乐高玩具套装的价格153

8.6.1 　收集数据：使用Google购物的API153

8.6.2 　训练算法：建立模型155

8.7 　本章小结158

第9章　树回归159

9.1 　复杂数据的局部性建模159

9.2 　连续和离散型特征的树的构建160

9.3 　将CART算法用于回归163

9.3.1 　构建树163

9.3.2 　运行代码165

9.4 　树剪枝167

9.4.1 　预剪枝167

9.4.2 　后剪枝168

9.5 　模型树170

9.6 　示例：树回归与标准回归的比较173

9.7 　使用Python的Tkinter库创建GUI176

9.7.1 　用Tkinter创建GUI177

9.7.2 　集成Matplotlib和Tkinter179

9.8 　本章小结182

第三部分　无监督学习

第10章　利用K-均值聚类算法对未标注数据分组184

10.1 　K-均值聚类算法185

10.2 　使用后处理来提高聚类性能189

10.3 　二分K-均值算法190

10.4 　示例：对地图上的点进行聚类193

10.4.1 　Yahoo! PlaceFinder API194

10.4.2 　对地理坐标进行聚类196

10.5 　本章小结198

第11章　使用Apriori算法进行关联分析200

11.1 　关联分析201

11.2 　Apriori原理202

11.3 　使用Apriori算法来发现频繁集204

11.3.1 　生成候选项集204

11.3.2 　组织完整的Apriori算法207

11.4 　从频繁项集中挖掘关联规则209

11.5 　示例：发现国会投票中的模式212

11.5.1 　收集数据：构建美国国会投票记录的事务数据集213

11.5.2 　测试算法：基于美国国会投票记录挖掘关联规则219

11.6 　示例：发现毒蘑菇的相似特征220

11.7 　本章小结221

第12章　使用FP-growth算法来高效发现频繁项集223

12.1 　FP树：用于编码数据集的有效方式224

12.2 　构建FP树225

12.2.1 　创建FP树的数据结构226

12.2.2 　构建FP树227

12.3 　从一棵FP树中挖掘频繁项集231

12.3.1 　抽取条件模式基231

12.3.2 　创建条件FP树232

12.4 　示例：在Twitter源中发现一些共现词235

12.5 　示例：从新闻网站点击流中挖掘238

12.6 　本章小结239

第四部分　其他工具

第13章　利用PCA来简化数据242

13.1 　降维技术242

13.2 　PCA243

13.2.1 　移动坐标轴243

13.2.2 　在NumPy中实现PCA246

13.3 　示例：利用PCA对半导体制造数据降维248

13.4 　本章小结251

第14章　利用SVD简化数据252

14.1 　SVD的应用252

14.1.1 　隐性语义索引253

14.1.2 　推荐系统253

14.2 　矩阵分解254

14.3 　利用Python实现SVD255

14.4 　基于协同过滤的推荐引擎257

14.4.1 　相似度计算257

14.4.2 　基于物品的相似度还是基于用户的相似度？260

14.4.3 　推荐引擎的评价260

14.5 　示例：餐馆菜肴推荐引擎260

14.5.1 　推荐未尝过的菜肴261

14.5.2 　利用SVD提高推荐的效果263

14.5.3 　构建推荐引擎面临的挑战265

14.6 　基于SVD的图像压缩266

14.7 　本章小结268

第15章　大数据与MapReduce270

15.1 　MapReduce：分布式计算的框架271

15.2 　Hadoop流273

15.2.1 　分布式计算均值和方差的mapper273

15.2.2 　分布式计算均值和方差的reducer274

15.3 　在Amazon网络服务上运行Hadoop程序275

15.3.1 　AWS上的可用服务276

15.3.2 　开启Amazon网络服务之旅276

15.3.3 　在EMR上运行Hadoop作业278

15.4 　MapReduce上的机器学习282

15.5 　在Python中使用mrjob来自动化MapReduce283

15.5.1 　mrjob与EMR的无缝集成283

15.5.2 　mrjob的一个MapReduce脚本剖析284

15.6 　示例：分布式SVM的Pegasos算法286

15.6.1 　Pegasos算法287

15.6.2 　训练算法：用mrjob实现MapReduce版本的SVM288

15.7 　你真的需要MapReduce吗？292

15.8 　本章小结292

附录A 　Python入门294

附录B 　线性代数303

附录C 　概率论复习309

附录D 　资源312

索引313

文章试读：在过去的半个世纪里，发达国家的多数工作岗位都已从体力劳动转化为脑力劳动。过去的工作基本上都有明确的定义，类似于把物品从A处搬到B处，或者在这里打个洞，但是现在这类工作都在逐步消失。现今的情况具有很大的二义性，类似于“最大化利润”，“最小化风险”、“找到最好的市场策略”……诸如此类的任务要求都已成为常态。虽然可从互联网上获取到海量数据，但这并没有简化知识工人的工作难度。针对具体任务搞懂所有相关数据的...

(查看全部试读)

没有惊喜，平庸！！

Matrix 2013-06-18 0赞

本书强调的是机器学习算法的Python实现，并未深入涉及这些算法的数学证明或推演。理解机器学习的算法本书就需要基本的数学基础。个人感觉还是先找本机器学习的书籍理解这些算法数学原理，然后在根据这本书编写Python代码，有助理解算法精髓。

虽然简单，但确实有“实战”的味道

Zen 2014-08-21 0赞

很好很强大，5块钱你买不了上当，5块钱你买不了吃亏。

本书情节跌宕起伏，个别章节少儿不宜，需参看大神博客，才能打通。

比如“svm三层境界”等。

至于实战嘛，这是必须的，有完整的python代码和现成的数据供你把玩。比什么《推*系统实战》丰富精彩多了。

机器学习里很实用有干货的一本书了

Squirrel 2015-10-22 0赞

不夸夸其谈概念理论，有理论也有实战，对于熟悉机器学习各种算法有很大的帮助作用。虽然是一本基础类书籍，但是读了之后还是收获较大。一直在找实用性较高的机器学习方面的书，这本算是找到了。书中对算法的讲解简单清晰有条理，实战的例子也选得很恰当。

个人觉得是机器学习里最接近实践的书了

BillyJHee 2016-01-03 0赞

尽管评论里对这本书褒贬不一，我觉得这些都是根据每个人不同的能力背景出发而给的评论。而对于我这样能力的人来说，这本书可以说是最适合了。我是什么能力状况呢，计算机专业背景，有那么几年开发经验，但是机器学习方面是小白。

看这本书需要一定的编程经验，但不需要很强，想我这样就行（不经常写代码）。书中的代码示例一般都不长，很好理解。本书也需要一定的数学知识，主要是线性代数和概率论，但一样不用很熟。想我这样毕业n年，忘了差不多的人，看一下附录里的知识点温故而知新，就没问题了。

很多人说书太理论性，其实这是我看的机器学习资料中，最接近实践的了。书上的内容写的很清楚，个人觉得结合例子一起看，也很易懂。很崇拜作者怎么能把这么一个外行人看来如此复杂的知识写的那么清楚。译者的水平也很高，很多技术书籍的译者我就不说了，看的那个累啊，读数时都是偏科生。但是这本书不错。我个人建议，是看一遍中文版的书先，然后再看遍英文版的，巩固下知识，也有助于了解英文中的名词，帮助你将来深入看英文资料。

总的来书，本书还算是比较适合机器学习初学者的，个人非常推荐。大牛就可以飘过了。

如果你有编程经验，而且是机器学习的入门者，这本书适合你

Stanley 2016-02-02 0赞

如果你是机器学习的入门者，如果你想快速看到算法的执行效果，那么这本书适合你。
作者把算法的基本原理讲的很清楚，而且代码是完整可执行的。当然，如果你想了解算法背后的数学原理，还需要花时间去复习一下概率论、高等数学和线性代数。
BTW：读者最好有编程经验，有抽象思维。

需要自己去理解算法

Utopia 2016-03-25 0赞

现在刚读到第三章，决策树，感觉这本书主要是给出代码，并对代码作出解释，而对背后的数学原理讲解很少，个人感觉读代码其实就已经知道干了什么，只是那些说明可以帮助理解代码，同时指明了代码阅读顺序。所以这本书需要结合其他讲解相关算法的资料一起看。

不过这正好让人更加直观的理解那些统计学知识了

Machine Learning不大可能在一本書做到深入淺出

skedin 2016-05-13 0赞

Machine Learning這門科學範圍很大，不大可能有一本書能在這個主題面面俱到。初學者需要先了解機器學習的範圍，再比較淺顯的去知道背後的理論基礎，之後再儘可能挖掘每一種算法的形成與直觀意義。在我閱讀過的機器學習書籍中，這本書與O'Reilly的Data Science From Scratch比較像，取向都不偏重數學的描述，而是利用文字與代碼來教學，再輔以具體的應用場景，或許這是作者的本意，儘量不要引進過度深奧的數學統計理論。但我個人比較偏好Packt Publishing的Python Machine Learning，因為Packt這本書交代了起碼的數學知識，這非常重要，無比重要。同時使用scikit-learn做為主軸，應用上更為實際。不過話又說回來，真的不大可能有一本書能在這個龐大主題做到面面俱到，Manning這本書做為學習路程中的起步，還是有閱讀價值。

Python数据分析与机器学习实战

才高9斗 2017-02-07 0赞

Python数据分析与机器学习实战
课程观看地址：http://www.xuetuwuyou.com/course/167
课程出自学途无忧网：http://www.xuetuwuyou.com

课程风格通俗易懂，真实案例实战。精心挑选真实的数据集为案例，通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础，所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例。算法与项目相结合，选择经典kaggle项目，从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同学们快速上手如何使用python库来完整机器学习案例。

课程目标
零基础快速掌握python数据分析与机器学习算法；快速入门python最流行的数据分析库numpy,pandas,matplotlib；从原理上进行推导较为繁琐的机器学习算法，以算法流程为主结合实际案例实现完整的算法代码；使用scikit-learn机器学习库完成快速建立模型，评估以及预测；结合Kaggle经典案例，从数据预处理开始一步步完成整个项目，对如何应用python库完成实际的项目形成完整的经验与概念。

适合人群：
数据分析,机器学习,数据挖掘领域研究者。Python语言使用者。

课程目录：
第1 章： Python环境配置
课时1：使用Anaconda安装python环境
课时2：Eclipse配置python插件
课时3：课程简介
第2 章： Python科学计算库-Numpy
课时4：Numpy库简介
课时5：Array数组
课时6：数组操作
课时7：矩阵基本操作
课时8：矩阵的创建与初始化
课时9：常用函数案例演示
课时10：排序与索引
课时11：习题实例
第3 章： python数据分析处理库-Pandas
课时12：Pandas库简介
课时13：数据读取与显示
课时14：数据样本行列选取
课时15：数值计算与排序
课时16：数据预处理与透视表
课时17：自定义函数方法
课时18：核心数据结构Series详解
课时19：数据索引变换
第4 章： Python数据可视化库-Matplotlib
课时20：Matplotlib简介
课时21：画出第一个简易折线图
课时22：打造一个完整的折线图
课时23：条形图实战
课时24：直方图与四分图
课时25：基于真实数据集的可视化分析
课时26：可视化图表细节
第5 章： Python机器学习案例实战
课时27：初识机器学习
课时28：使用python库分析汽车油耗效率
课时29：使用scikit-learn库建立回归模型
课时30：使用逻辑回归改进模型效果
课时31：模型效果衡量标准
课时32：ROC指标与测试集的价值
课时33：交叉验证
课时34：多类别问题代码
课时35：梯度下降原理
课时36：实现简易梯度下降算法
课时37：SVD奇异值分解原理
课时38：SVD推荐系统应用实例
课时39：K近邻算法原理
课时40：K近邻算法代码实现
课时41：K近邻实例
第6 章：决策树与随机森林
课时42：决策树算法原理
课时43：基于ID3算法进行特征选择
课时44：构建决策树
课时45：使用scikit-learn库建立决策树
课时46：分类回归树CART
课时47：分类回归树代码实现
课时48：随机森林模型
课时49：随机森林特征重要性
第7 章：聚类模型
课时50：无监督聚类问题
课时51：聚类结果与离群点分析
课时52：K-means聚类案例对NBA球员进行评估
课时53：K-MEANS原理
课时54：K-MEANS聚类算法实现
第8 章：支持向量机
课时55：支持向量机算法原理
课时56：支持向量机对偶问题
课时57：核变换解决低维不可分问题
课时58：soft-margin支持向量机
课时59：SMO算法求解支持向量机
第9 章：神经网络模型
课时60：初识神经网络
课时61：神经网络强大的非线性
课时62：深入神经网络细节
课时63：代码实现简易神经网络
课时64：深度学习-递归神经网络
课时65：神经网络打造二进制加法器
第10 章：贝叶斯模型
课时66：贝叶斯原理
课时67：基于贝叶斯的垃圾邮件分类
课时68：使用贝叶斯算法打造拼写检查器
课时69：K近邻算法实现
第11 章： Adaboost算法
课时70：Adaboost算法原理
课时71：Adaboost实例
课时72：Adaboost实现代码
课时73：Adaboost训练模型
第12 章：机器学习项目实战-泰坦尼克获救预测
免费课时74：船员数据分析
免费课时75：数据预处理
课时76：使用回归算法进行预测
课时77：使用随机森林改进模型
课时78：随机森林特征重要性分析
第13 章：机器学习项目实战-贷款申请最大化利润
课时79：数据清洗过滤无用特征
课时80：数据预处理
课时81：获得最大利润的条件与做法
课时82：预测结果并解决样本不均衡问题
第14 章：机器学习项目实战-用户流失预警
课时83：数据背景介绍
课时84：数据预处理
课时85：尝试多种分类器效果
课时86：结果衡量指标的意义
课时87：应用阈值得出结果
第15 章：机器学习项目实战-HTTP日志聚类分析
课时88：建立特征工程
课时89：特征数据预处理
课时90：应用聚类算法得出异常IP点

机器学习实战

涅瓦纳 2017-04-04 0赞

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
本书第一部分主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

光看这本书肯定只会算法不会原理

起个名还要四个 2015-08-05 1赞

理论没讲太明白，直接上算法，甚至还有公式缺失，代码不敢恭维
就像大家说的一样先看看线性代数、概率论、统计学再来看看这书吧
我这10多年 php、java、c#、js通吃，本想python应该不难，竟然代码部分有东西看不懂了，不得不拿起本python的书对着看...

一个合格的读者，应该明白自己需要什么

Kord 2013-08-27 63

为什么我会力荐这本书？

也许书中分类器都非常的简单，数学理论都非常的粗浅（为了看明白书中SVM分类器的训练过程，不得不去复习了二次凸优化解法，自己推导被作者略去的中间过程），算法测试也只在轻量级的数据集上完成。

不过，大可不必像其他评论一样对贬低本书。聪明的读者会知道自己没有什么，自己需要学习什么。如果更加喜欢背后深奥的统计学理论和凸优化理论，可以去看《Machine Learning: A Probabilistic Perspective》，如果对自己的数学水平足够自信的话。

这本书能让你明白：
那些被吹捧得出神入化的分类算法，竟然实现起来如此简单；
那些看是高深的数学理论，其实一句话就能道明其本质；
一切复杂的事物，出发点都是非常简单的想法。

我说不出这本书适合什么样的读者，但是却明白它不适合谁：
学过一点机器学习或者模式识别或者数据挖掘，完全不具备统计推断和凸优化知识，又想找一条捷径，想从菜鸟摇身一变成大师的人；
对编程不感兴趣的人，或者没有动手实践习惯的人；
不喜欢独立思考，希望别人把答案摆在自己面前的人。

祝君学运昌盛

光看这一本想做机器学习，还远的很

锅巴肉片 2014-10-14 19

本文将从三方面评价此书：

一、仅从启发兴趣来说，这本书已经是巨大的成功了。

机器学习到底是什么，要我总结，它就是数学（统计学），所以尽情happy地去学机器学习吧，因为数学是不会过时的。

一谈到数学，令人想到的就是繁杂的公式，晦涩的理论，考验脑细胞的思想。有时怕一说到“数学”二字，就要吓跑一大批要学习机器学习的同学。如果你正巧被我说中，那么一定要读一读这本书。外国人写书非常有趣，循序渐进，像聊天一样，不会让你觉得很枯燥。另外这本书的排版给人感觉非常悦目，读起来是一种享受。

这都不是重点，重点是它会指导读者如何实践。对于新手来说，尤其是耐心不足的同学，最希望的是能够动手去做做看，希望能看到实际的结果。而看到大数据时估计很多人会忧虑：我没有数据来做试验，就算有我也不会把数学原理转换为代码。这本书正是解决了这个问题，它使用python（提供了类似matlab的库）来实现机器学习的各种算法，使得算法从纸上一个字符一个字符地跃到计算机上，你会体验到一种从无到有的成就感，而很多实践的案例贴近生活，让你更直观的去感受机器学习的应用，动力十足。

二、动手你才发现自己仅是看似学会。

如果仅仅是学习原理，经常会出现看似学会的情况。如果马上让你写出某某个算法的代价函数，也许你会犹豫在这个公式到底有没有负号。再问你为什么是这个函数，你会发现自己一直就不知道原因。

所以必须要动手。动手编程实现了这个函数才发现很多细节不实现永远注意不到。动手不仅加深印象，更是再思考。

三、十分全面，但距离做机器学习还远的很。

这本书基本涵盖了主流的机器学习算法，十分全面。但如果仅仅是仔仔细细的研读过此书，实践所有的代码也距离懂得机器学习远的很。

这里就要说这本书的一个不足之处，它的原理部分讲得非常浅，而机器学习这种偏理论的技术，对于原理来说更是要求的重点。很多原因没有解释（清楚），很多公式没有得到推导。所以建议配合其他讲解理论的书籍一起学习。

最后要说，本人也是初学机器学习，评价不知道是否客观，但仅从我个人读此书的经历来说，还是享受到了学习机器学习的愉悦。

还好的一本实战书

a_31415926 2015-02-08 10

       这本书的最大好处是让你能够用最基本的pyton语法，从底层上让你构建代码，实现我们常说的比如邮件过滤，数据分类的应用。很多时候你要写最基本的代码和结构去做这些工作，而不是像kaggle的tutorial或者其他的工程大多数告诉你一个lib库函数去调用，你能看到底层在干什么，决策树是怎么弄出来的，gradient descent是怎么弄出来的，知道机器学习是如何从低实现的。

        缺点就是评论上面说的各种，理论上不严密，其实这个有错误到是其次，主要是理论讲的不是很清楚不是很透彻。需要参考一些公开课老师讲的或者一些比较理论上的书籍，你才会发现原来作者不声不响加上的一些东西是这么来的。有些作者写的机器学习的代码也是只对那个样本有效，遇到一般性的样本就会出现问题。

       但是总体来说，我觉得这本书还是告诉了我们机器学习从代码上是个什么样子。的确，它在理论上欠缺，而且讲的逻辑不是很清楚，但是市面上根本不缺理论的书，这本书有自己独特的位置。开始你按照它的代码走，到后来你觉得，诶这哥们写的代码有点问题啊，不过到最后还是得感谢他领你入门了。

       我觉得他的利还是大于弊，不过最好结合理论书和理论的公开课来一起学习，这样互补性很好。

看机器学习困了累了，就玩玩这本实验指导书吧

何磊 2013-03-28 7

1. 这本书的价值是提供了一系列有趣的「实验作业」和「对应的数据」，以及乱七八糟的 Python 代码，迫使读者在同样数据集上自己写一个更好的。

2. 作者的 Python 代码写得真的真的很渣。

3. 作者的 SVM 写错了，不是 Platt 的原始 SMO 算法，里面的 error cache 形同虚设。

4. 里面用的 Yahoo 位置的 API 已经过时了，建议用百度的玩。

只能说是本源码

WeBless 2013-08-07 6

这本书最大的优点在于有源码实现，很赞，但是理论部分太差了，看了逻辑回归和支持向量机两章，发现好多理论都没讲，就比如逻辑回归中的Cost函数都没说，如果不了解，源码读起来也是一头雾水，所以对于初学者还需要一本理论较强的书，推荐李航博士的统计机器学习方法，刚好配套～

主要注重实战

灭人沉醉 2014-07-07 4

这本书基本上是基于一个例子讲解一种机器学习算法，但是朴素贝叶斯那一章就存在重大错误了！书页眉下面标注使用伯努利模型，但计算条件概率那段代码却是混合使用伯努利模型与多项式模型，网上流传已久的代码与算法描述页都是错误的，不知道为什么只有几个人提到这个错误了

你们应当让机器说人话，而不是说鬼话

某狐 2015-09-28 2

特别适合新手，特别适合新手，特别适合新手。长度适中，举例形象，概念浅显通俗。难得有一个条理清楚逻辑不迷糊不堆砌代码打哈哈的书。基于这个理由bonus给五星，以后给别人推荐就这本了。

尤其是前面几章，介绍机器学习的基本概念。作者给我们指明了一个做ML的基本要求：“机器学习的目的在于提炼数据背后的隐含规律。你们应当让机器说人话，而不是说鬼话”。我觉得对于初学者这种概念非常有意义。可惜冲着过来看这本书的都是ML expert，根据书名和期望值就匆匆打了个低分就离开了。

光看这本书肯定只会算法不会原理

起个名还要四个 2015-08-05 1

没有惊喜，平庸！！

Matrix 2013-06-18 0

虽然简单，但确实有“实战”的味道

机器学习实战

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读