机器学习系统设计

内容简介：

如今，机器学习正在互联网上下掀起热潮，而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言，它支持快速探索和实验，并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色，就是结合实例分析教会读者如何通过机器学习解决实际问题。

本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。

举几个例子，我们会介绍怎么把StackOverflow的回答按质量高低进行分类，怎么知道某个音乐文件是爵士风格，还是重金属摇滚风格。另外，本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之，通过学习本书，读者可以掌握构建自己所需系统的各方面知识，并且学以致用，解决自己面临的现实问题。

读者只要具有一定的Python编程经验，能够自己安装和使用开源库，就足够了，即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

作者简介：

作者简介：

Willi Richert

机器学习和机器人学博士，目前任职于微软Bing搜索核心研发团队。他从事多种机器学习领域的研究，包括主动学习和统计机器翻译。

Luis Pedro Coelho

计算生物学家，主要关注生物图像信息学和大规模图像数据的处理，致力于生物标本图像分析中机器学习技术的应用，他还是Python计算机视觉库mahotas的主要开发人员。他于1998年开始开发开源软件，2004年起从事Python开发，并为多个Python开源库贡献了代码。另外，Luis拥有机器学习领域世界领先的卡内基-梅隆大学的博士学位，并发表过多篇科学论文。

译者简介：

刘峰

百度LBS地图基础业务部资深研发工程师，新加坡南洋理工大学计算机工程系博士，研究领域包括机器学习、模糊神经网络等。2010年加入百度，主要从事大数据分析和挖掘方面的工作，近年来专注于无线定位、用户轨迹等LBS大数据的挖掘及机器学习应用。

目录：

第1章　Python机器学习入门1

1.1 　梦之队：机器学习与Python1

1.2 　这本书将教给你什么（以及不会教什么）2

1.3 　遇到困难的时候怎么办3

1.4 　开始4

1.4.1 　NumPy、SciPy和Matplotlib简介4

1.4.2 　安装Python5

1.4.3 　使用NumPy和SciPy智能高效地处理数据5

1.4.4 　学习NumPy5

1.4.5 　学习SciPy9

1.5 　我们第一个（极小的）机器学习应用10

1.5.1 　读取数据10

1.5.2 　预处理和清洗数据11

1.5.3 　选择正确的模型和学习算法12

1.6 　小结20

第2章　如何对真实样本分类22

2.1 　Iris数据集22

2.1.1 　第一步是可视化23

2.1.2 　构建第一个分类模型24

2.2 　构建更复杂的分类器28

2.3 　更复杂的数据集和更复杂的分类器29

2.3.1 　从Seeds数据集中学习29

2.3.2 　特征和特征工程30

2.3.3 　最邻近分类30

2.4 　二分类和多分类33

2.5 　小结34

第3章　聚类：寻找相关的帖子35

3.1 　评估帖子的关联性35

3.1.1 　不应该怎样36

3.1.2 　应该怎样36

3.2 　预处理：用相近的公共词语个数来衡量相似性37

3.2.1 　将原始文本转化为词袋37

3.2.2 　统计词语38

3.2.3 　词语频次向量的归一化40

3.2.4 　删除不重要的词语41

3.2.5 　词干处理42

3.2.6 　停用词兴奋剂44

3.2.7 　我们的成果和目标45

3.3 　聚类46

3.3.1 　K均值46

3.3.2 　让测试数据评估我们的想法49

3.3.3 　对帖子聚类50

3.4 　解决我们最初的难题51

3.5 　调整参数54

3.6 　小结54

第4章　主题模型55

4.1 　潜在狄利克雷分配（LDA）55

4.2 　在主题空间比较相似度59

4.3 　选择主题个数64

4.4 　小结65

第5章　分类：检测劣质答案67

5.1 　路线图概述67

5.2 　学习如何区分出优秀的答案68

5.2.1 　调整样本68

5.2.2 　调整分类器68

5.3 　获取数据68

5.3.1 　将数据消减到可处理的程度69

5.3.2 　对属性进行预选择和处理70

5.3.3 　定义什么是优质答案71

5.4 　创建第一个分类器71

5.4.1 　从k邻近（kNN）算法开始71

5.4.2 　特征工程72

5.4.3 　训练分类器73

5.4.4 　评估分类器的性能74

5.4.5 　设计更多的特征74

5.5 　决定怎样提升效果77

5.5.1 　偏差?方差及其折中77

5.5.2 　解决高偏差78

5.5.3 　解决高方差78

5.5.4 　高偏差或低偏差78

5.6 　采用逻辑回归81

5.6.1 　一点数学和一个小例子81

5.6.2 　在帖子分类问题上应用逻辑回归83

5.7 　观察正确率的背后：准确率和召回率84

5.8 　为分类器瘦身87

5.9 　出货88

5.10 　小结88

第6章　分类II：情感分析89

6.1 　路线图概述89

6.2 　获取推特（Twitter）数据89

6.3 　朴素贝叶斯分类器介绍90

6.3.1 　了解贝叶斯定理90

6.3.2 　朴素91

6.3.3 　使用朴素贝叶斯进行分类92

6.3.4 　考虑未出现的词语和其他古怪情况94

6.3.5 　考虑算术下溢95

6.4 　创建第一个分类器并调优97

6.4.1 　先解决一个简单问题97

6.4.2 　使用所有的类99

6.4.3 　对分类器的参数进行调优101

6.5 　清洗推文104

6.6 　将词语类型考虑进去106

6.6.1 　确定词语的类型106

6.6.2 　用SentiWordNet成功地作弊108

6.6.3 　我们第一个估算器110

6.6.4 　把所有东西融合在一起111

6.7 　小结112

第7章　回归：推荐113

7.1 　用回归预测房价113

7.1.1 　多维回归116

7.1.2 　回归里的交叉验证116

7.2 　惩罚式回归117

7.2.1 　L1和L2惩罚117

7.2.2 　在Scikit-learn中使用Lasso或弹性网118

7.3 　P大于N的情形119

7.3.1 　基于文本的例子120

7.3.2 　巧妙地设置超参数（hyperparameter）121

7.3.3 　评分预测和推荐122

7.4 　小结126

第8章　回归：改进的推荐127

8.1 　改进的推荐127

8.1.1 　使用二值推荐矩阵127

8.1.2 　审视电影的近邻129

8.1.3 　组合多种方法130

8.2 　购物篮分析132

8.2.1 　获取有用的预测133

8.2.2 　分析超市购物篮134

8.2.3 　关联规则挖掘136

8.2.4 　更多购物篮分析的高级话题137

8.3 　小结138

第9章　分类III：音乐体裁分类139

9.1 　路线图概述139

9.2 　获取音乐数据139

9.3 　观察音乐140

9.4 　用FFT构建第一个分类器143

9.4.1 　增加实验敏捷性143

9.4.2 　训练分类器144

9.4.3 　在多分类问题中用混淆矩阵评估正确率144

9.4.4 　另一种方式评估分类器效果：受试者工作特征曲线（ROC）146

9.5 　用梅尔倒频谱系数（MFCC）提升分类效果148

9.6 　小结152

第10章　计算机视觉：模式识别154

10.1 　图像处理简介154

10.2 　读取和显示图像155

10.2.1 　图像处理基础156

10.2.2 　加入椒盐噪声161

10.2.3 　模式识别163

10.2.4 　计算图像特征163

10.2.5 　设计你自己的特征164

10.3 　在更难的数据集上分类166

10.4 　局部特征表示167

10.5 　小结170

第11章　降维171

11.1 　路线图171

11.2 　选择特征172

11.2.1 　用筛选器检测冗余特征172

11.2.2 　用封装器让模型选择特征178

11.3 　其他特征选择方法180

11.4 　特征抽取181

11.4.1 　主成分分析（PCA）181

11.4.2 　PCA的局限性以及LDA会有什么帮助183

11.5 　多维标度法（MDS）184

11.6 　小结187

第12章　大数据188

12.1 　了解大数据188

12.2 　用Jug程序包把你的处理流程分解成几个任务189

12.2.1 　关于任务189

12.2.2 　复用部分结果191

12.2.3 　幕后的工作原理192

12.2.4 　用Jug分析数据192

12.3 　使用亚马逊Web服务（AWS）194

12.3.1 　构建你的第一台机器195

12.3.2 　用starcluster自动创建集群199

12.4 　小结202

附录A 　更多机器学习知识203

A.1 　在线资源203

A.2 　参考书203

A.2.1 　问答网站203

A.2.2 　博客204

A.2.3 　数据资源205

A.2.4 　竞争日益加剧205

A.3 　还剩下什么205

A.4 　小结206

索引207

文章试读：本书将全面展示不同应用领域正在使用的各种机器学习算法，以及使用它们时应当注意什么。然而，根据亲身经验，我们知道做这些很“酷”的事——使用和调整机器学习算法，比如支持向量机（SVM）、最邻近搜索（NNS），或者同时支持两者——其实只需要耗费一位优秀机器学习专家的一点儿时间。看看下面这个典型的工作流程，你就会发现绝大部分时间将花费在一些相当平凡的任务上： (1) 读取和清洗数据； (2) 探索和理...

(查看全部试读)

机器学习系统设计

涅瓦纳 2017-04-21 0赞

如今，机器学习正在互联网上下掀起热潮，而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言，它支持快速探索和实验，并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色，就是结合实例分析教会读者如何通过机器学习解决实际问题。
本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。
举几个例子，我们会介绍怎么把StackOverflow的回答按质量高低进行分类，怎么知道某个音乐文件是爵士风格，还是重金属摇滚风格。另外，本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之，通过学习本书，读者可以掌握构建自己所需系统的各方面知识，并且学以致用，解决自己面临的现实问题。
读者只要具有一定的Python编程经验，能够自己安装和使用开源库，就足够了，即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

一本简洁、务实且易上手的数据科学家养成秘籍

dongpf 2016-07-06 1赞

如果想要系统的学习机器学习算法，就别翻这本书了。
这本书是为那些看完统计学习方法这类偏理论书籍，但依然不知道怎么下手写代码解决实际问题的新手准备的；
这本书是为那些学会了几个机器学习算法就自诩掌握机器学习和数据挖掘的脑残小白准备的；
这本书是为有一定编程经验，想快速进入数据挖掘领域的开发工程师们准备的；
真实的数据挖掘工作中，数据科学家90%以上的时间投入在分析商业问题、解读和清洗数据、设计和选择特征、模型评估这个loop中，这些是决定模型效果的关键，而使用算法进行训练和预测，通常情况下一两行代码即可搞定。
本书的实例在一定程度上体现了真实工作中的这些内容，比较务实；此外得益于scipy和scikit-learn强大的功能，实例代码非常简洁，易于上手操练。
对于想进入数据挖掘领域折腾的同学，翻翻这本书，打开python控制台，试着写一二十行代码去解决一个具体的分类问题，这大抵可以消除你对机器学习各种高大上的心理障碍了。
有志于玩大数据的同学们，快行动起来吧！

如果你跟我一样是喜欢跟着书敲一遍代码的话

薛定谔的熊 2016-03-04 7赞

诚如题目：如果你跟我一样看这种书是喜欢跟着书敲一遍代码的话，我想这本书如果你想要跟着作者把上面书中的例子全部过一遍，你是需要具备以下这样几点知识储备的。
第一.python（不只限于简单的语法，越熟越好）
第二.利用beautifulSoup这样的第三方库爬虫获取数据，并对数据进行整理的能力。
第三.经典的机器学习是算法要理解，最好是做到会推演。
第四.scipy,numpy,sklearn，matplotlib有所接触和了解，也是越熟越好。
第五.最最重要的就是要有钱配个好一点的电脑。
你看到这里肯定会想你丫这不是在黑人家吗，怎么还给个力荐呢。其实完全不是在黑，是真这样感觉的。比如第五点，书中有个用LDA对维基百科英文版做主题空间聚类的，我把维基百科英文版下下来，一个XML文档压缩包11G，解压出来40多G你电脑不好点怎么搞。说算法要理解会推演。你算法最基本的原理都不理解，就算知道调用sklearn包中的哪个函数，你都不知道函数要怎么用。爬虫和数据整合能力。恩，给你个XML文档你总要会自己把这些文档变成向量，矩阵吧。
说了这么多好像你丫的说的需要的这些能力都是数据挖掘书里培养的重点能力啊。这书这些都是不讲我TMD买来看个球啊。
如果你跟我一样是个苦逼的二流学校的小硕，一个人苦逼的在实验室敲代码、看书，周围没有什么人能解答心中的疑惑。你会发现这本书买回家后感觉就像是多了一个在这个领域的师兄，他也许不会告诉你那些入门的重要的基本功怎么搞，那些需要你自己在其他地方去寻找，但这本书。诚如书名那样--机器学习系统设计，会手把手交教你怎样一步步从数据预处理，到开始试一些简单的模型，然后调参，衡量模型缺陷，更换模型继续调参的过程。这些我想是你从那些算法书，导论书上看不到学不来的。所以这本书其实是一本好书，只是看你自己现在的段位是否有功力推得动这本书的问题了。
说了这么多了，你也许会想：你丫忽悠了这么多，你丫自己现在的修为到哪个程度了？能推动这本书吗？
我很遗憾的告诉你，对不起，我不能。。。学渣努力去啃这本书的剩余部分（居然还没看完就来评论），然后赶紧补上面的五种能力，哦不，是四种能力（穷逼没钱升级电脑= =）

刚看了开头，就发现是很不一样的书

Miner帆 2014-01-14 24赞

讲机器学习理论的经典教材很多，但讲经典的理论如何实现的好书就不那么多了。用python做机器学习的书，《集体智慧编程》《机器学习实战》算是佼佼者，但这些书都是讲的怎么自己造轮子。而造出来的轮子在实际工程中，几乎是没有实用价值的。

实际做机器学习项目时，用的往往都是现成的高效模型，或在这些模型基础上做一些改进。如用python做机器学习，常会用到scikit-learn、numpy、scipy、matplotlib这些库，但除了官方文档，几乎没有书系统的阐述这些东东的工程级应用。这本书的出现，填补了这一空白。

这本书是给工程师看的，典型的快餐式书。
看了太多细火慢炖的东西，吃顿快餐，能迅速止饿。

==================================================
优点：这本书告诉了你，python机器学习工业级的应用
缺点：凭空用了许多函数，却没有告诉你函数参数的意义

刚看了开头，就发现是很不一样的书