机器学习
查字典图书网
当前位置: 查字典 > 图书网 > 算法> 机器学习

机器学习

机器学习

7.7

作者:
出版社: 机械工业出版社
原作名: Machine Learning for Hackers
副标题: 实用案例解析
译者: 陈开江  |  刘逸哲  |  孟晓楠  |  罗森林 审校
出版年: 2013-4-1
页数: 320
定价: 69.00元
装帧: 平装
ISBN: 9787111417316

我要收藏

内容简介:

这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍,它注重的是一个学习的过程,因而对于任何有一些编程背景和定量思维的人来说,它都是不错的选择。

——Max Shron OkCupid

机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,还讨论了一些有生命力的新理论、新方法。

全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例从分类讲到回归,然后讨论了聚类、降维、最优化问题等。这些案例包括分类:垃圾邮件识别,排序:智能收件箱,回归模型:预测网页访问量,正则化:文本回归,最优化:密码破解,无监督学习:构建股票市场指数,空间相似度:用投票记录对美国参议员聚类,推荐系统:给用户推荐R语言包,社交网络分析:在Twitter上感兴趣的人,模型比较:给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究,因为它是一种用于数据分析的高水平、功能性脚本语言。

本书主要内容:

·开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件;

·使用线性回归来预测互联网排名前1000网站的PV;

·利用文本回归理解图书中词与词之间的关系;

·通过尝试破译一个简单的密码来学习优化技术;

·利用无监督学习构建股票市场指数,用于衡量整体市场行情的好坏;

·根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;

·通过K近邻算法构建向用户推荐R语言包;

·利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统;

·模型比较:给你的问题找到最佳算法。

作者简介:

【作者介绍】

Drew Conway 机器学习专家,拥有丰富的数据分析与处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。

John Myles White 机器学习专家,拥有丰富的数据分析与处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是几个流行的R语言程序包的主要维护者,包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位,曾为多家技术杂志撰稿,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。

【译者介绍】

罗森林 博士,教授,博导。现任北京理工大学信息系统及安全对抗实验中心主任、专业责任教授。国防科技工业局科学技术委员会成员;《中国医学影像技术杂志》、《中国介入影像与治疗学》编委会委员;全国大学生信息安全技术专题邀请赛专家组副组长;中国人工智能学会智能信息安全专业委员会委员等。主要研究方向为信息安全、数据挖掘、媒体计算、中文信息处理等。负责或参加完成国家自然科学基金、国家科技支撑计划、863计划、国家242计划等省部级以上项目40余项。已发表学术论文90余篇,出版著作8部,出版译著1部,获授权专利3项。

陈开江 新浪微博搜索部研发工程师,曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统(包括自动回复、主动挖掘、舆情监测)等项目,目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作,研究兴趣是社交网络的个性化推荐。

刘逸哲 阿里巴巴,CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人,机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师;AvePoint.inc开发工程师,从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。

孟晓楠 一淘广告技术,阿里非搜索广告算法负责人,负责用户行为分析、建模与细分,RTB竞价算法,展示广告CTR预估与SEM优化。曾工作于网易杭州研究院,参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。

目录:

前言 1

第1章 使用R语言 9

R与机器学习 10

第2章 数据分析 36

分析与验证 36

什么是数据 37

推断数据的类型 40

推断数据的含义 42

数值摘要表 43

均值、中位数、众数 44

分位数 46

标准差和方差 47

可视化分析数据 49

列相关的可视化 68

第3章 分类:垃圾过滤 77

非此即彼:二分类 77

漫谈条件概率 81

试写第一个贝叶斯垃圾分类器 82

第4章 排序:智能收件箱 97

次序未知时该如何排序 97

按优先级给邮件排序 98

实现一个智能收件箱 102

第5章 回归模型:预测网页访问量 128

回归模型简介 128

预测网页流量 142

定义相关性 152

第6章 正则化:文本回归 155

数据列之间的非线性关系:超越直线 155

避免过拟合的方法 164

文本回归 174

第7章 优化:密码破译 182

优化简介 182

岭回归 188

密码破译优化问题 193

第8章 PCA:构建股票市场指数 203

无监督学习 203

主成分分析 204

第9章 MDS:可视化地研究参议员相似性 212

基于相似性聚类 212

如何对美国参议员做聚类 219

第10章 kNN:推荐系统 229

k近邻算法 229

R语言程序包安装数据 235

第11章 分析社交图谱 239

社交网络分析 239

用黑客的方法研究Twitter的社交关系图数据 244

分析Twitter社交网络 252

第12章 模型比较 270

SVM:支持向量机 270

算法比较 280

参考文献 287

展开全文
随机来一本书

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

热门标签:
我想说两句
我要写长评
 想读     在读     读过   
评价:
标签(多个标签以“,”分开):