Python网络数据采集

内容简介：

本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。

作者简介：

Ryan Mitchell

数据科学家、软件工程师，目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前，曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作，主要面向金融和零售业。另著有Instant Web Scraping with Java。

目录：

译者序ix

前言xi

第一部分　创建爬虫

第1章　初见网络爬虫2

1.1　网络连接2

1.2　BeautifulSoup简介4

1.2.1　安装BeautifulSoup5

1.2.2　运行BeautifulSoup7

1.2.3　可靠的网络连接8

第2章　复杂HTML解析11

2.1　不是一直都要用锤子11

2.2　再端一碗BeautifulSoup12

2.2.1　BeautifulSoup的find()和findAll()13

2.2.2　其他BeautifulSoup对象15

2.2.3　导航树16

2.3　正则表达式19

2.4　正则表达式和BeautifulSoup23

2.5　获取属性24

2.6　Lambda表达式24

2.7　超越BeautifulSoup25

第3章　开始采集26

3.1　遍历单个域名26

3.2　采集整个网站30

3.3　通过互联网采集34

3.4　用Scrapy采集38

第4章　使用API42

4.1　API概述43

4.2　API通用规则43

4.2.1　方法44

4.2.2　验证44

4.3　服务器响应45

4.4　Echo Nest46

4.5　Twitter API48

4.5.1　开始48

4.5.2　几个示例50

4.6　Google API52

4.6.1　开始52

4.6.2　几个示例53

4.7　解析JSON数据55

4.8　回到主题56

4.9　再说一点API60

第5章　存储数据61

5.1　媒体文件61

5.2　把数据存储到CSV64

5.3　MySQL65

5.3.1　安装MySQL66

5.3.2　基本命令68

5.3.3　与Python整合71

5.3.4　数据库技术与最佳实践74

5.3.5　MySQL里的“六度空间游戏”75

5.4　Email77

第6章　读取文档80

6.1　文档编码80

6.2　纯文本81

6.3　CSV85

6.4　PDF87

6.5　微软Word和.docx88

第二部分　高级数据采集

第7章　数据清洗94

7.1　编写代码清洗数据94

7.2　数据存储后再清洗98

第8章　自然语言处理103

8.1　概括数据104

8.2　马尔可夫模型106

8.3　自然语言工具包112

8.3.1　安装与设置112

8.3.2　用NLTK做统计分析113

8.3.3　用NLTK做词性分析115

8.4　其他资源119

第9章　穿越网页表单与登录窗口进行采集120

9.1　Python Requests库120

9.2　提交一个基本表单121

9.3　单选按钮、复选框和其他输入123

9.4　提交文件和图像124

9.5　处理登录和cookie125

9.6　其他表单问题127

第10章　采集JavaScript128

10.1　JavaScript简介128

10.2　Ajax和动态HTML131

10.3　处理重定向137

第11章　图像识别与文字处理139

11.1　OCR库概述140

11.1.1　Pillow140

11.1.2　Tesseract140

11.1.3　NumPy141

11.2　处理格式规范的文字142

11.3　读取验证码与训练Tesseract146

11.4　获取验证码提交答案151

第12章　避开采集陷阱154

12.1　道德规范154

12.2　让网络机器人看起来像人类用户155

12.2.1　修改请求头155

12.2.2　处理cookie157

12.2.3　时间就是一切159

12.3　常见表单安全措施159

12.3.1　隐含输入字段值159

12.3.2　避免蜜罐160

12.4　问题检查表162

第13章　用爬虫测试网站164

13.1　测试简介164

13.2　Python单元测试165

13.3　Selenium单元测试168

13.4　Python单元测试与Selenium单元测试的选择172

第14章　远程采集174

14.1　为什么要用远程服务器174

14.1.1　避免IP地址被封杀174

14.1.2　移植性与扩展性175

14.2　Tor代理服务器176

14.3　远程主机177

14.3.1　从网站主机运行178

14.3.2　从云主机运行178

14.4　其他资源179

14.5　勇往直前180

附录A　Python简介181

附录B　互联网简介184

附录C　网络数据采集的法律与道德约束188

作者简介200

封面介绍200

文章试读：“美味的汤，绿色的浓汤，在热气腾腾的盖碗里装！谁不愿意尝一尝，这样的好汤？晚餐用的汤，美味的汤！” BeautifulSoup 库的名字取自刘易斯 •卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中，这首诗是素甲鱼1 唱的。就像它在仙境中的说法一样，BeautifulSoup 尝试化平淡为神奇。它通过定位HTML 标签来格式化和组织复杂的网络信息，用简单易用的Python...

(查看全部试读)

Raynor 2016-05-10 0

挺不错的，市面上爬虫的书籍不多，这门当入门很合适。

Elliot 2016-05-28 0

bs介绍的很详细

马猴烧酒扎坦娜 2016-07-28 0

爬虫入门作，BeautifulSoup护佑着你，不包含进阶知识

大H 2016-08-15 1

编程还是很多年前的事了，嵌入式，汇编，C是当年我的长项，没有复杂晦涩的语法和长名词需要学习，之前从来没有学过Python，但这本书我看了两遍，一方面为Python的极简魅力所折服，另一方面为本书之内容深深地吸引了，他不但带领你从头到尾的学习了一遍如何使用Python访问网络，又如何使用Python和数据库、语义处理所连接，内容全面简单易懂，更重要的是他像其他工具书那样只讲一堆第三方库怎么用，而是把很多重要的功能点带你用极简的方式重新实现了一遍，哪怕你是从头开始研究如何实现中文分词，这样的领路人都是足够了呢。强力推荐极客入门阅读。

NikoBelic 2016-10-10 0

很薄，入门中的入门，适合非计算机专业的数据分析师学习。

代蔚 2016-10-22 1

难得用python3讲解如何爬虫，对使用python3的人来说是一大福音。网上大部分的教程使用python2进行爬虫，和python3用的库有较大不同。但是python就是这样，年轻又有活力，意味着不仅仅是python本身，包括第三方库更新的也特别快。尽管这是一本2016年出版的书，但是书中的代码并不能完全复用，因为有些用到的库已经更新了：或者是接口，或者是输出，和书中的不尽相同。

GodKiller 2016-10-24 0

非常好，适合初学者入门。

Beamouser 2017-05-10 0

这可能是最近看的几本书翻译得最好的了...强赞翻译作者代码风格有些坑爹,包括变量名覆盖内置函数等等.... 但这本书居然带来了一些乐趣...并不枯燥,很值得新手学习

无聊人士 2016-09-20 0

很简单

等待上传 2017-04-17 0

很不错的爬虫入门书籍

sennhvi 2016-04-24 3

无力吐槽，错误太多了，虽然说优美的代码就跟散文似的，但是作者你写个代码能不能直接就上散文？随便调用一个不存在的函数看起来很有道理诶？参数不指定缺省值也不赋值是几个意思？都说全书python3，这么新的版本，bs4不指定解析器是闹哪样？译者该尊重原文的代码不要翻译成中文行不行？代码缩进错误，中文词组顺序错误。全书这里推荐oreilly media，那里推荐sql cookbook，跪了第一版就是来骗钱的，我是小白鼠，呵呵。

Elf 2016-11-08 3

终于有本针对3.X的爬虫书了～

freetstar 2016-07-05 2

入门每个知识点点到为止全面浅层了解python爬虫的一本书翻译的还行只是长句断句让人揪心啊

大H 2016-08-15 1

代蔚 2016-10-22 1

吴梦圆 2016-05-30 1

第一本爬虫书，扫清恐惧~

驢子 2016-11-15 1

基础入门

深呼吸 2017-03-10 1

自己抓数据有段时间了，这本书讲了爬虫的用途、思路和常用的工具（很多我都用过），如果我早一点发现这本书就好了（自己躺坑还是太累了

Joard Spike 2016-07-27 1

适合入门的书籍，如果你对HTTP，HTML，Python这些都不了解的话

遇上alison 2016-08-08 1

适合入门，感觉是各种爬虫库文档的精简版

我想说两句

真的很合适入门的同学

WP花园 2016-12-12 1赞

诚然，这本书里面提到的一些python库不一定是最好的，但是整个爬虫的思路，还是非常值得大家借鉴。

其实python的语法，以及爬虫的代码段，都不难，就是写爬虫的过程中，需要注意的事项和有可能踩到的坑，是我比较看中的。

书中提到了一点，就是修改浏览器的header，默认貌似是个什么python的信息，要改成火狐的或者谷歌浏览器的，才能骗过网站。

诸如此类的知识点，作者整理的很好，值得一看。

用python3讲一个完整的数据爬取和清洗的过程

说书人 2016-04-23 2赞

最近刚学了python3，看了一些讲语法的书籍和练手的题目，感觉这本书是一个比较好的系统的利用python完成从数据爬取到数据清洗整个流程的实践过程。觉得自己很有必要实践一下。刚刚看了下试读章节，15年出的英文版，难得的用python3进行工程实践而不只是讲语法的书。

很好的一本书

陌上嫣然 2016-04-25 4赞

作者显然是此行达人，踩坑踩多了都是直接上经验。
书里的代码很优美、正规并且很简洁，运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误，比如第31页，倒数第六行冒号翻译成了分号，显然运行了源码并且对比了wiki网站才会知道这是误翻译。
另外，作者源码也有错误的地方，比如，第35页，getNextExternalLink应该是getExternalLinks，否则编译器会报错undefined。但无论如何，这些小错并不妨碍这本书的精彩之处，有python基础的同学完全可以一边读一边纠错，相信认真读完并且仔细分析源码一定会有很多收获。

至于给差评的那位，我觉得你可以在安装完python3之后运行pip3 install bs4试试

似乎所有的“分号”都应该是“冒号”

Brucie 2016-06-05 5赞

第三章有好几个地方出现“分号”，但又实在不明白哪里有分号，只好查了原文。
原文是 colons，也就是冒号。
写在这里，给其他同学提个醒。

：这是冒号
；这是分号

公平地说，原书中也有一些低级错误，比如第七章开始不久，有个函数里把 input 写成了content，中文版照抄了下来。第97页那段代码，如果你不明白它是怎么做到的，请翻到105页查看。

人生苦短，快用Python

水冰玲 2016-03-04 16赞

开学没到2周，这本书已经读完，写的非常细致，也很基础，只有英文版本的，但是写的很口语化，其中还有很多joke，如果你想入门爬虫，推荐这本书。
略去安装的细节，此书使用的是Py3.
第一，二章直接推荐大家使用BeautifulSoup来解析网页，个人觉得最好用的还是lxml，但是本书并没有讲到。BS的使用分为三个步骤，创建，搜索，访问。直接引用标签只会返回第一个匹配的element，你如果想要返回多个那么就要使用find_all，如果限制访问个数择则有一个limit属性，如果访问标签不存在则会返回None,但是如果继续访问这个不存在标签的属性，则会返回Error,所以使用要注意。其他的使用还有很多，例如Navigating Trees，BS最最强大的在于它支持ReEx，还有很多小的细节，访问节点的三种方式，匿名函数，最后也推荐了lxml。个人提示，当你的电脑装了lxml之后，在使用Bs创建对象的时候，加上html的解析器属性--html.parser
第三章，爬虫的基础，算是前面讲解的实战。
第四章，使用API爬取信息，可以省略大部分，后面关于JSON的解析有必要注意一下，loads，jumps直接对于Json格式和字典的转换。
第五章，存储数据，介绍了CSV(comma-separated values)，以及MySQL，MySQL的使用可以专门去学习，而且很重要。Py2中是用MySQLdb库来操作数据库，在Py3中则换用PyMySQL，最后则是讲解了使用smtplib来发送Email，因人而异的功能。
第六章，文本的操作，手先讲解了编码的处理，decode > unicode > encode，utf8只是unicode的编码实现方式。首先是如何处理CSV文件（CSV），然后PDF（pdfminer）及docx（zipfile）
第七章，高阶爬虫的技巧，也是我看本书的最终目的。本章着重讲解数据的清洗，使用正则，或者repalce一下，其实python的numpy或者pandas在这方面已经很优秀。同时本书介绍了专门的软件按OpenRefine.
第八章，马尔可夫模型生成伪随机文本，还介绍了NLTK工具包，这个英文支持良好，中文不了解。
第九章，模拟登录，使用强大的requests。保持登录使用session来访问，最后稍微讲解了Auth。
第十章，Js解析，使用selenium和PhantomJS来解析网页，通过调用API来实现一些操作，最后处理了客户端Js重定向问题，服务器端不用担心，因为Python的内置库文件自动执行
第十一章，图像识别，反爬虫机制的发展是不断上升的过程。在CAPTCHAs可以使用PIL简单识别，或者使用Tesseract来模拟训练，图像识别或者说OCR本身就是很大的方向，可忽略
第十二章，避免爬虫陷阱，介绍一些坑爹的页面反爬虫机制及处理方式
第十三章，测试技巧，使用unittest或selenium测试
第十四章，IP限制使用Tor,但是国内被墙制作了解，及使用Google或者AWS的云服务
书中还有很多错误，希望能有勘误。
下面需要看一下算法或者深入机器学习的书籍，数据的获取和处理，我想作为一个数学系的学生，重点是如何Learning，如何去特征提取，Python的编程只是加分项，我也只把Python作为唯一的编程工具，源码需要学习。

人生苦短，快用Python

水冰玲 2016-03-04 16

似乎所有的“分号”都应该是“冒号”

Brucie 2016-06-05 5

很好的一本书

陌上嫣然 2016-04-25 4

用python3讲一个完整的数据爬取和清洗的过程

说书人 2016-04-23 2

真的很合适入门的同学

WP花园 2016-12-12 1

我要写长评

Python网络数据采集

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读