人生苦短,快用Python_Python网络数据采集书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 编程 > Python网络数据采集 > 人生苦短,快用Python
水冰玲 Python网络数据采集 的书评 发表时间:2016-03-04 10:03:15

人生苦短,快用Python

开学没到2周,这本书已经读完,写的非常细致,也很基础,只有英文版本的,但是写的很口语化,其中还有很多joke,如果你想入门爬虫,推荐这本书。
略去安装的细节,此书使用的是Py3.
第一,二章直接推荐大家使用BeautifulSoup来解析网页,个人觉得最好用的还是lxml,但是本书并没有讲到。BS的使用分为三个步骤,创建,搜索,访问。直接引用标签只会返回第一个匹配的element,你如果想要返回多个那么就要使用find_all,如果限制访问个数择则有一个limit属性,如果访问标签不存在则会返回None,但是如果继续访问这个不存在标签的属性,则会返回Error,所以使用要注意。其他的使用还有很多,例如Navigating Trees,BS最最强大的在于它支持ReEx,还有很多小的细节,访问节点的三种方式,匿名函数,最后也推荐了lxml。个人提示,当你的电脑装了lxml之后,在使用Bs创建对象的时候,加上html的解析器属性--html.parser
第三章,爬虫的基础,算是前面讲解的实战。
第四章,使用API爬取信息,可以省略大部分,后面关于JSON的解析有必要注意一下,loads,jumps直接对于Json格式和字典的转换。
第五章,存储数据,介绍了CSV(comma-separated values),以及MySQL,MySQL的使用可以专门去学习,而且很重要。Py2中是用MySQLdb库来操作数据库,在Py3中则换用PyMySQL,最后则是讲解了使用smtplib来发送Email,因人而异的功能。
第六章,文本的操作,手先讲解了编码的处理,decode > unicode > encode,utf8只是unicode的编码实现方式。首先是如何处理CSV文件(CSV),然后PDF(pdfminer)及docx(zipfile)
第七章,高阶爬虫的技巧,也是我看本书的最终目的。本章着重讲解数据的清洗,使用正则,或者repalce一下,其实python的numpy或者pandas在这方面已经很优秀。同时本书介绍了专门的软件按OpenRefine.
第八章,马尔可夫模型生成伪随机文本,还介绍了NLTK工具包,这个英文支持良好,中文不了解。
第九章,模拟登录,使用强大的requests。保持登录使用session来访问,最后稍微讲解了Auth。
第十章,Js解析,使用selenium和PhantomJS来解析网页,通过调用API来实现一些操作,最后处理了客户端Js重定向问题,服务器端不用担心,因为Python的内置库文件自动执行
第十一章,图像识别,反爬虫机制的发展是不断上升的过程。在CAPTCHAs可以使用PIL简单识别,或者使用Tesseract来模拟训练,图像识别或者说OCR本身就是很大的方向,可忽略
第十二章,避免爬虫陷阱,介绍一些坑爹的页面反爬虫机制及处理方式
第十三章,测试技巧,使用unittest或selenium测试
第十四章,IP限制使用Tor,但是国内被墙制作了解,及使用Google或者AWS的云服务
书中还有很多错误,希望能有勘误。
下面需要看一下算法或者深入机器学习的书籍,数据的获取和处理,我想作为一个数学系的学生,重点是如何Learning,如何去特征提取,Python的编程只是加分项,我也只把Python作为唯一的编程工具,源码需要学习。

展开全文
有用 16 无用 1

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“人生苦短,快用Python”的回应

woniu 2017-02-22 15:31:48

犀利啊,数学系加上编程真不错!

137****4628 2016-10-12 15:37:42

楼主看完有没有什么实战项目啊?

艾缀奇 2016-05-26 11:44:02

写的很不错!两个typo,一个RegEx,一个json 是dumps

yuedong 2016-04-14 12:30:13

好贵啊

fan2c 2016-03-26 19:57:02

楼主总结的很好,很有帮助,也是看了楼主的介绍,买了这本书