人生苦短，快用Python_Python网络数据采集书评-查字典图书网

开学没到2周，这本书已经读完，写的非常细致，也很基础，只有英文版本的，但是写的很口语化，其中还有很多joke，如果你想入门爬虫，推荐这本书。
略去安装的细节，此书使用的是Py3.
第一，二章直接推荐大家使用BeautifulSoup来解析网页，个人觉得最好用的还是lxml，但是本书并没有讲到。BS的使用分为三个步骤，创建，搜索，访问。直接引用标签只会返回第一个匹配的element，你如果想要返回多个那么就要使用find_all，如果限制访问个数择则有一个limit属性，如果访问标签不存在则会返回None,但是如果继续访问这个不存在标签的属性，则会返回Error,所以使用要注意。其他的使用还有很多，例如Navigating Trees，BS最最强大的在于它支持ReEx，还有很多小的细节，访问节点的三种方式，匿名函数，最后也推荐了lxml。个人提示，当你的电脑装了lxml之后，在使用Bs创建对象的时候，加上html的解析器属性--html.parser
第三章，爬虫的基础，算是前面讲解的实战。
第四章，使用API爬取信息，可以省略大部分，后面关于JSON的解析有必要注意一下，loads，jumps直接对于Json格式和字典的转换。
第五章，存储数据，介绍了CSV(comma-separated values)，以及MySQL，MySQL的使用可以专门去学习，而且很重要。Py2中是用MySQLdb库来操作数据库，在Py3中则换用PyMySQL，最后则是讲解了使用smtplib来发送Email，因人而异的功能。
第六章，文本的操作，手先讲解了编码的处理，decode > unicode > encode，utf8只是unicode的编码实现方式。首先是如何处理CSV文件（CSV），然后PDF（pdfminer）及docx（zipfile）
第七章，高阶爬虫的技巧，也是我看本书的最终目的。本章着重讲解数据的清洗，使用正则，或者repalce一下，其实python的numpy或者pandas在这方面已经很优秀。同时本书介绍了专门的软件按OpenRefine.
第八章，马尔可夫模型生成伪随机文本，还介绍了NLTK工具包，这个英文支持良好，中文不了解。
第九章，模拟登录，使用强大的requests。保持登录使用session来访问，最后稍微讲解了Auth。
第十章，Js解析，使用selenium和PhantomJS来解析网页，通过调用API来实现一些操作，最后处理了客户端Js重定向问题，服务器端不用担心，因为Python的内置库文件自动执行
第十一章，图像识别，反爬虫机制的发展是不断上升的过程。在CAPTCHAs可以使用PIL简单识别，或者使用Tesseract来模拟训练，图像识别或者说OCR本身就是很大的方向，可忽略
第十二章，避免爬虫陷阱，介绍一些坑爹的页面反爬虫机制及处理方式
第十三章，测试技巧，使用unittest或selenium测试
第十四章，IP限制使用Tor,但是国内被墙制作了解，及使用Google或者AWS的云服务
书中还有很多错误，希望能有勘误。
下面需要看一下算法或者深入机器学习的书籍，数据的获取和处理，我想作为一个数学系的学生，重点是如何Learning，如何去特征提取，Python的编程只是加分项，我也只把Python作为唯一的编程工具，源码需要学习。