开始从Web开发转向了网络爬虫的方向,然后在书店一个特偶然的机会,就看到了这本书,由于这是国内唯一一本关于网络爬虫的书,所以想也没想就买下了。
其实我原本是很不信任中国人写的书的,不过最近看了一些比如《Javascript王者归来》,再追溯到很久以前的《你所知道的.NET》,我发现其实国人写的书也是不错的。通俗易懂,而且还相对的比较有深度。
但是买了这本,我的信任再度跌倒谷底。
我想看爬虫多线程的实现如何能达到最优,你给我将Java多线程的语法干嘛啊!
我想看文本过滤的算法,你给我讲HTMLParse的类库干嘛啊!
我想看一些算法,你丫的干脆把数学之美一个字不差的给抄上了!
我想看分布式爬虫,你把Google的论文干脆给写到上面了,我想看GFS,想看Bigtable自己查好不好.....
我现在唯一怀疑的就是一件事了,书里抄的这些东西,你丫的自己真的理解了么?
我草了!
网络爬虫 互助交流 OCR与网络爬虫群: 195740865
有条件的可以参加猎兔网络爬虫开发培训课程,课程内容成熟,已经给很多学员讲过。讲解httpclient最新版本。
js王者归来就是一个笑话,作者貌似想秀很多他以为自己知道的东西,但是表述能力太差,知识没有一个进度,并不是一本好书。js还是周爱民那本好,国内无出其右
这本书有些部分可以看成是相关学习材料的汇编。当初写的时候就想:不需要读者再查许多其他的材料,看附录中的参考书籍。
这本书可能不太适合当作一个消遣性的读物,而是面向Java开发人员开发爬虫入门用。
当然,爬虫相关的实践经验是需要增加。对作者而言,更多的经验在对抓下来的信息的加工。