麻烦支那猪以后翻译外文书籍,先找个稍微懂行的把书看一遍行吗!
鉴于中文翻译缩水不准的情况,本掉千辛万苦找来英文原版,一看到目录,本屌就硬了,尼玛作者太牛逼了!
最新补充一句,话说如果这本书的名字叫做类似《数据挖掘基础》的话,本屌绝壁不喷它。本来就是基础的基础,名字介绍扯那么大旗子干嘛,又没那本事。
MAP-REDUCE,30页搞定
相似查找,50页搞定
流式数据挖掘,30页搞定(这尼玛可是流式数据挖掘啊,比MR更新的挖掘技术,居然比MR还少!)
链接分析,30页搞定
频繁项集,40页搞定
聚类,40页搞定
在线广告,20页搞定
推荐系统,30页搞定(尼玛作者你是人才呀,国外的网站为了研究推荐系统,出了无数的PAPER,到你这里就剩15张纸了!)
分析社会化网络,40页搞定
降维,30页搞定(尼玛你当你在玩单机版吗!)
大尺度机器学习,40页搞定(吐血啊,这尼玛尺度真鸡巴大!)
接下来,本屌顶着半身不遂的身躯,内心抵抗者撕烂这本书的诱惑,继续坚持往下翻,本地屌是在是受不了了。
MR,全文一行伪代码不见,例子一个没有,连Word Count都懒得写了,看了这书鬼才知道MR怎么用。
相似查找,话说照这本书上说的做,你绝壁死翘翘了,连GOOGLE最经典的高性能雷同文章查找的算法都不介绍,你这章是在搞毛啊。另外,SOLR,LUCENE可以说是现在比较简单的相似文章查找利器,本文居然不介绍相关内容,你TMD当内存不要钱呀!
流式数据挖掘,作者大姨妈,您老人家知道有个东西叫S4不!
链接分析,看了你这章要是能懂的,GOOGLE的大婶都要给你跪了。
频繁项分析,这大概是数据挖掘当中出现最早的分支了,没想到您老人家居然才达到罗列的地步,倒。。。
聚类,这章真心写得垃圾,基本算法都没写全,高性能聚类P也没讲,尼玛,你会玩个单机玩具就当自己牛逼了啊!
在线广告,话说在先广告是其中一个主要的流式计算的应用方面,并且是现在最前沿的技术(什么MR都已经算是几年前的过失技术了,现在都烂了),作者你TMD好意思啊,看看你都写了啥!照你写的做那还不把内裤都赔光了啊.
推荐系统,尼玛NETFILX都是6-7年前的破事情了,你还当个宝啊,现在推荐系统最大的问题就是实时性的问题,解决办法就是流式计算,话说您老人家对流式计算那可以说是一无所知!
社会化网络,这个懒得吐槽了
降维,现在需要用到降维的,就是大规模数据,而大规模数据又必须通过并行计算才能在比较短的时间内完成庞大的计算,话说您老人家都讲到哪里去了呢,MR实现的并行降维算法呢?
大尺度机器学习,傻逼你自己玩单机区吧!
另外,本书一行代码也没有,最高深的脚本语言就是SQL,不会写代码你玩个球的MR,你玩个球的并行计算,你玩个球的大数据呀!
MLGB的,这本书的作者是个骗子,译者是个傻逼,引进者脑子被门夹了。
傻逼楼主要喷翻译就喷,扯什么支那猪,你父母不是中国人?日本人批评自己会说别的日本人是倭狗吗。20年经验还看这种基础导论书,这水平是了得的。
本书第一作者算是实力超群了,不过本书不仅使业界人不喜欢,对于初学者也不容易理解。毕竟这是斯坦福数据挖掘系列课程汇总而成,至于编程代码欠奉的确不利于上手,因此需要读者有较高的实现能力。理论部分的讲解过于浅白,与多数英文书的不厌其烦的详尽不同,这也是因为本书就是课程讲义发展出来的。至于,没有介绍很多使用中的软件或系统,则恐怕与作者们并看不上这些有关,给学生上课,讲明白原理就好了,至于实现到什么程度,单机玩还是集群玩,其实没有那么重要。当然,业界绝不能这么搞。
装逼需要几步?1、了解入门知识 2、百度专业术语 3、自吹“从业几十年” 明明就是一个初学者,顶多是个大学愤青,自以为读过几本书就很牛逼。恐怕连对口的工作都还没着落,正在考虑板砖还是当鸭,这样就在这里装逼?可笑。 不是我针你的智商,但是根据你看过的书和发表的评论分析你的历史观,可以看出你还很幼稚,顶多二十出头,悲哀。别在这里装了。
楼主喷的过火啦!
首先,翻译质量无关原书,书的宣传是否过度无关原书质量,楼主是大牛但发现错买了学生看的书很生气,也无关书的质量,这些都不应该拿来喷;第二,书的内容安排清晰,覆盖了数据挖掘的方方面面,还配有练习和每章小节,但对于我这种入门级的learner来说很方便;第三,没有过多的背景和文献综述,很适合当作讲义来读
不理解背景的人不明白书的来源于出处,给书纠错的人不知道网上有个勘误表,翻译的人不清错原著想要表达的思想,阅读的人不明白自己的定位和书的适用范围。有人抱怨整本书没有什么代码,可是这是stanford给学生量身打造的,是cs246的入门课程的配套教材,别人说的很清楚这个课程是理论,一个完整的系列是cs246/cs341。cs341才是focus on project的,这是斯坦福培养学生的系列,不是万能书。是你根据需要选择适合自己的材料,不是别人来适应你。从业20年,也应该有40多了吧,怎么TMD连起码的做人都不明白,你自称屌丝,还真是个屌丝。知识可以再学,可是培养起教养很难。
笑一个,“不写代码玩个球”。每年VLDB,ICDE上多少nb的paper,你见过几个玩“最高深的脚本语言"的,见过几个讲代码的。
MapRuduce在04年OSDI上的paper连带实验也就13页吧。
还有人家的流处理讨论的是算法级的,你偏偏扯个S4这个系统来做反例。风马牛不相及的事情。举个系统做反例也行吧,偏偏举个S4这种太监半成品,怎么不说个Twitter Storm呢?
也真难怪从业20多年,还是屌丝一个
我表示不理解为何第一句会被喷的这么厉害,用一些奇怪的词来表达对译者书上滔滔江水连绵不绝的鄙视之情,怎么就上升到人参公鸡的地步……
However,作为没修过DM即使修过也忘得差不多的前伪CSer,我可能还是会当闲书读读的
楼主淡定。仔细看了帖子,确定楼主是想喷原书作者,因为吐槽的都是内容相关,而不是翻译相关,所以烦请把枪口对准。PS:别TM装逼,“支那猪”就是侮辱性词汇。你要不是中国人,就滚的远远的,这里不欢迎;你要是中国人,那肯定就是个脑残了。
回LS,我看到有人说
“支那猪???漏竹你把日本人当年骂中国人的话拿出来骂??妈逼的脑子进水了吧!滚粗! ”
我以为LZ是在反讽。所以特意去搞搞清楚这个名词到底是不是具有侮辱性的。别好像是在跟风似的一起喷LZ。我搞搞清楚贴在这里,证明LS的没有骂错而已。
是挺无聊的,还来回你。
支那在以下三种语言中均指中国,在不同文化圈有着不同的用法和意思: 近代最常见到的用法,可能涉及歧视。
维基百科 - 支那
丝国,拉丁语Sinea的音译,为古希腊时代海航者托勒密地图上之“丝国”。
支那 (梵语),古印度以梵语cina指中国,作为汉字形式首次出现在汉传佛教经典中,遂作为汉传佛教的地理名词
支那 (日语),衍生自支那 (梵语),近代最常见到的用法,可能涉及歧视。
维基百科 - 支那人
支那人在日語中是指中國人,特別是從清朝至第二次世界大戰結束以前的「中國人」或「華人」,在華人世界該詞被認為具有侮辱性。
这本书本来就是stanford一门3字头(现在降成2字头)课程的材料编排而成的, 算是入门课性质. 课程本来就是理解概念为主, 实验平台是hadoop, 写代码的活都丢去作业了.
总的来说, 我觉得这是本定位入门者的不错的书. 从业20年的高端读者的话, 应该翻新paper和文档就足够了吧