这本书还不错的,很适合数学基础不算太好(当然也还是要一定的数学基础),又想了解数据挖掘这个领域的读者。或者有实际的项目需求,但又没有足够的时间去深入了解这个领域的实践者。
不过我每次看到有人说它把艰涩的数学讲的很通俗、进而认为那些写满数学公式的书是故弄玄虚这样的说法时就觉得很反胃口。但这种说法很普遍,不论是在这里还是在Amazon.com。
数学从某种程度上说就是一门语言,能够让复杂的概念和关系用严谨而简洁的方式表达出来。就好比有了"操作系统"这样的专业术语,你在跟别人交谈的时候就不用说"我的软件是运行在另外一个管理内存、进程、文件等的底层系统之上"这样罗索而充满歧义的话一样。想进入一个新的圈子,就必须懂得这个圈子的语言,这是显而易见的事情。所以每个领域都有自己的一些专业术语,而数学的一些分支就是数据挖掘或机器学习这个圈子的语言的重要组成部分。
集体智慧编程这本书能够让你在掌握很少的数学知识时,仍然能够掌握一定的数据挖掘技能。不管是为了应对紧迫的项目压力,或是培养这个领域的兴趣,把它作为入门书,都是一个不错的选择。但如果要根据不同的应用设计自己的算法,而不是仅仅拷贝别人的算法,那么掌握数学语言并进行更深入的学习显然是非常必要的。
@ Chen_1st
多謝指路。
你寫道:
“
用到什么学什么的问题是基础总觉得不扎实。
”
我個人有個比喻是:用到什麼學什麼好比是 top down(fundamental science 是 bottom, applied science 是 top),一步一步從基礎學好比是 bottom up。
同時做 top down 和 bottom up 的學習是最理想的。“止觀雙運”。但是,很難有足夠的時間。大悲大悲。
@ Chen_1st (大写西爱吃一嗯下划线1爱斯替)
你寫道:
“
但如果要根据不同的应用设计自己的算法,而不是仅仅拷贝别人的算法,那么掌握数学语言并进行更深入的学习显然是非常必要的。
”
那麼,請問需要深入學習哪些正宗的數學?統計學嗎?
当年美国高校悬赏经济教材,获奖的曼昆就是因为通俗易懂。经济学领域的大拿们有靠一堆数学公式与人沟通的,也有一个公式都没有的大家。
而科斯无疑是最典型的个例。科斯是学数学的,没人能怀疑他的数学功力,但是科斯交易费用理论的论文数学很少。如果能够用更多人理解的方式描述,其影响范围自然更大,获取应用创造价值的机会就更多。
美国的金融危机,原因也是金融工程的发展已经让多数人无法理解其产品,从而失去了市场矫正的机会。华尔街宽客门很多都有数学或者物理学博士学位,他们建立了越来越复杂的模型,最后精致的数学模型都可以用很美丽的数学去解释,但是就是没办法与真实的世界联系起来,结果大家都知道了。
回过头来说推荐引擎,我的数学很差,是个新丁。但是以我的观察,商业推荐引擎成败算法只是其中一个因素。只有少数的推荐引擎要用到最尖端的数学算法。而多数推荐引擎成效的提升往往依靠对用户心理的了解,更合理的用户界面设计。
比如推荐算法一个关键问题,数据噪音和数据稀疏性问题,可以用数学方式解决,也可以依靠用户行为的改善来矫正。
我理解好的推荐引擎应该是这样的:一个高效率的算法+设计很好的用户行为。所以做产品规划的时候,一定要再这两个方面着力才行。
我比较认同,数学即是业内人士沟通的统一标准与语言的说法,就好比飞机的设计符合一定的标准,不同的部件才能对接,各类的技术文档与书籍才能方便地传输思想。
但数据挖掘是一个普及面很广的领域,不单研究人员,专业人士在用,在研究。还有大量对数学兴趣不大的程序员在用或者想用。也许只是想实现一个简单的功能,而并不需要深入细究与改进。对于这个规模其实很大的人群以及这样简单的应用目的,我觉得这样的书是很有价值的。更何况,美国人似乎比中国人更不喜欢数学:),所以写这样的书的通常也是美国人。这样的书拿回来与国内一些满篇数学公式的“编著”相比,让国人爱不释卷也是合乎情理的。