这本书大约写了10个月的时间,如果一定要自己评价一下这本书,只能说还行。这本书基本达到了写作目标:
1. 帮助刚毕业的学生迅速了解如何将他们学到的理论用于实际
2. 帮助程序员迅速将他们的编程能力应用到推荐系统中来
3. 强调数据分析的重要性,淡化算法
4. 运用多种评测方法,强调全面评测的重要性
不过本书也有一些遗憾,如果将来会再版这本书,可以修正这些遗憾:
1. 推荐系统和搜索引擎不同,他还没有一个统一的应用场景,因此不同网站的推荐系统都有不同的特色。但是因为我主要从事视频推荐方面的研究,对于电商或者LBS,社交推荐方面的推荐还缺乏深刻的认识,只做过一些理论研究,缺乏实际动手分析的经验,所以这方面的内容相对欠缺。
2. 对并行化和大数据说的不多。本书提到的方法都是可以用于大数据,很容易通过Map-Reduce或者MPI并行化。但是本书对这些方法如何并行化说的也不多。这主要是我自认为还不能算这方面的专家,写出来可能会贻笑大方。
3. 缺乏统一的理论框架。这其实不能算本书的缺点,因为整个推荐系统看起来,除了协同过滤,很多其他算法的理论框架都不完善。此外,写这本书时的立意是要让大家看完之后觉得,靠,推荐算法就这么简单啊。所以没有运用理论化堆公式的写法。不过,如果能用简单的语言将理论的问题说清楚,那就更NB了。不过我目前还没有达到这样的功力。
最后,看到很多人说这本书和我的博士论文很像。其实这本书只有半章和我的博士论文相关,其他部分都是博士论文中完全没有的,嘿嘿。
-------
本来觉得自己评价,应该谦虚一点,打个3分就可以了。后来想想,写一本3分的书卖给读者,显然太不负责任了,于是想想还是打个4分吧。嘿嘿。
请问书中2.5节关于负样本选取的问题。大概是67页下半到68页开头。书里说取完负样本得到用户-物品集 K,对其中正样本取 r=1,否则取0。对损失函数来说取不去负样本应该 r 都是0,取负样本此时还有什么意义呢?
刚看完项大牛的书,感觉很不错,非常适合刚入门的人,而且书里面的知识还是比较全面的。建议作者能够通过博客或其他方式发一些文章让我们继续学习,而且博客文章积累后也可以整理成书。
挺好的,但是感觉很多公式符号没说清楚表示的含义,比如发现好多公式,书上说了分子中各个符号的含义,但完全不提分母中的符号的含义(虽然有些可以通过代码推测出来)
最后一句好萌。刚看了小部分,感觉干货很多。我是做推荐的工程师,但是没人带,一直都是自己瞎琢磨搞野路子,有很多实际工作中感觉很模糊的想不明白的,都在这本书里看到了很好的解释,感觉眼前清亮了很多。感谢作者。