其实还是比较推荐的
2012-05-11
最近埋头苦看各种搜索引擎原理的书籍,当然我是一个入门者,所以从入门者的角度来说几句吧~
首先我的背景是给老外打工,所以几乎都是英文,挑选这本书仅仅是偶然,其实我想找的是另外一本 《信息检索实践》,在误点的情况下下载了本书,然后读完了,通读一遍的感觉是里面还不是很深入。
个人感觉搜索引擎的重点有三个:划词,搜索,抓取。
划词是最难的,个人感觉是最难的,因为不论从中文还是英文来说,各种的动词数词和名词都是比较难以掌控,简单点举个例子“google”是一个新生词,很多人用google代表搜索,用百度同样也可以代表搜索,在这种情况下,划词是最困难的……而电脑搜索和图书馆搜索的最大不一样在于图书馆是既定的,但是电脑是无限扩张。但是这本书里面其实并没有很详细的说这种东西,这种东西如果要说,其实也不只有300页就能讲完了吧。
排序,其实这玩意就是数学,加权神马的谁最高谁排第一,问题是怎么算这个值。这段部分其实作者也结合了各种划词的原理,来讨论各种词的属性之类,不过还不是很详细。
搜索是最接近程序员的,从一开始的SQL的各种select语句开始,就开始接触到了搜索,不过搜索引擎的搜索是以文档为基础的,而非以数据库。本书里面提到一个新的东西叫BigTable,我从来没有接触过,但是个人感觉和Linux的系统很相似,BigTable是一种基于文档结构而开发的带有数据检索功能的文档系统(怎么这么绕?)好吧,反正就是很好玩啦。
最近在接触的是NOSQL的数据库,也是大型的文档型数据库,正在尝试两者互相融入,因为数据流量并非只有100000这么少,日常的IO工作保守估计也会很大量,暂时还没做测试,所以不表。
最后一点就是抓取,花了大量篇幅来说抓取工作,从URL的角度,从页面链接的角度。对于这个我比较外行,所以我根本不知道我该说什么……因为什么都很重要,人工智能也不过如此吧。
最后的最后,欢迎交流,请勿吐槽,随笔于TUE图书馆。