不得不羡慕英文相比中文对计算机处理的友好程度_Python自然语言处理书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 算法 > Python自然语言处理 > 不得不羡慕英文相比中文对计算机处理的友好程度
casanova80 Python自然语言处理 的书评 发表时间:2011-02-20 22:02:58

不得不羡慕英文相比中文对计算机处理的友好程度

粗略的看了一遍,最后几章几乎就是过了一眼。
有很多知识是暂时看不懂,过一段时间需要重读一遍。

没有提到中文的处理。不过大体的流程和原理应该是差不多的,书里提到了以下的技术,中文处理应该也同样需要,把看到大概的内容记录如下

1.Tokenize
2.Tagging,也就是给出词性标注,名词,动词,介词,形容词等等
这里提到了几种方法
简单的一种就是根据构词规则来做,比如ing结尾是动名词,ed结尾是动词过去式,es结尾是名词复数,等等,当然这样有不少缺陷。
也一种方法叫N-Gram Tagging,依据相连词的词性来确定,N=2,那就是2-gram,也叫bigram,比如两个句子 I read the book。I book the room。想要确定两个book的词性,通过学习发现在限定词后的book经常是名词,而在人称代词后的book经常是动词,于是就能区分这两个book的词性。
3.用文本的Features来做Classification
这一章里有个例子,统计情态动词的数量来区分文章的种类,发现
will使用频率最高的news,could用得最多的是romance,science这些词都相对比较少
4.IE,Information Extraction,主要是抽取非结构化文本中的信息组成结构化的信息
这里主要做的是Entity Recognition,处理的过程叫Chunking,然后再是Relation Recognition。
把标注好词性的token根据一些语法规则拼成更大单元的Chunk,有的是名词短语Noun Phrase Chunking,有的是动词 Verb Phrase Chunking,如果是名字还要做分类:人名,地点,时间,机构等,再用动词短语来确定他们之间的关系
后面的几章我没有再详细看了

展开全文
有用 7 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“不得不羡慕英文相比中文对计算机处理的友好程度”的回应

豆瓣专家 2016-09-27 14:16:51

计算机+软件 本来就是英文世界的

冬菇瘦肉 2013-08-28 23:14:15

同意,并研究中文NLP的老师好少--

小夫 2012-04-06 13:40:45

同意标题