Python自然语言处理

内容简介：

《Python自然语言处理》准备了充足的示例和练习，可以帮助你：

从非结构化文本中抽取信息，甚至猜测主题或识别“命名实体”；

分析文本语言结构，包括解析和语义分析；

访问流行的语言学数据库，包括WordNet和树库(treebank)；

从多种语言学和人工智能领域中提取的整合技巧。

《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作，你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。

作者简介：

Steven Bird是墨尔本大学计算机科学和软件工程系副教授，以及宾夕法尼亚大学语言数据联合会高级研究助理。

克莱因是爱丁堡大学信息学院语言技术教授。

洛普最近从宾夕法尼亚大学获得机器学习自然语言处理博士学位，目前是波士顿BBN Technologies公司的研究员。

目录：

Preface

1.Language Processing and Python

1.1 Computing with Language： Texts and Words

1.2 A Closer Look at Python： Texts as Lists of Words

1.3 Computing with Language： Simple Statistics

1.4 Back to Python： Making Decisions and Taking Control

1.5 Automatic Natural Language Understanding

1.6 Summary

1.7 Further Reading

1.8 Exercises

2.Accessing Text Corpora and Lexical Resources

2.1 Accessing Text Corpora

2.2 Conditional Frequency Distributions

2.3 More Python： Reusing Code

2.4 Lexical Resources

2.5 WordNet

2.6 Summary

2.7 Further Reading

2.8 Exercises

3.Processing Raw Text

3.1 Accessing Text from the Web and from Disk

3.2 Strings： Text Processing at the Lowest Level

3.3 Text Processing with Unicode

3.4 Regular Expressions for Detecting Word Patterns

3.5 Useful Applications of Regular Expressions

3.6 Normalizing Text

3.7 Regular Expressions for Tokenizing Text

3.8 Segmentation

3.9 Formatting： From Lists to Strings

3.10 Summary

3.11 Further Reading

3.12 Exercises

4.Writing Structured Programs

4.1 Back to the Basics

4.2 Sequences

4.3 Questions of Style

4.4 Functions： The Foundation of Structured Programming

4.5 Doing More with Functions

4.6 Program Development

4.7 Algorithm Design

4.8 A Sample of Python Libraries

4.9 Summary

4.10 Further Reading

4.11 Exercises

5.Categorizing andTagging Words

5.1 Using a Tagger

5.2 Tagged Corpora

5.3 Mapping Words to Properties Using Python Dictionaries

5.4 Automatic Tagging

5.5 N-Gram Tagging

5.6 Transformation-Based Tagging

5.7 How to Determine the Category of a Word

5.8 Summary

5.9 Further Reading

5.10 Exercises

6.Learning to Classify Text

6.1 Supervised Classification

6.2 Further Examples of Supervised Classification

6.3 Evaluation

6.4 Decision Trees

6.5 Naive Bayes Classifiers

6.6 Maximum Entropy Classifiers

6.7 Modeling Linguistic Patterns

6.8 Summary

6.9 Further Reading

6.10 Exercises

7.Extracting Information from Text

7.1 Information Extraction

7.2 Chunking

7.3 Developing and Evaluating Chunkers

7.4 Recursion in Linguistic Structure

7.5 Named Entity Recognition

7.6 Relation Extraction

7.7 Summary

7.8 Further Reading

7.9 Exercises

8.Analyzing Sentence Structure

8.1 Some Grammatical Dilemmas

8.2 Whats the Use of Syntax?

8.3 Context-Free Grammar

8.4 Parsing with Context-Free Grammar

8.5 Dependencies and Dependency Grammar

8.6 Grammar Development

8.7 Summary

8.8 Further Reading

8.9 Exercises

9.Building Feature-Based Grammars

9.1 Grammatical Features

9.2 Processing Feature Structures

9.3 Extending a Feature-Based Grammar

9.4 Summary

9.5 Further Reading

9.6 Exercises

10.Analyzing the Meaning of Sentences

10.1 Natural Language Understanding

10.2 Propositional Logic

10.3 First-Order Logic

10.4 The Semantics of English Sentences

10.5 Discourse Semantics

10.6 Summary

10.7 Further Reading

10.8 Exercises

11.Managing Linguistic Data

11.1 Corpus Structure： A Case Study

11.2 The Life Cycle of a Corpus

11.3 Acquiring Data

11.4 Working with XML

11.5 Working with Toolbox Data

11.6 Describing Language Resources Using OLAC Metadata

11.7 Summary

11.8 Further Reading

11.9 Exercises

Afterword： The Language Challenge

Bibliography

NLTK Index

General Index

很好的一本书

reedboat 2013-04-27 0赞

不过书中还用了一部分篇幅穿插讲解python最基础的编程技术，就不太让人理解了。读这种书肯定是先对python有一定的了解了。这一点有点定位不清啊。整体的还是很不错的。为什么发表不了，抱怨我评论太短。 150字还短么

结合Python语言特性学习NLP，还不错

流镡随语 2014-03-01 0赞

结合Python的语言特性，循序渐进介绍了很多自然语言处理方面的知识，以及如何使用nltk进行NLP。再次体会到Python在文本处理方面有着很多先天优势。
不过，如果Python较为熟悉，这本书的很多章节可以略过。

Python自然语言处理

涅瓦纳 2014-05-07 0赞

《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍，该领域涵盖从文本和电子邮件预测过滤，到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中，你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集，理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习，可以帮助你：
从非结构化文本中抽取信息，甚至猜测主题或识别“命名实体”；
分析文本语言结构，包括解析和语义分析；
访问流行的语言学数据库，包括WordNet和树库(treebank)；
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作，你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。

自然语言处理推荐

J.H 2014-06-14 0赞

NLTK入门好书，基本就是官方文档的部分集合（定位于入门所以很多内容没涉及到），不过添加了很多Python语言方面的东西，对于非计算机专业的人相当友好。

Python 只要解决了中文问题用起来真是爽，Python 3似乎已经解决了，可惜很多算法库都没有3的版本，所以还是老老实实各种hack各种转换老老实实用2吧……

在这本书的带动下，我有点喜欢上了自然语言处理

捂汗县长 2013-07-08 5赞

现在的研究方向是NLP，由于以前没有相关的基础知识（特别是数学很差劲），导致学习起来觉得困难重重。后来了解到Python语言在NLP领域有较好的应用空间，于是就学习了Python的基础知识，然后就发现了此书的中文翻译版，于是打印出来认真拜读。它的特点是：实例多（虽然木有中文方法的实例），条理清楚，涵盖面广（NLP领域的基本方面都所涉及），所以它的帮助下，我现在感觉自己慢慢入门了，对NLP有了一点儿好感了，希望这种好感继续发酵。

不得不羡慕英文相比中文对计算机处理的友好程度

casanova80 2011-02-20 7赞

粗略的看了一遍，最后几章几乎就是过了一眼。
有很多知识是暂时看不懂，过一段时间需要重读一遍。

没有提到中文的处理。不过大体的流程和原理应该是差不多的，书里提到了以下的技术，中文处理应该也同样需要，把看到大概的内容记录如下

1.Tokenize
2.Tagging，也就是给出词性标注，名词，动词，介词，形容词等等
这里提到了几种方法
简单的一种就是根据构词规则来做，比如ing结尾是动名词，ed结尾是动词过去式，es结尾是名词复数，等等，当然这样有不少缺陷。
也一种方法叫N-Gram Tagging，依据相连词的词性来确定，N=2，那就是2-gram，也叫bigram，比如两个句子 I read the book。I book the room。想要确定两个book的词性，通过学习发现在限定词后的book经常是名词，而在人称代词后的book经常是动词，于是就能区分这两个book的词性。
3.用文本的Features来做Classification
这一章里有个例子，统计情态动词的数量来区分文章的种类，发现
will使用频率最高的news，could用得最多的是romance，science这些词都相对比较少
4.IE，Information Extraction，主要是抽取非结构化文本中的信息组成结构化的信息
这里主要做的是Entity Recognition，处理的过程叫Chunking，然后再是Relation Recognition。
把标注好词性的token根据一些语法规则拼成更大单元的Chunk，有的是名词短语Noun Phrase Chunking，有的是动词 Verb Phrase Chunking，如果是名字还要做分类：人名，地点，时间，机构等，再用动词短语来确定他们之间的关系
后面的几章我没有再详细看了

与NLTK关系暧昧的书

盐汤儿 2009-05-25 19赞

    记得2007年上半年，最初读到这本书的时候还是草稿，用了整个一个暑假来仔细研究这本书，现在已经和以前的有很大不同了！
如果你要是自然语言学或语言信息处理相关专业的学生，又对python与nltk感兴趣的话，就看这本书吧，可以当做入门读物来看，整本书即涉及到了语料库的操作，也对传统的基于规则的方法有所涉及。全书包括了分词（tokenization）、词性标注（POS）、语块（Chunk）标注、句法剖析与语义剖析等方面，是nlp中不错的一本实用教程。
    当然缺点还是有的。算是鸡蛋挑骨头吧。首先、对理论介绍不够，这可能与本书实用性很强的写作风格有关，如果你要想了解更多的理论，可以看专门讲理论的书籍；其次、对中文介绍不多，bird好像是澳洲人……所以，如果各位要是想为中文信息处理做贡献的话，还是在看本书的同时，看看中文的paper吧，网上资料很多，不多说了；另外，这本书可能并不能涉及到NLTK中的全部模块与语料，所以在研究时，可借助NLTK的网站文档来学习。
    这本书最早是作为NLTK的在线教程出现的，每次都随着NLTK的变化来改变，所以与NLTK关系很是“暧昧”，呵呵。总之，这本书可以说是学习NLTK的不二之选！

与NLTK关系暧昧的书

盐汤儿 2009-05-25 19

不得不羡慕英文相比中文对计算机处理的友好程度

casanova80 2011-02-20 7

在这本书的带动下，我有点喜欢上了自然语言处理

捂汗县长 2013-07-08 5

很好的一本书

reedboat 2013-04-27 0

结合Python语言特性学习NLP，还不错

流镡随语 2014-03-01 0

Python自然语言处理

涅瓦纳 2014-05-07 0

自然语言处理推荐

Python自然语言处理

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读