内容简介

  自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。《面向机器学习的自然语言标注》重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对新研究进展的综述,同时还结合了作者(JamesPustejovsky,生成词库理论的创始人)多年的研究成果。《面向机器学习的自然语言标注》内容全面、详略得当,结合实例讲解,使读者更易理解。

作者简介

  JamesPustejovsky教授是美国布兰代斯(BrandeisUniversity)大学计算机科学系和Volen国家综合系统中心教授。先后在美国麻省理工学院和马萨诸塞大学获得学士学位和博士学位。Pustejovsky教授主要从事自然语言的理论和计算研究。研究领域包括:计算语言学、词汇语义学、知识表征、话语语义学、时间推理和抽取等。已经出版多部专著。

目录

前言1
第1章基础知识7
1.1语言标注的重要性7
1.1.1语言学描述的层次8
1.1.2什么是自然语言处理9
1.2语料库语言学简史10
1.2.1什么是语料库13
1.2.2语料库的早期应用15
1.2.3当今的语料库17
1.2.4标注类型18
1.3语言数据和机器学习24
1.3.1分类25
1.3.2聚类25
1.3.3结构化模式归纳26
1.4标注开发循环26
1.4.1现象建模27
1.4.2按照规格说明进行标注30
1.4.3在语料库上训练和测试算法31
1.4.4对结果进行评价32
1.4.5修改模型和算法33
总结34
第2章确定目标与选择数据36
2.1定义目标36
2.1.1目标陈述37
2.1.2提炼目标:信息量与正确性38
2.2背景研究43
2.2.1语言资源44
2.2.2机构与会议44
2.2.3自然语言处理竞赛45
2.3整合数据集46
2.3.1理想的语料库:代表性与平衡性47
2.3.2从因特网上收集数据47
2.3.3从人群中获取数据48
2.4语料库的规模49
2.4.1现有语料库50
2.4.2语料库内部的分布51
总结53
第3章语料库分析54
3.1语料库分析中的基本概率知识55
3.1.1联合概率分布56
3.1.2贝叶斯定理58
3.2计算出现次数58
3.2.1齐普夫定律(Zip'sLaw)61
3.2.2n元语法62
3.3语言模型63
总结65
第4章建立模型与规格说明66
4.1模型和规格说明示例66
4.1.1电影题材分类69
4.1.2添加命名实体70
4.1.3语义角色71
4.2采用(或不采用)现有模型73
4.2.1创建模型和规格说明:一般性与特殊性74
4.2.2使用现有模型和规格说明76
4.2.3使用没有规格说明的模型78
4.3各种标准78
4.3.1ISO标准78
4.3.2社区驱动型标准81
4.3.3影响标注的其他标准81
总结82
第5章选择并应用标注标准84
5.1元数据标注:文档分类85
5.1.1单标签标注:电影评论85
5.1.2多标签标注:电影题材87
5.2文本范围标注:命名实体90
5.2.1内嵌式标注90
5.2.2基于词例的分离式标注92
5.2.3基于字符位置的分离式标注95
5.3链接范围标注:语义角色96
5.4ISO标准和你97
总结97
第6章标注与审核99
6.1标注项目的基本结构99
6.2标注规格说明与标注指南101
6.3准备修改102
6.4准备用于标注的数据103
6.4.1元数据103
6.4.2数据预处理104
6.4.3为标注工作分割文件104
6.5撰写标注指南105
6.5.1例1:单标签标注——电影评论106
6.5.2例2:多标签标注——电影题材108
6.5.3例3:范围标注——命名实体111
6.5.4例4:链接范围标注——语义角色112
6.6标注人员114
6.7选择标注环境116
6.8评价标注结果117
6.8.1Cohen的Kappa(κ)算法118
6.8.2Fleiss的Kappa(κ)算法119
6.8.3解释Kappa系数122
6.8.4在其他上下文中计算κ值123
6.9创建黄金标准(审核)125
总结126
第7章训练:机器学习129
7.1何谓学习130
7.2定义学习任务132
7.3分类算法133
7.3.1决策树学习135
7.3.2朴素贝叶斯学习140
7.3.3最大熵分类器145
7.3.4其他需要了解的分类器147
7.4序列归纳算法148
7.5聚类和无监督学习150
7.6半监督学习150
7.7匹配标注与算法153
总结154
第8章测试与评价156
8.1测试算法157
8.2评价算法157
8.2.1混淆矩阵157
8.2.2计算评价得分159
8.2.3解释评价得分163
8.3可能影响算法评价的问题164
8.3.1数据集太小164
8.3.2算法过于适合开发数据166
8.3.3标注中的信息过多166
8.4最后测试得分167
总结167
第9章修改与报告169
9.1修改项目170
9.1.1语料库分布和内容170
9.1.2模型和规格说明170
9.1.3标注171
9.1.4训练和测试172
9.2报告工作173
9.2.1关于语料库174
9.2.2关于模型和规格说明175
9.2.3关于标注任务和标注人员175
9.2.4关于ML算法176
9.2.5关于修改177
总结177
第10章标注:TimeML179
10.1TimeML的设计目标180
10.2相关研究181
10.3建设语料库182
10.4模型:初步的标注规格说明183
10.4.1时间183
10.4.2信号184
10.4.3事件184
10.4.4链接184
10.5标注:最初的尝试185
10.6模型:TimeBank中的TimeML标注规格说明185
10.6.1时间表达式185
10.6.2事件186
10.6.3信号187
10.6.4链接187
10.6.5可信度189
10.7标注:TimeBank的产生189
10.8TimeML成为ISO-TimeML192
10.9对未来建模:TimeML的发展方向193
10.9.1叙事容器194
10.9.2将TimeML扩展到其他领域195
10.9.3事件结构196
总结197
第11章自动标注:生成TimeML199
11.1TARSQI组件200
11.1.1GUTime:时间标志识别201
11.1.2EVITA:事件识别及分类201
11.1.3GUTenLINK202
11.1.4Slinket204
11.1.5SputLink204
11.1.6TARSQI组件中的机器学习205
11.2TTK的改进206
11.2.1结构变化206
11.2.2时间实体识别改进:BTime207
11.2.3时间关系识别207
11.2.4时间关系验证208
11.2.5时间关系可视化209
11.3TimeML竞赛:TempEval-2209
11.3.1TempEval-2:系统概述210
11.3.2成果综述213
11.4TTK的未来213
11.4.1新的输入格式213
11.4.2叙事容器/叙事时间214
11.4.3医学文档215
11

前言/序言

  前言  《面向机器学习的自然语言标注》的读者是那些使用计算机来处理自然语言的人。自然语言是指人类所说的任何一种语言,可以是当代语言(如英语、汉语、西班牙语),也可以指过去曾经使用过的语言(如拉丁语、古希腊语、梵语)。标注(annotation)是一个过程,它通过向文本中加入元数据来增强计算机执行自然语言处理(NaturalLanguageProcessing,NLP)的能力。特别地,我们考察如何通过标注将信息加入自然语言文本中以便改善机器学习(MachineLearning,ML)算法(一组设计好的计算机程序,它从文本提供的信息中推出规则,目的是将这些规则用于将来未标注的文本中)的性能。  面向机器学习的自然语言标注《面向机器学习的自然语言标注》详细介绍创建自己的自然语言标注数据集(称为语料库)所需的各个阶段和过程,以便为基于语言的数据和知识发现训练机器学习算法。《面向机器学习的自然语言标注》的总体目标是为读者展示如何创建自己的语料库。从选择一个标注任务开始,然后创建标注规格说明(annotationspecification)、设计标注指南(annotationguideline)、创建一个“黄金标准”语料库(corpus),最后采用这个标注过程开始创建实际的数据。  标注过程并不是线性的,因此需要多次迭代来定义任务、标注和评价,以便得到最佳结果。这一过程可以概括为MATTER标注开发过程:建模(Model)、标注(Annotate)、训练(Train)、测试(Test)、评价(Evaluate)、修改(Revise)。《面向机器学习的自然语言标注》引导读者遍历整个循环,提供详细的例子并完整地讨论几种不同类型的标注任务。详细地研究这些任务,使读者清楚地了解其中的来龙去脉,并为他们自己的机器学习任务奠定基础。  此外,《面向机器学习的自然语言标注》列出了用于标注文本和评审标注的常用软件的访问和使用指南。尽管有许多标注工具可用,但《面向机器学习的自然语言标注》采用的多用途标注环境(MultipurposeAnnotationEnvironment,MAE)特别易于安装和使用(读者可以免费下载),读者不会因为令人困惑的文档而分心。经常与MAE一起使用的是多文档审核接口(MultidocumentAdjudicationInterface,MAI),它用于在标注的文档之间进行比对。读者《面向机器学习的自然语言标注》写给所有对用计算机研究自然语言所传递的信息内容感兴趣的人。阅读《面向机器学习的自然语言标注》,并不要求具有编程或语言学背景,但若对脚本语言(如Python)有基本的理解将更易于理解MATTER循环,因为书中的一些示例代码是用Python写的。如果你从未用过Python,强烈地向你推荐由StevenBird、EwanKlein和EdwardLoper所著的《NaturalLanguageProcessingwithPython》(Python自然语言处理)一书(O扲eilly)。该书是一本优秀的关于Python和自然语言处理的入门教材,《面向机器学习的自然语言标注》并未涉及这些知识。  如果读者已具备XML(或者HTML)等标记语言的基础知识,将能够更好地理解和掌握《面向机器学习的自然语言标注》。你不需要成为深入了解XML原理的专家,但是由于绝大多数标注项目都使用某种形式的XML对标签进行编码,因此我们在《面向机器学习的自然语言标注》中将使用XML标准来提供标注样例。不是一定得成为网页设计师才能理解《面向机器学习的自然语言标注》,但是具有关于标签和属性的知识对于理解标注项目是如何实现的将会有较大的帮助。  内容安排第1章简单回顾了语言标注和机器学习的历史,简要介绍了将标注任务用于不同层次语言学研究的多种方法。《面向机器学习的自然语言标注》的其余部分带领读者遍历整个MATTER循环,从第2章介绍如何创建一个合理的标注目标开始,历经每个阶段,直到评价标注和机器学习阶段的结果,第9章讨论修改项目并汇报工作。最后两章完整地介绍了一个标注项目,以及如何用机器学习和基于规则的算法重新创建标注。读者可以在书后的附录中找到对自己的标注任务有用的资源列表。  软件需求虽然不运行书中给出的任何示例代码也可以学习《面向机器学习的自然语言标注》,但我们强烈推荐至少安装自然语言工具包(NaturalLanguageToolKit,NLTK)以便理解涉及的机器学习技术。NLTK当前支持Python2.4~2.7(Python3.0直到《面向机器学习的自然语言标注》完成时尚未被支持)。想了解更多信息,请参考http://www.nltk.org。《面向机器学习的自然语言标注》中的所有示例代码都在交互式Pythonshell编程环境中运行。关于如何使用这一环境,请参阅http://docs.python.org/tutorial/interpreter.html。如果没有特别说明,假设在所有的示例代码前使用命令importnltk。  《面向机器学习的自然语言标注》约定在《面向机器学习的自然语言标注》中使用以下排版方式:斜体(Italic)此类字体表示新术语、网址(URL)、电子邮件地址,文件名和文件扩展名。  等宽字体(Constantwidth)此类字体表示程序清单,以及在文档段内的各种程序元素(如变量名或函数名、数据库名、数据类型、环境变量、语句和关键字)。注意:表示一个提示、建议或一般性的注解。  警告:表示一个警告或注意事项。  使用代码示例《面向机器学习的自然语言标注》在这里帮助你完成你的工作。总的来讲,你可以在你的程序和文档中使用《面向机器学习的自然语言标注》中的代码。你不需要联系我们以征得许可,除非你正在复制代码中的重要部分。比如,使用书中的多段代码写一个程序并不需要获得许可。  若将O扲eilly公司出版的书中的例子制成光盘来销售或发行则需要获得许可。在回答问题时,引用《面向机器学习的自然语言标注》和列举书中的例子代码并不需要许可。把《面向机器学习的自然语言标注》中的代码作为你的产品文档的重要部分时需要获得许可。

其他推荐