书馨卡帮你省薪
欢迎光临中图网 请 | 注册

自动文本简化

出版社:科学出版社出版时间:2022-11-01
开本: B5 页数: 184
中 图 价:¥68.6(7.0折) 定价  ¥98.0 登录后可看到会员价
加入购物车 收藏
运费6元,满39元免运费
?新疆、西藏除外
本类五星书更多>

自动文本简化 版权信息

  • ISBN:9787030724601
  • 条形码:9787030724601 ; 978-7-03-072460-1
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

自动文本简化 内容简介

文本简化是人工智能尤其是自然语言处理方向的一个重要研究领域。本书作为该领域的专业书籍,内容上尽可能覆盖文本简化领域各种主流的研究方法和相关资源。全书共9章,包括三个主要部分:第1~4章主要介绍文本简化的研究概况、背景知识、文本可读性评估和词语简化方法;第5~7章详细讨论句子分割、统计文本简化和神经文本简化方法;第8、9章着重介绍深度学习在文本简化研究和应用中的**进展以及汉语文本简化的研究。

自动文本简化 目录

目录
新一代人工智能创新平台建设及其关键技术丛书”序
前言
第1章 绪论 1
1.1 概述 1
1.1.1 文本简化定义 1
1.1.2 文本简化发展过程 1
1.1.3 文本简化方法 3
1.1.4 相关的文本重写任务 5
1.2 文本简化语料 6
1.2.1 维基百科平行语料 7
1.2.2 Newsela语料库 10
1.2.3 英文的其他资源 13
1.2.4 三个*常用的英文平行语料的对比 16
1.2.5 其他语言的资源 16
1.3 文本简化评估 17
1.3.1 人工评估 17
1.3.2 自动评估 18
1.3.3 讨论 23
1.4 文本简化的应用 24
1.4.1 对特定目标人群的简化 24
1.4.2 自然语言处理的辅助工具 25
1.5 本书内容安排 26
第2章 背景知识 29
2.1 概述 29
2.2 统计机器翻译模型 29
2.3 神经机器翻译模型 31
2.3.1 基于端到端的模型 31
2.3.2 注意力机制 33
2.3.3 基于自注意力机制的神经网络模型 35
2.4 预训练语言模型 37
2.4.1 BERT 38
2.4.2 BART 39
2.5 本章小结 41
第3章 文本可读性评估 42
3.1 概述 42
3.2 传统的可读性公式 43
3.3 可读性评估的语料 45
3.4 可读性评估方法 47
3.4.1 可读性评估特征 47
3.4.2 基于特征工程的分类方法 51
3.4.3 神经网络分类方法 53
3.5 汉语文本的可读性评估 54
3.6 可读性评估的应用 55
3.6.1 第二语言学习者的可读性 56
3.6.2 具有语言学习障碍的读者 56
3.6.3 计算机辅助教育学习系统 57
3.6.4 Web内容的可读性评估 57
3.7 未来研究方向 58
3.8 本章小结 60
第4章 词语简化方法 61
4.1 概述 61
4.2 词语简化框架 62
4.3 词语简化方法的分类 64
4.3.1 语言数据库 65
4.3.2 自动规则 68
4.3.3 词嵌入模型 71
4.3.4 混合模型 72
4.3.5 预训练语言模型 75
4.4 方法对比 80
4.4.1 实验评估数据 80
4.4.2 候选替代词生成评估 81
4.4.3 完整的LS系统评估 82
4.4.4 讨论 83
4.5 未来研究方向 85
4.6 本章小结 86
第5章 句子分割方法 87
5.1 概述 87
5.2 基于规则的方法 88
5.2.1 早期的方法 89
5.2.2 YATS 90
5.2.3 基于事件的方法 91
5.2.4 DISSIM 93
5.3 基于神经网络模型的方法 96
5.3.1 基于事实感知的方法 96
5.3.2 基于图框架的方法 97
5.4 本章小结 100
第6章 统计文本简化方法 101
6.1 概述 101
6.2 基于短语的机器翻译方法 102
6.3 基于句法的统计文本简化方法 103
6.4 混合的方法 108
6.5 无监督的统计文本简化方法 109
6.6 本章小结 112
第7章 神经文本简化方法 113
7.1 概述 113
7.2 基于神经机器翻译的文本简化 115
7.3 强化学习机制 117
7.4 多任务学习 119
7.5 复述规则 121
7.6 程序员-解释器模型 123
7.6.1 EditNTS 123
7.6.2 程序员和解释器 124
7.6.3 编辑标签创建 125
7.7 本章小结 125
第8章 文本简化前沿研究 127
8.1 概述 127
8.2 无监督神经文本简化方法 129
8.3 无监督可编辑的文本简化方法 131
8.4 可控的句子简化方法 134
8.4.1 TargetTS 134
8.4.2 ACCESS 135
8.5 无监督的文本平行简化语料构造 136
8.5.1 基于搜索的平行语料构造 136
8.5.2 基于机器翻译语料的平行语料构造 137
8.6 零样本跨语言的文本简化 139
8.7 文本简化分析及展望 142
8.8 本章小结 144
第9章 汉语文本简化的探索 145
9.1 概述 145
9.2 背景知识 146
9.3 汉语简化语料库的构造 147
9.4 汉语文本简化方法 148
9.5 实验 151
9.5.1 评价语料库HanLS的质量 151
9.5.2 生成候选词方法的对比评价 152
9.5.3 系统评价和消融研究 153
9.5.4 误差分析 154
9.6 本章小结 155
参考文献 157

展开全部

自动文本简化 节选

第1章 绪论   文本简化(text simplification, TS)是一个任务明确、历史悠久且仍处于研究阶段的课题。本章将讲述文本简化的基本概念、发展历史,比较不同的文本简化方法,介绍常用的文本简化语料和评估方法,并介绍其相关应用。   1.1 概述   本节将介绍一些*基础的文本简化的定义、发展过程、方法和相关的任务。   1.1.1 文本简化定义   文本简化是指在保留原有文本信息的情况下,尽可能简化原有文本的内容,从而更容易被更广泛的观众阅读和理解。文本简化的过程通常包括用简单的对等词替换困难的或未知的短语,以及将长的句法复杂的句子转换成短的不太复杂的句子。   文本简化的任务是自然语言处理的一个研究分支,与计算语言学、自然语言理解之间存在密不可分的关系。文本简化通常还被当成一种单语言的机器翻译任务,许多文本简化方法都来源于机器翻译方法。   近年来,人们对自动文本简化的兴趣与日俱增,尽管已经提出了许多方法和技术,但到目前为止,自动文本简化方法和技术还远远不够完善。研究者所针对的语言数量不断增加,目前简化系统和简化研究至少存在于英语、葡萄牙语、日语、法语、意大利语、巴斯克语和西班牙语中。   1.1.2 文本简化发展过程   本节介绍文本简化方法的发展过程,如图1.1所示。1949年,文本可读性被正式地定义为文本材料中影响读者理解、阅读速度和对材料兴趣水平的所有元素的总和[1]。可读性评估的方法不断演变,从传统的通用公式(带有两个或三个变量,以及少量的专家标签数据)到基于机器学习的框架(使用聚合的、非专家众包的、从大型语料库中训练出来的文档的丰富特征表示)标签,再到不需要特征的基于深度学习的方法,都是为了更好地理解文本更深层面的语义信息。   图1.1 文本简化发展的时间轴   1996年,文本简化正式地被Chandrasekar等[2]提出,主要是因为当时一些自然语言处理任务不能处理长而复杂的句子,如机器翻译、信息获取和文本摘要。该方法主要是利用一些人工标注的规则进行句法结构的简化。后来,文本简化也被研究如何更好地服务于语言能力有限或有语言障碍的人,如诵读困难者、自闭症者和失语症者。目前,研究*多的文本简化方法是英文的文本简化,主要关注词语的简化和句法的简化两个方面。文本简化方法的发展大致可以分为三个阶段,即基于规则的文本简化方法阶段、统计文本简化方法阶段和神经文本简化方法阶段。   基于规则的文本简化方法主要关注句法的简化,通过人工定义一些规则把长而复杂的句子转变为多个句子。利用算法自动识别规则的文本简化方法由于没有很好的平行语料进行学习,无法取得很好的效果。但是,该类方法随着规则数目的减少,效果反而变好。2014年,Siddharthan等[3]定义了136个手写语法规则进行英文文本简化。2016年,Ferrés等[4]使用了76个手工构建的转换模式进行英文文本简化。2019年,Niklaus等[5]手工制定了35个英文规则,取得了*好的句法简化效果。该类方法由于需要语言学家采用语法术语建模,并没有得到足够的关注。   由于基于规则的文本简化方法关注的是句法的简化,Carroll等[6]于1998年提出了**种词语简化方法,只专注于文本简化中的词语简化,主要利用同义词词典(WordNet)进行同义词替换。之后一系列利用平行语料和词嵌入模型的词语简化方法被提出。*近几年,预训练语言模型快速发展,很多自然语言处理任务基于预训练语言模型都取得了突破性的进展。Zhou等[7]和Qiang等[8]分别于2019年和2020年提出了基于预训练语言模型的词语简化方法,这标志着预训练语言模型在文本简化中得到应用。   20世纪90年代,IBM研究院的研究人员提出了IBM Model 1-5,主要基于香农信息论中针对编码器的“噪声-信道”模型,支持词到词的统计机器翻译。2000年之后,借助互联网的发展,统计机器翻译模型走向了民用,IBM、微软、谷歌、百度等各大互联网技术(internet technology, IT)公司都相继发布了能够支持世界上几十种常用语言的互联网机器翻译系统,极大地提高了人们使用机器翻译的便利性。2010年,Specia[9]把文本简化方法当成单语言的机器翻译任务。近些年,许多文本简化方法都是直接或者间接使用机器翻译的方法。研究文本简化的目的从*初服务于机器翻译等自然语言处理任务,发展到基于机器翻译方法应用于文本简化任务。导致这类现象的原因主要是机器翻译方法得到全世界的广泛关注,许多机器翻译方法甚至取得与人类翻译相比拟的结果,而文本简化方法到这一步还有很长的路要走。   2014年以后,端到端模型的提出[10],使翻译质量得到显著提升。此架构由编码器和解码器两部分组成,其中编码器负责将源语言句子编码成一个实数值向量,然后解码器基于该向量解码出目标译文。该架构是一种全新的机器翻译模型框架,其特点是实现了词的分布式表示,翻译过程中可更加容易地利用上下文信息,自动学习上亿参数量。2016年,Wang等[11]**次尝试利用神经机器模型翻译解决文本简化任务。*近几年,基于神经网络的文本简化方法已经成为主流的文本简化方法。   1.1.3 文本简化方法   文本简化方法主要可以分为基于规则的文本简化方法、词语简化方法和基于机器翻译的文本简化方法。基于机器翻译的文本简化方法由于建模方法不同,又可以细分为统计文本简化方法和神经文本简化方法。   1. 基于规则的文本简化方法   依靠人工编撰句法简化的规则,专家总结各种语法结构的转换规则,形成规则知识库。在句子简化过程中,计算机利用转换规则对输入的复杂句子进行解码,将原句子简化为多个简单的句子。   基于规则的文本简化方法一般可以分为分析、匹配和生成三个阶段。分析阶段完成对原句子的解析,主要通过分析句子句法的依存关系,将原句子解析成一种树状结构表示。匹配阶段将原句子的树状结构与规则知识库中的规则进行匹配。在*后的生成阶段,主要完成每个子句时态、语态的转换,使输出的句子结构完整。   基于规则的文本简化方法以小规模的数据或者语言学家的知识作为来源,其优点是不依赖大规模语料,对资源贫乏的语言也可以快速建立一个简化系统。该类方法的缺点是规则描述的范围较大,导致句子简化结构内容比较僵化、生硬,质量较差。规则的质量和规模依赖语言学家的知识和经验,所付出的人工代价比较高。   考虑到基于规则的文本简化方法的局限性,基于神经网络模型的句子分割方法成为一个重要的研究方向,该类方法只需要标注好语料,神经网络就可自动学习句子的分割,不需要人工参与。基于规则的文本简化方法和基于神经网络模型的句子分割方法将在第5章展开介绍。   2. 词语简化方法   词语简化指在不破坏原有句意的情况下,使用更容易阅读(或理解)的词或者短语代替原始文本中的复杂词。大多数词语简化方法需要以下三个步骤。①复杂词识别:判断给定句子中哪些词是复杂词;②候选词生成:生成可替换复杂词的候选词集合;③候选词排序:根据简单性、流畅性等特性对候选词进行排序。复杂词识别较常用的是利用词频、词典和二分类方法识别句子的复杂词。候选词生成从*先的同义词词典到词嵌入模型,再到现在的预训练语言模型。候选词排序一般都是考虑对多个特征进行排序,如词频、候选词和复杂词的相似度、语言模型等。   词语简化方法一般都是无监督方法,适用于不同的语言。但是目前还存在的问题是将复杂词替换后,无法对句子的流畅性和原有句意进行很好的衡量。词语简化方法将在第4章展开介绍。   3. 统计文本简化方法   统计文本简化方法是从直接使用统计机器翻译模型,到现在的在统计机器翻译模型的基础上,考虑删除、替换和重排等操作,优化输出句子的简单性。统计机器翻译过程对整个原句子的翻译过程进行数学建模,生成一个概率模型。不同的原句子短语片段分割方法、不同的短语片段转换结果以及不同的目标短语片段顺序调整,汇集在一起形成一个巨大的搜索空间。统计机器翻译方法在这个搜索空间中找出概率*大的一条路径,其对应的各种操作形成的目标句子就是*终的简化输出。   该类方法不再依赖人工编撰翻译规则,可以自动学习细粒度的短语级别的简化知识。此外,该方法在鲁棒性和可扩展性方面明显优于基于规则的文本简化方法。统计文本简化方法将在第6章展开介绍。   4. 神经文本简化方法   神经文本简化方法采用一种端到端的模型,直接将一个原句子转化为目标简化句子,具体是利用编码器将原句子转化成一个向量,该向量形成了对原句子的一种分布式表示,然后基于此向量表示利用解码器依次生成目标词序列,直到生成整个目标句子。神经文本简化方法的特点是整个简化过程是一个端到端的计算过程,但内部具体的计算过程很难从语言学的角度进行解析。该类方法的优势是能够充分利用句子中的上下文信息,输出的句子流畅度很高。由于该类方法需要学习大量的训练语料,而目前文本简化缺少大规模的平行语料,因此神经文本简化方法没有在机器翻译、文本摘要等领域取得那么好的效果。本书将在第7章介绍神经文本简化方法。   1.1.4 相关的文本重写任务   文本简化可以被当成一种文本重写任务。这里介绍文本简化与其他文本重写任务之间的关联性。   1. 文本摘要   从文本简化的定义来看,该任务很容易与文本摘要(document summarization)混淆。正如Shardlow[12]指出,文本摘要的重点是通过删除不重要或冗余的信息来减少篇幅和内容。在文本简化过程中,也可以进行一些内容的删除。然而,在文本简化中,还可以用更具解释性的短语替换单词,使句子意思表达更加明确,添加连接词以提高流利性,等等。简化后的文本可能会比原来的文本更长,但可读性得到提高。因此,文本摘要与文本简化虽然相关,但目的不同。   2. 句子压缩   句子压缩(sentence compression)[13]是在保留核心内容的情况下,缩减句子的长度,同时保持句子的语法性。大多数句子压缩方法侧重于删除不必要的单词,因此,该任务可以看成是文本简化过程的一个子任务。句子压缩还包括了更复杂的转换,例如,抽象句子压缩(abstractive sentence compression)[14]包括如替换、重新排序和插入之类的转换。然而,抽象句子压缩的目标仍然是减少内容,而不关注能否提高文本的可读性。   3. 分割并复述   分割并复述(split-and-rephrase)[15]专注于将一个句子分成几个较短的句子,并进行必要的重新措辞,以保持意义和语法。该任务可能涉及删除,所以并不总是能够保留原始的意义,反而可能会删除那些分散读者理解文本中心信息的细节。因此,该任务可以被视为简化过程中的另一种可能的文本转换。在第5章将对该任务进行详细的介绍。   1.2 文本简化语料   数据也称语料,不同类型、用途的数据放在一起完成一项任务,称为语料库。自然语言处理任务离不开语料库。无论是统计文本简化方法还是神经文本简化方法,都需要大量的语料来训练模型。虽然语料库是承载语言知识的基础资源,但并不等于语言知识。因此,文本简化系统需要能够从语料库中学习简化知识和构造句子的知识,并且用模型来刻画、表达这些知识,达到简化任务中的目标文本生成的目的。   语料分为简化语料和平行语料,不同类型的语料在文本简化任务中具有不同的使用方式和价值。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服