论文部分内容阅读
随着互联网和移动通信技术的不断发展,我们所面临的信息过载问题也日益严重,而文本自动摘要技术作为有效解决该问题的方法之一,一直以来都是自然语言处理领域的研究热点。目前,语音识别和自然语言处理联系紧密,而经过语音识别系统输出的文本也会面临各种各样的自然语言处理任务。因此,本文研究一种语音识别场景下的生成式短文本自动摘要方法,以探究文本自动摘要技术在复杂场景下的可行性。
本论文的研究内容分为了两部分:基于ASR的文本预处理和基于ASR的文本自动摘要。第一部分旨在对语音识别后的文本进行预处理,并将其独立为一种通用的文本预处理技术,以供包括文本自动摘要在内的多种自然语言处理任务使用。这一部分着重研究了中文分词、词性标注和标点预测这三个子任务,提出了一种能够同时完成这三个任务的方法,并且采用多个流行的序列标注模型进行对比。第二部分旨在采用生成式的方法来根据预处理后的文本生成高质量的摘要,并且验证第一部分中的文本预处理操作的必要性。本文在Transformer模型的基础上添加了Pointer-Generator网络以及LVT机制,然后也尝试添加了词性标注特征,并且针对所有模型都分别采用了以字符和单词作为基本编码单元来进行对比。
实验结果表明,文本预处理部分中综合中文分词、词性标注和标点预测这三个任务于一体来同时完成的方法,对于标点预测任务相对有较大精度损失,而对于其他两个任务影响较小。对于这三个任务来说,基于双向LSTM网络添加SelfAttention机制后,其表现优于双向LSTM结合CRF这一经典的序列标注模型。文本自动摘要部分以Transformer模型为基准,通过实验证明采用单词做为基本编码单元的模型表现均优于以字符为基本编码单元的模型。并且,在基于词编码的Transformer模型的基础上添加Pointer-Generator网络和LVT机制后,取得了LCSTS数据集上目前以来最佳的测试效果。
本论文的研究内容分为了两部分:基于ASR的文本预处理和基于ASR的文本自动摘要。第一部分旨在对语音识别后的文本进行预处理,并将其独立为一种通用的文本预处理技术,以供包括文本自动摘要在内的多种自然语言处理任务使用。这一部分着重研究了中文分词、词性标注和标点预测这三个子任务,提出了一种能够同时完成这三个任务的方法,并且采用多个流行的序列标注模型进行对比。第二部分旨在采用生成式的方法来根据预处理后的文本生成高质量的摘要,并且验证第一部分中的文本预处理操作的必要性。本文在Transformer模型的基础上添加了Pointer-Generator网络以及LVT机制,然后也尝试添加了词性标注特征,并且针对所有模型都分别采用了以字符和单词作为基本编码单元来进行对比。
实验结果表明,文本预处理部分中综合中文分词、词性标注和标点预测这三个任务于一体来同时完成的方法,对于标点预测任务相对有较大精度损失,而对于其他两个任务影响较小。对于这三个任务来说,基于双向LSTM网络添加SelfAttention机制后,其表现优于双向LSTM结合CRF这一经典的序列标注模型。文本自动摘要部分以Transformer模型为基准,通过实验证明采用单词做为基本编码单元的模型表现均优于以字符为基本编码单元的模型。并且,在基于词编码的Transformer模型的基础上添加Pointer-Generator网络和LVT机制后,取得了LCSTS数据集上目前以来最佳的测试效果。