论文部分内容阅读
随着互联网的不断发展,网上的文本数据越来越多,这些文本数据有着丰富的信息。如果能将这些文本数据进行初分类,那么更有利于从这些海量的文本数据中提取出有用的信息,因此文本分类是文本处理过程中不可或缺的环节。构建知识图谱的过程就是对文本数据进行处理,挖掘其中有价值的信息。对人类而言,文体分类有助于构建文体意识,对写作和阅读理解有极大的帮助。对机器而言,文体分类同样有助于机器解读、接受文本传达的信息和生成用户需要的文本,对知识图谱后续的构建过程有极大的帮助,例如后续的实体抽取、关系抽取、摘要抽取、知识推理等过程。因此,文体分类对知识图谱的构建是十分有意义的。本文的研究目标是将输入文本分成记叙文、议论文和说明文三大类。各个领域海量的文本数据,可以简单分为短文本以及长文本。在特征提取过程中,短文本的信息量少,更注重关键词信息;长文本的信息量大,更注重上下文之间的联系。基于上述考虑,本论文分别对短文本和长文本的文体分类任务进行了研究,并采用深度学习的方法完成研究目标。本文的主要工作和贡献如下:1.针对短文本提出基于文体特征的文体分类模型。根据对短文本的文体分类特点分析,基于短文本的词法和句法特征设计了文体特征向量。由于目前的词向量未充分利用分类类别的文体特征信息,所以将文体特征向量与词向量融合,增强了词嵌入所蕴涵的分类类别信息量。再利用卷积神经网络对向量进行特征提取,构建基于文体特征向量的文体分类模型。2.针对长文本提出基于语序特征的文体分类模型。根据对长文本的文体特点分析,对长文本进行切分,结合BERT预训练模型的优点,用BERT模型得到长文本的句子向量表示。双向循环神经网络能够有效的识别并提取文本数据中的语义特征,因此利用双向循环神经网络学习文本的语序特征,并且引入Attention技术,提升分类模型的分类效果,最后将通过CNN网络提取到的局部特征作为特征补充,由此构建了一个基于语序特征的文体分类模型。3.通过对比实验证明了上述两种文体分类模型的有效性,基于上述思想设计并实现了文体自动分类系统。该系统分为模型训练部分和文本自动分类部分,模型训练部分通过调用数据库中的文本数据进行训练得到模型参数并保存,文本自动分类部分根据输入文本长度加载相应的模型,返回文体分类结果。