基于深度学习的中文文本分类的关键技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:kandyyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习作为目前人工智能领域主流研究方向之一,在各种分类任务中都取得了非常不错的效果,其中就包括中文文本分类任务。中文文本分类任务根据操作流程一般包括数据预处理、中文分词、向量表示以及文本分类等关键技术。本文主要研究基于深度学习的中文分词技术以及文本分类技术,并通过对这两种关键技术的改进,提升各自任务的效果。最后结合这两种改进的关键技术从整体上提升中文文本分类效果。本文的工作内容主要包括以下几个方面:1、结合BERT与GRU模型的优势,改进得到一种新的多标准中文分词模型。在传统多标准分词模型中只使用了Bi-LSTM模型,但是随着数据集的增大训练时间也会增加,因此通过使用更简单的Bi-GRU模型来加快模型的训练速度。同时为了从文本中提取出更丰富的语义特征,使用BERT预训练模型作为语义特征提取层加入到模型中,以此提升模型分词效果。根据上面两项改进得到一种新的多标准中文分词模型,并设置相关实验,从训练时间以及分词效果两个方面的提升证明改进的有效性。2、在短文分类模型中加入计算机视觉领域的混合域注意力模块,改进得到一种新的短文本分类模型。传统短文本分类中的卷积神经网络在提取特征时对所有特征一视同仁,为了增强模型对关键特征的提取能力,仿照计算机视觉中的做法,将混合域注意力模块加入短文本分类模型中。通过设置与原模型的对照实验,证明了加入混合域注意力模块对文本关键特征的提取确实很有帮助。3、在层次Attention模型中应用多通道机制,改进得到一种适合中文长文本数据的多通道层次Attention分类模型。使用层次Attention模型进行中文文本分类任务时,长文本增加了分词错误的概率继而产生信息的丢失,于是加入对字粒度文本表示的特征提取通道来补充词粒度文本表示带来的损失。同样设置与原模型的对照实验,通过分类效果的提升证明了加入字粒度文本表示后提取的特征更加全面。4、通过将上面中文分词技术以及文本分类技术的改进进行结合,设计并实现了一个简易的中文长短文本混合分类系统,并利用该系统测试上述两种关键技术的改进在结合后,整体上对中文文本分类效果的影响。
其他文献
2008年7~8月,在茶叶生长茂盛期对云南省腾冲县蒲川乡3种不同茶园昆虫群落组成和结构变化进行调查。结果表明,调查区茶园共发现60种昆虫。生态茶园的昆虫群落丰富度、多样性指
近年来,我国人口老龄化问题日益严重,针对出现严重的养老问题,我国“十三五”规划提出,建立居家养老为基础,以社区养老为依托,以机构养老为补充的养老模式。但随着社会的发展
新漫画是战后在日本和欧美兴起的一种讲述长篇故事的新的漫画形式,自上世纪四十年代发展至今,日本、欧美国家在这一领域都已形成了自己独具民族特色的新漫画表现风格,而我国因为起步时间晚,导致在新漫画的创作风格上鲜少有真正的能够体现中国民族文化特色的中式风格。近几年随着中国传统文化的复兴,相对于“古风”题材诗词歌曲,新漫画领域也开始出现“古风”题材的漫画作品,但深究其表现方式会发现,这些作品多少都受到了同为
历史时期,独流所处的海河流域下游地区,受自然和人类活动影响,水患灾害频频发生。宋以前,独流地区远离行政中心,河流多处于放任自流的状态。北宋时期,位于宋辽边境的独流,开
绿道被认为是保护城市生态结构与功能,构建城市生态系统、网络和城市开放空间规划的核心。近年来,国内绿道建设发展迅速,绿道生态游成为珠三角群众重要的出游选择,并成为假日