基于混合字词特征的中文短文本分类算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:LIU_XX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达.为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法.首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务.在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果.
其他文献
针对含结构立方非线性和非定常气动力作用下的机翼振动问题,提出了基于观测器的张量积模型变换的LMI控制方法.首先,使用拉格朗日方程和Theodorsen非定常理论建立了不可压缩流下机翼的运动方程,引入两个空气动力状态变量来构建状态空间方程;然后选定变参数离散化,采用高阶奇异值分解(HOSVD),提取出线性时不变(LTI)顶点;之后,求解满足系统稳定性条件的LMI获得系统的增益,并运用并行分布补偿(PDC)技术,合成系统的控制器和观测器.仿真结果表明,控制器可以快速地稳定非定常机翼气动弹性系统;观测器的估计值