基于word2vec和CNN的短文本聚类研究

来源 :信息与电脑 | 被引量 : 0次 | 上传用户:czjjay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征提取对短文本聚类效果至关重要,针对传统的基于统计学习的特征提取方法仅停留在特征词的层面,无法表达文本上下文语义特征的问题。基于此,笔者提出了一种基于word2vec词向量和卷积神经网络(Convolutional Neural Networks,CNN)的文本特征提取方法用于短文本聚类,首先利用word2vec工具训练大规模语料库中的词语,以低维向量的形式表征,然后利用CNN提取文本的深层语义特征,得到能够用于聚类的文本特征向量。实验结果表明,该方法可以有效提升短文本聚类的准确性。
其他文献
提出了一种太阳能热化学与化学回热过程联合的冷热电联产系统。利用太阳能驱动甲醇分解反应,产生的合成气在内燃机中燃烧作功,内燃机排烟余热与导热油换热,并驱动甲醇分解反
目的探讨愉快因子刺激联合兴趣激励疗法对脑卒后抑郁患者的抑郁程度及神经功能康复的影响。方法选取2015年12月-2016年7月所有入住福建中医药大学附属康复医院神经康复科的脑
互联网时代的到来,给传统媒体带来了强烈的冲击,传统媒体的受众也不断减少。传统媒体要想长远发展,必须走与新媒体优势互补、深度融合的发展道路。本文简述了新媒体发展给传
基于协同理论,选取物流业与保险业指标衡量2004-2013年行业发展水平,构建协同度模型与物流—保险系统哈肯模型,测算物流业与保险业之间的协同度,探索物流—保险系统的演变进