基于卷积神经网络的文本聚类算法优化研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jojochen812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘领域的一项非常重要的技术,聚类算法在信息过滤和文本整合等方面都有着广泛的应用,在对海量的文本信息进行检索、组织和处理时经常使用聚类算法进行分析和进一步的整合。但是现有的文本聚类算法往往无法捕获文本中词语之间的关联性和上下文语义,并且存在聚类结果受特征向量单方面影响的问题。本文针对这些问题深入研究了文本聚类算法的优化和改进,主要工作如下:1、设计了基于卷积神经网络的文本聚类算法。该算法以大规模语料库为基础,使用word2vec模型训练语料,学习词语之间的语义关系,并用词向量形式表示词语,进而将文本转化为稀疏的原始向量形式;然后,利用深度学习的卷积神经网络对原始向量进行特征学习,以此构造维数较低的文本向量;最后,利用k-means方法实现文本聚类,实验表明该算法的准确度达到75%以上。2、提出了联合优化的反馈神经聚类算法。该算法首先在预训练的词向量的基础上对词语的向量表示进行扩展,通过双向循环神经网络获取文本中词语的上下文语义,使得词语的向量化表示既包含了本身的含义,又包含了文本的上下文环境,从而使得文本的向量表示也更加丰富和完整。然后针对传统k-means算法的不足,通过进行二次分区调整来尽可能避免其陷入局部最优。最后,将聚类效果的模糊性作为损失函数,不断训练卷积神经网络,从而实现特征提取和文本聚类效果的相互影响和不断优化。实验结果表明,本文算法的准确度超过了80%,和现有文本聚类算法相比,聚类效果得到了有效提高。
其他文献
通过对比国内外观有电子商务测评技术的优劣,提出了新的测评平台规划与测评流程。详尽列举平台架构中的四个重要环节——测评指标体系、问卷发布平台、测评管理集成平台和排名
<正>目的通过前瞻性、随机、对照临床研究,评估血尿酸对糖尿病肾病(diabetic nephropathy,DN)肾功能的影响,并探讨其可能的机制。方法从2017年2月至2018年2月在本院肾内科、
会议
近年来,我国农村义务教育进行了一系列改革。通过问卷调查发现,这些改革措施既取得了一定成效,促进了农村基础教育的发展,同时在经费投入、课程改革、教师生活待遇、师资队伍
目的:研究伽玛刀照射大鼠尾状核后放射性损伤的影像学表现、一般情况改变及细胞学变化。方法:10只成年SD大鼠,5只大鼠作为对照组,5只大鼠接受MASEP-SRRS型伽玛刀8mm准直器以50Gy(5
管理会计目前已经成为会计改革的重点方向,以期推动经济的转型发展,以及获得更多的经济效益。在企业中,管理会计的应用和发展也成为管理者们关心的重点内容。文章从电网企业
细粒度图像分类是图像分类的子任务,主要区分同一类别下的不同子类,如鸟的品种,车的型号等,对于海量图像数据的检索和分类管理有着重大的意义。与一般的分类任务不同,细粒度
以取代苄胺或伯胺为原料,依次经过Michael加成、Dieckmann缩合、水解脱羧、酰腙化反应合成了10个未见文献报道的1-取代哌啶-4-酮芳甲酰腙9a~9j,化合物结构经1H NMR,IR,MS和元
龋损的早期是施行龋病防治的有效阶段,因而本研究建立了电诱导体系,利用电化学的方法在有人工早期龋损的牙釉质表面制备羟基磷灰石(HA)涂层。此涂层与牙釉质基底结合紧密,且
植物体内存在着具有促进植物生长的内生细菌,可用于开发微生物肥料,具有促进植物生长、无污染、低成本等优点。水黄皮是一种生物质能源植物,具有耐高温、耐旱、耐贫瘠、耐盐
在界定国家竞争情报文化内涵的基础上,指出国家竞争情报文化建设的战略意义。文章借鉴国外竞争情报文化建设的经验,结合目前我国竞争情报文化建设的现状,探讨了我国构建国家