基于聚类算法的文本挖掘研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:whitesharke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的快速发展,网络数据交互的现象越来越频繁,而交互数据量也呈现指数形式增长。文本数据是这些交互数据的主要呈现方式,而在日常生活中,我们所接触到的最多的文本数据形式则是短文本数据格式。在这样的背景下,如何发掘出这些海量的短文本数据背后的关联关系对于文本数据组织,文本数据归类,基于文本数据的推荐系统的研发等方面都有着重要的意义。由于聚类技术可以发现数据之间的潜在关联,并形成相应的簇结构,因此短文本聚类问题也就成为了我们关注的焦点。短文本数据由于其所包含词项少的特点造成了其特征提取困难等问题。将传统文本聚类模型运用于短文本聚类问题上,往往无法得到有效的簇类结构,给后续应用研究带来了不良影响。Word2Vec词向量模型可以利用中心词项的上下文信息来将中心词项转换为词空间上的一个词向量,相比于传统的向量空间模型它在训练词向量时加入了语义环境的影响,体现出一定的优越性,word2Vec词向量模型思想认为上下文语境相似的词项的语义也应该相似,使得语义相近的词项,其对应的此空间上的词向量也距离更近。在潜在语义分析模型(LSA),概率潜在语义分析模型(PLSA)基础上发展形成的潜在迪利克雷分布模型(LDA)可以依据文档—词项信息提取出文档—主题信息和主题—词项信息。而主题词可以在一定程度上反映出文本数据的潜在信息,这对于短文本聚类问题有一定的帮助。针对于传统文本聚类模型在短文本聚类问题上的不适用问题,本文提出了一种基于word2Vec词向量模型和LDA主题模型的改进文本表示方法和一种基于LDA主题模型的改进k-means聚类算法。并通过仿真实验结果对比的方法印证了使用改进文本表示方法在新闻标题数据集上的聚类效果优于使用word2vec词向量求和平均的文本表示方法的聚类效果和使用word2Vec词向量模型结合特征频率-倒文档频率(TF-IDF)的文本表示方法的聚类效果。印证了使用改进k-means算法在今日头条新闻数据集上的聚类效果优于使用未改进k-means算法和k-means++聚类算法的聚类效果。
其他文献
“十三五”是我国决胜全面建成小康社会的关键时期,随着《中国制造2025》和“工业4.0”等规划路线的出台,这无疑对绿色印刷的全面实施起到强大的推动作用,发展绿色印刷势在必行。在印刷行业,针对油墨及印刷品进行重金属检测是不可缺少的重要环节,然而,目前检测中使用仪器设备主要使用国外产品,价格昂贵,检测成本高,且体积较大,测试前处理繁琐,还不能实现直接快速测定。基于此,本文针对目前我国在绿色印刷快速发展
鲁南地区板栗生产周年管理工作历
期刊
棕熊天生一双近视眼,看不清400米外任何物体,但它的耳朵和鼻子特别灵敏。有的雄熊为了促使雌熊尽早发情交配,会设法杀死幼熊,饿雌熊护仔性极强,这时会奋起与雄熊厮咬。
截至2018年10月,我国基本医疗保险已覆盖超过13.5亿人,基本实现了全民参保。但是,现阶段基本医疗保险是如何对患者的消费选择和就医选择产生影响,这种影响的程度又是如何由基本医疗保险对患者经济状况、心理状态等方面的补偿效应反映出来,基本医疗保险又能为患者提供多大的补偿效果,对于这些问题目前仍然没有明确的研究结论。基于此,本文从我国基本医疗保险对患者选择意愿影响的角度出发,对当前我国基本医疗保险对