论文部分内容阅读
随着移动互联网技术的快速发展,网络数据交互的现象越来越频繁,而交互数据量也呈现指数形式增长。文本数据是这些交互数据的主要呈现方式,而在日常生活中,我们所接触到的最多的文本数据形式则是短文本数据格式。在这样的背景下,如何发掘出这些海量的短文本数据背后的关联关系对于文本数据组织,文本数据归类,基于文本数据的推荐系统的研发等方面都有着重要的意义。由于聚类技术可以发现数据之间的潜在关联,并形成相应的簇结构,因此短文本聚类问题也就成为了我们关注的焦点。短文本数据由于其所包含词项少的特点造成了其特征提取困难等问题。将传统文本聚类模型运用于短文本聚类问题上,往往无法得到有效的簇类结构,给后续应用研究带来了不良影响。Word2Vec词向量模型可以利用中心词项的上下文信息来将中心词项转换为词空间上的一个词向量,相比于传统的向量空间模型它在训练词向量时加入了语义环境的影响,体现出一定的优越性,word2Vec词向量模型思想认为上下文语境相似的词项的语义也应该相似,使得语义相近的词项,其对应的此空间上的词向量也距离更近。在潜在语义分析模型(LSA),概率潜在语义分析模型(PLSA)基础上发展形成的潜在迪利克雷分布模型(LDA)可以依据文档—词项信息提取出文档—主题信息和主题—词项信息。而主题词可以在一定程度上反映出文本数据的潜在信息,这对于短文本聚类问题有一定的帮助。针对于传统文本聚类模型在短文本聚类问题上的不适用问题,本文提出了一种基于word2Vec词向量模型和LDA主题模型的改进文本表示方法和一种基于LDA主题模型的改进k-means聚类算法。并通过仿真实验结果对比的方法印证了使用改进文本表示方法在新闻标题数据集上的聚类效果优于使用word2vec词向量求和平均的文本表示方法的聚类效果和使用word2Vec词向量模型结合特征频率-倒文档频率(TF-IDF)的文本表示方法的聚类效果。印证了使用改进k-means算法在今日头条新闻数据集上的聚类效果优于使用未改进k-means算法和k-means++聚类算法的聚类效果。