论文部分内容阅读
随着互联网与信息技术的高速发展,网络上的信息量也在快速增长。面对日益增长的信息量,如何在大量信息中快速准确地提取用户搜索的关键信息与相关信息,提高搜索效率与搜索精度,成为近年来国内外学者研究的热点。然而传统的搜索系统一般为基于关键字进行内容匹配,相对较难根据用户的搜索需求进行相关的潜在语义搜索。此外,K-means算法及其衍生算法K-means++算法由于其算法的实现相对简单、收敛速度快等优点,常用来对大规模数据进行聚类分析。然而由于传统的K-means算法与其衍生算法K-means++由于初始聚类中心选择的随机性与聚类个数K值选取的问题,可能会导致聚类结果的不稳定。因此,本论文提出了基于潜在语义分析的K-means++算法的改进,并将其应用于搜索系统中。为此,本论文主要做了以下几个方面的研究:首先,本论文进行潜在语义模型的研究与构建。本论文通过对潜在语义分析技术的基本原理进行研究,使用文本预处理、文本分词、同义词合并、构建词-文档矩阵并进行矩阵分解与降维等方法,最后计算文档之间的语义相似度,从而构建潜在语义模型。从语义层面理解与处理用户的搜索请求,并构建数据之间的语义联系。其次,本论文进行基于潜在语义分析改进的K-means++算法的研究。本论文提出了基于K-means++的改进算法,对于潜在语义筛选后的数据集进行进一步的聚类分析。本论文在初始聚类中心的选择上进行优化。对于待聚类的数据集进行数据预处理,优化噪音点,从而进一步优化初始聚类中心的选取。经过数据预处理后,本论文进一步基于密度对K-means++算法进行进一步的优化,通过每次循环迭代,计算每一个簇内元素的质心与聚类中心的改变量,来进行聚类中心的选取,从而增加聚类效率,降低聚类算法的时间复杂度。并通过UCI提供的常用于机器学习的数据集进行实验验证。实验结果验证本论文改进的算法与K-means++算法相比较,在聚类精度和聚类效率方面均有提高。最后,本文设计并实现了基于潜在语义分析改进的K-means++搜索系统。结合之前提出的潜在语义分析模型,并结合改进的K-means++算法进行聚类,根据用户的搜索内容,较快地展示出相关结果与潜在语义搜索结果,并在系统平台进行演示。