基于潜在语义的K-means++算法改进及搜索应用的研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:mihu0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与信息技术的高速发展,网络上的信息量也在快速增长。面对日益增长的信息量,如何在大量信息中快速准确地提取用户搜索的关键信息与相关信息,提高搜索效率与搜索精度,成为近年来国内外学者研究的热点。然而传统的搜索系统一般为基于关键字进行内容匹配,相对较难根据用户的搜索需求进行相关的潜在语义搜索。此外,K-means算法及其衍生算法K-means++算法由于其算法的实现相对简单、收敛速度快等优点,常用来对大规模数据进行聚类分析。然而由于传统的K-means算法与其衍生算法K-means++由于初始聚类中心选择的随机性与聚类个数K值选取的问题,可能会导致聚类结果的不稳定。因此,本论文提出了基于潜在语义分析的K-means++算法的改进,并将其应用于搜索系统中。为此,本论文主要做了以下几个方面的研究:首先,本论文进行潜在语义模型的研究与构建。本论文通过对潜在语义分析技术的基本原理进行研究,使用文本预处理、文本分词、同义词合并、构建词-文档矩阵并进行矩阵分解与降维等方法,最后计算文档之间的语义相似度,从而构建潜在语义模型。从语义层面理解与处理用户的搜索请求,并构建数据之间的语义联系。其次,本论文进行基于潜在语义分析改进的K-means++算法的研究。本论文提出了基于K-means++的改进算法,对于潜在语义筛选后的数据集进行进一步的聚类分析。本论文在初始聚类中心的选择上进行优化。对于待聚类的数据集进行数据预处理,优化噪音点,从而进一步优化初始聚类中心的选取。经过数据预处理后,本论文进一步基于密度对K-means++算法进行进一步的优化,通过每次循环迭代,计算每一个簇内元素的质心与聚类中心的改变量,来进行聚类中心的选取,从而增加聚类效率,降低聚类算法的时间复杂度。并通过UCI提供的常用于机器学习的数据集进行实验验证。实验结果验证本论文改进的算法与K-means++算法相比较,在聚类精度和聚类效率方面均有提高。最后,本文设计并实现了基于潜在语义分析改进的K-means++搜索系统。结合之前提出的潜在语义分析模型,并结合改进的K-means++算法进行聚类,根据用户的搜索内容,较快地展示出相关结果与潜在语义搜索结果,并在系统平台进行演示。
其他文献
<正>就我国高校而言,国际化办学的关键就是努力提升留学生在本科生及研究生中的比重,使之产生较好的国际影响力。从国家层面来讲,国际化办学符合国家战略发展的需求,有助于提
<正> 飞机环境控制系统温度调节(简称“环控温度调节”)的功能是保障飞行员在各种飞行状态时的舒适性。随着航空技术的发展,环控温度调节的作用正在不断得到完善和提高。但受
会议
目的探讨多层螺旋计算机断层成像(multi-spiral computedtomography,MSCT)后处理技术对早期尘肺定性、定量的诊断价值,并对MSCT各种肺功能相关参数与临床肺功能测定指标之间进行
辨体是宋代文体学思想的核心,宋人诗话则是宋代文体学理论的渊薮。宋代诗话中的辨体批评观点主要包括:先体制而后文之工拙,辨家数如辨苍白,须是本色,须是当行;诗文之辨,诗词
一直以来,《湖庄清夏图》都被视为赵令穰的真迹,代表着北宋宗室江湖小景的典型。但此次研究发现作者另有其人,画心尾部一方虽模糊但尚可辨认的大印便是作者所钤,释文为“泽民
目的了解保山市农村中小学生营养状况及学校膳食营养素供给情况,为制定相关营养改善策略提供数据支持。方法对2016年保山市5个试点县开展常规监测,根据学校采取的企业供餐、
血管活性肠肽(VIP)是肺内非胆碱能非肾上腺能神经的主要递质之一,对多种免疫细胞的增殖、分化和生物学功能等具有调节作用。VIP可抑制肺泡巨噬细胞吞噬和T细胞增殖、减少肺炎
随着经济的日益发展,城市的规模逐渐扩大,为了解决交通问题,地铁项目的建设逐渐增多,而地铁工程的建设过程比较复杂,面临着时间紧、周期长、施工难度系数大、施工节点多等问
随着近年来房产市场化的发展,住房从“单位化”过渡到“市场化”,政府在进行社区治理的过程中开始更多依赖于来自居民的自治组织。城市住宅小区的发展给业主委员会登上历史舞
本报讯 构建创新体系,提升自主创新能力;构建推广体系,提升农业科技含量;构建服务体系,推动社会科技进步。昨天上午,在2006年度党政领导科技进步和人才工作目标责任制考核汇报会上,海盐
报纸