文本聚类算法的语义性改进与实现

被引量 : 0次 | 上传用户:cpu1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代搜索引擎需要面临的一个非常有挑战性的难题是:如何处理非确切性查询,如何对返回的结果进行抽象组织,使得用户能够迅速缩小查询范围,达到良好的搜索体验。当今大多数搜索引擎,对于一次查询返回的结果,并没有总结组织的机制(只有少数研究型系统提供了此模块),用户不得不在返回的大量结果中,遍历,翻页,查找他们所需要的信息。将查询结果进行聚类化,并且以友好的界面呈现给用户,是解决非确切性查询的有效手段。本文从丰富语义性的角度给出了一个基于K-means聚类算法的增强实现,充分挖掘文本内在表达缺失的语义信息,并在聚类产生,以及聚类呈现的过程中加以利用。聚类产生阶段,借助维基百科的主题,类别,链接结构,提取语义信息,在降低噪声影响的前提下,增强文本的语义表现力,优化聚类效果。聚类呈现阶段,借助社会化标签网站的用户标注,与聚类内在标签竞争,选取最符合聚类描述的标签,改进聚类的呈现效果。本文实验系统包括,文本VSM模型建立模块,Wiki语义信息抽取模块,增强型聚类生成模块,聚类内标签提取模块,社会化标签提取模块,以及最优标签竞争模块。实验搭建了基于Hadoop的分布式文本聚类框架,对比了语义增强型K-means算法和传统K-means, fuzzy-K-mean, LDA算法的聚类效果,分析了本文Wiki信息提取策略与现存研究的优化,验证了本文标签竞争策略相比基于聚类质心,聚类分词频度,MI的传统标签生成策略的改进。实验结果表明,引入Web2.0语义信息增强后,聚类内聚度得到提升,同时聚类标签选取更加准确和具有语义性。并且,本文的Wiki语义增强策略,可以拓展到其他聚类算法,以及聚类研究之外的信息挖掘领域。
其他文献
<正>五、重新构建评价指标体系(一)评价指标选取原则指标选取的原则主要运用Peter Drucker提出的SMART原则,即具体的(Specific)、可度量的(Measurable)、可实现的(Attainable
<正>在新经济时代,电视媒体的竞争也日趋白热化,和其他行业一样,打"品牌战略"已经成为了一种媒体生存意义上的竞争模式。电视频道与节目的增加导致了受众选择权的扩大和同类
给出由实单一紧支撑正交的小波构造二重正交多小波的方法。具体地,首先由实单一的紧支撑尺度函数构造出单一紧支撑正交对称的复尺度函数,再由构造出的复尺度函数去构造二重正
当今社会,GPS技术得到了广泛的应用,而作为其中的一种新科技,GPS RTK技术凭着其自身独特的优势,也开始得到了一定程度的推广运用,本文就GPS RTK技术的基本原理及优缺点以及其
<正>要做好领导秘书,在心态上必须牢牢把握"有所危"、"有所为"、"有所违"、"有所畏"这四点:一、"有所危"。这里的"危"指的是危机感。具体来说:一要经常问问自己的思想和行动
期刊
<正>在机关,写公文就是写思路、写思想、写工作。要把公文写作当做职业、当做事业、当做生命,乐此不疲。如何写好公文呢?我的体会有三:一、将"积累"进行到底"汝果欲学诗,功夫
8月10日上午,记者来到北京史家胡同一处安静的院落,这是一座典型的北京老式房子.敲门,"进来"里面传来一名老人低声却尚清晰的嗓音.开门,一位老人正坐在电脑旁,显得很安静,眼
<正>有一篇评易富贤《大国空巢:走入歧途的中国计划生育》的书评,作者旷新年劈头指出:"改革开放以来,中国主要凭借人口的优势成为世界工厂。"(《计划生育政策是民族自杀政策
利用全局与局域Moran’s I指数、LISA集聚图考察我国彩票、体育彩票和福利彩票的全局与局域空间集聚特征,运用空间面板模型研究我国彩票与体育彩票销售影响因素的直接与溢出
提出了一种 IC卡 /投币式自动售报机的设计方法,其特点是结构简单、成本低廉、维护方便,在实际应用中得到了较好的效果。