改进后缀树的中文检索结果聚类系统

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:menchen528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,使得用户在查找资料时不得不从搜索引擎返回的结果列表中仔细查找,如果用户输入的查询词带有歧义,很可能要查看很多页后才能找到满意的答案,这就给用户的使用带来了不便。比如搜索“美洲虎”时,用户可能是想查找一种武器、或者是汽车,更或者是一种动物,然而在返回的结果列表中这几类信息相互参杂着呈现给用户,如果用户需要查找某一类信息的详细情况,就需要翻很多页才能找到。基于此,本文在传统搜索引擎的基础上设计了检索结果聚类系统。系统流程主要包括三步:首先,利用HTML分析器获取搜索引擎返回的结果项标题和摘要,用分词工具对获取到的文本进行分词、标注词性并且记录词语的位置和词频,去除停用词,剩下的词语构成每一个结果项的关键词集;然后,用各结果项的关键词集统一构建一颗后缀树,以词语为单位插入后缀树各节点,通过位置、词频、词性和词长几项约束条件计算各节点词语得分;最后,合并基类取得分高的节点词作标签。实验结果显示本方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
其他文献
搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们
在自然生态环境与人类的关系越来越密切的今天,随着虚拟现实技术的迅速发展,虚拟植物可视化研究方向被人们广泛重视,成为了众多研究热点之一。虽然植物形态结构十分复杂,与环
随着计算机网络技术的飞速发展,计算机已不再是遥不可及的高科技产品。如今,计算机已经普及到了千家万户,成为了大多数人工作、学习、生活不可或缺的工具之一。由于网络已经渐渐
信息技术的快速发展使计算机软件的执行效率和硬件的性能都得到了很大的提升。在当今时代,很多设备都具有计算能力与数字通信能力,而且这些设备之间可以互相交换信息和使用对
在人机交互领域,传统的单语音识别技术在相对安静的环境下对连续的单词或短语能够达到较高的识别率。然而,将其应用到真实环境时,其识别能力通常会由于背景噪声等因素的影响受到
在网络数据量急速增长的现代社会,大数据存储处理技术正在蓬勃发展,其中HDFS(Hadoop Distributed File System)系统是大数据存储处理技术中应用最广泛的。由于HDFS的存储机制