基于语义的主题搜索引擎研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:rovewind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题。通用搜索引擎拥有庞大的索引数据和宽泛的主题,一定程度上解决了信息获取问题,但多元化的人群决定了多元化的信息搜索需求,因此通用搜索引擎不能满足特殊领域、特殊人群的精确化信息的需求。用户往往需要在检索结果中进一步查找才能获得感兴趣的信息,这促使着搜索引擎朝着专业化、智能化的方向发展,所以基于高准确率的主题搜索引擎得到了发展和应用。主题搜索引擎是为了提高互联网特定领域信息检索的效率而产生的。它通过网络爬虫获取主题信息并建立索引对用户提供相关信息和服务。主题搜索引擎是对通用搜索引擎的领域细化,满足了行业用户对主题信息快速、准确查找的需求。本文在主题搜索引擎系统的开发过程中,对主题搜索引擎中的关键技术进行了研究,其中包括了文本自动分词、特征提取、权值计算、文本分类、文本相似度计算等方面。对传统的相似度计算方法进行了改进,加入了词与词之间语义关系,并将其成功应用在主题搜索引擎中。首先,介绍了主题搜索引擎研究的背景与意义,以及国内外研究现状。其次,阐述了主题搜索引擎的实现原理及其关键技术,对主题搜索引擎的技术框架、网络爬虫、网页内容分析、网页索引和检索、分类技术和网页排序技术的各个环节依次作了详细介绍。然后,深入研究了传统文本相似度算法及其存在的不足。传统文本相似度算法没有考虑语义关系,词与词之间是独立的。针对这些不足进行了算法改进,采用并扩展了广义向量空间模型。通过词汇知识库计算两个词的语义相似度,把语义相似度应用到广义向量空间模型中,从而得到新的文本相似度算法。最后,针对Nutch的开源框架进行了二次开发,实现了主题资源发现,中文分词,主题过滤等功能,并将新的文本相似度算法应用到主题过滤中,最终完成了主题搜索引擎实验系统。
其他文献
Web2.0的迅速普及带给人们丰富信息的同时,也使人们对信息的把握能力大大下降,庞大的信息量已经超出了人们预期的设想。传统的信息检索系统已经不能满足用户需求,通用搜索引
P2P视频点播是目前网络应用研究的热点,而数据请求任务调度是P2P视频点播系统设计时需要考虑的关键问题。绝大多数现有的数据调度策略都是从请求节点端出发来进行设计。在这
在我国信息社会高速发展的今天,传统的选举计票方式已经远远不能够满足社会的需求。以往的计票方式,如基于人工唱票的方式、基于电子选举方式和基于机器识别和智能票箱的方式
随着经济的发展,智能交通系统(Intelligent Transportation System,ITS)已成为解决现代道路交通问题的一个重要手段。车载导航系统是ITS的重要组成部分。车载导航系统是由计
随着网络和多媒体技术的不断发展,网络可视电话(VoIP)技术已经在Internet中得到广泛的应用。如何设计一款软硬件简单、稳定性好、音画质高以及价格适中的VoIP终端将具有很好
WSN中传感器节点能量、存储处理和传输能力的限制使得传统的路由协议不适合无线传感器网络,同时与平面路由协议相比,分簇路由协议具有更好的健壮性和可扩展性,适用于大规模WS
工作流模型可以清晰的描述业务流程,而且随着信息技术的进步,其应用范围也越来越广,对工作流模型的科学评价也越来越成为必要。然而,传统工作流管理系统通常只是严格按照工作
时间序列是指将某种现象某一个统计指标在不同时间上的数值按时间先后顺序形成的序列。由于真实系统或现象的内部通常会受到多种因素的影响,从而导致输出的时间序列具有许多
随着互联网的盛行,主流的在线社交媒体取得了突飞猛进的发展,而微博在这些在线社交媒体中表现出了更加突出的发展态势。微博已经吸引了海量的用户,人们在微博上分享自己的观
近些年来,随着计算机技术、网络技术、信息技术的高速发展以及电子产品成本的急速下降,企业的信息化得以空前的施展,信息化使得企业在发展过程中积累了不少数据。市场环境变