面向特定领域的主题搜索技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cangzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,互联网络上的信息量正在以几何级数的速度增长,Internet已经成为目前世界上最大的信息资源库。如何满足人们快速、准确、全面获取信息的需求,已经成为人们面临的一大难题。搜索引擎的出现从一定程度上解决了信息获取问题。但是随着信息多元化的增长,通用搜索引擎越来越难以满足特定用户专业化、个性化、更深入的搜索需求。在这种背景下,近年来面向特定领域的主题搜索技术成为网络信息检索领域的研究热点。本文首先对比介绍了通用搜索引擎和领域主题搜索引擎在系统架构、工作原理、关键技术等方面的异同,分析了面向特定领域主题搜索技术的研究现状和发展方向。随后,研究了主题搜索技术中领域知识库的构建、更新与领域主题识别两项关键技术。重点研究了主题词典的结构和建立方法,以及主题特征模型和页面信息模型的构建过程,并提出了相关算法。接下来,研究了主题网络爬行器的搜索启发策略,对比分析了几种典型搜索算法,并提出了基于综合价值搜索策略。在此基础上,设计了一个主题网络爬行器。最后,在以上研究内容基础上,实现了一个面向特定领域的主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。该系统通过一些典型实验,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平并取得了良好的效果。
其他文献
软件缺陷作为影响软件质量的一个首要因素,不可避免地成为软件组织关注的重点。软件缺陷度量已经成为软件组织进行软件质量保证时一个不可或缺的措施,是把握软件质量的有效途
本文通过对早期随机检测RED算法进行详细分析的基础上,总结出已有算法的优势和不足,提出了一种新的AQM算法——CAKED(Cauchy Adaptive RED)算法。 CARED算法对原有RED算法的
从手机的发展来看,手机技术的发展方向是将计算机、通信产品、消费电子产品进行融合,将互联网、电信网、广电网进行融合。本文作者根据目前手机的发展趋势,论述了一种基于Arm
随着移动互联网的发展,移动平台上英语口语学习软件越来越丰富,在移动端为用户提供正确的发音指导也越来越重要。传统的英语口语学习系统一般使用隐马尔可夫(Hidden Markov Mode
随着国家广电总局推动的电视数字化改造的开展,我国对数字电视机顶盒的需求也日益增多。但是,国内各地对数字电视机顶盒的需求差异较大,作为其核心功能的播放系统,同样存在很
XML是一种文本文档的元标记语言,具有良好的可扩展性。目前越来越多的应用采用XML标准来存储信息。这些XML文档需要一个稳定,高效的存储和管理工具,特别是对数据的更新管理工