面向博客的分布式垂直搜索引擎的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:weiba516898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改进和新词发现算法的改进实现,在此基础上提出了一种面向博客的分布式垂直搜索引擎,对博客网页信息进行获取分析,建立网页索引,并结合用户历史搜索记录,进行了面向博客网页的分布式垂直搜索引擎的设计与实现,提高检索效率和检索准确率。本文主要的创新点及工作如下:(1)针对目前搜索引擎搜索结果排序算法存在的准确率低,排序质量低的问题,改进网页相关性排序算法,结合博客网页的特点,提出了基于BM25相关度的网页排序算法,通过基于锚文本的PageRank算法对网页链接权重进行重分配,同时利用博客网页自身相关属性对搜索结果进行综合排序,提高对新网页的重视;(2)针对目前基于互信息和邻接墒的新词发现算法存在的误分、效率低等问题,使用Trie构建索引树提高搜索效率,同时加入N-Gram模型对分词后的碎片进行拼接,增加长词语的识别;对基于N-Gram模型的拼接词通过内部凝固度和左右邻接墒的计算得到新词;(3)进行搜索引擎系统的详细设计与具体实现。本系统实现的模块包括网页爬虫模块、数据索引模块,以及用户搜索模块,通过对互联网上的网页进行爬取分析,建立数据索引,实现关键词提示、网页搜索结果排序以及网页个性化推荐功能。系统设计与实现过程中主要使用到的相关技术包括网页去重算法、Elasticsearch框架、新词发现算法、网页排序算法、网页推荐算法等。(4)在进行了搜索引擎系统设计与实现后,通过多方面的测试与分析,验证了本系统的实用性、有效性以及实时性。通过对搜索结果的重排序,返回给用户更满意的结果,改善用户体验。
其他文献
本论文基于氧化镓单晶衬底和薄膜衬底,制备了不同电极间距的肖特基二极管,对二极管进行了一系列的电学测试,并对测试结果进行了分析。根据I-V和C-V曲线,使用多种方法计算了理想因子n、肖特基势垒高度ΦB、氧化镓衬底载流子浓度ND、二极管的串联电阻Rs等参数。使用XRD、XPS、SEM等表征方法对导模法获得的单晶测试,基于单晶制备的肖特基二极管存在明显的整流特性,开关电流比达到了 5×104,导通电阻为
随着移动互联网的繁荣发展,移动应用在人们生活中占据了重要的位置。然而一类恶意软件会在用户不知情的情况下申请Android系统的各种权限,使得用户的个人隐私暴露在危险之中。我们通过基于深度神经网络的自然语言处理方式,即个人信息泄露检测模型,来识别出Android隐私政策中的申明权限,再与Android应用实际使用权限进行对比,从一致性角度出发分析Android应用权限滥用情况。但是,随着进一步研究,
物流文本信息作为物流管理各个环节都会涉及的重要信息,对整个物流系统起着环节衔接的作用。随着现代物流电子化、智能化发展,物流行业中使用的文本数据信息快速增长,如何对海量的物流文本信息进行压缩,从海量的物流文本信息中挖掘出重要的信息,提升阅读效率、协助物流行业进行优化升级已成为当下研究的热点问题。本文以物流文本信息摘要生成方法为研究对象,将主题关键词作为文本结构框架对摘要生成过程起到主题引导作用,并结