【摘 要】
:
随着互联网的迅速发展,网络资源的信息量也急剧增长。面对海量数据、海量查询、实时响应的搜索引擎应用需求,如何高效地为用户查询提供实时的响应成为搜索引擎面临的一个重要
论文部分内容阅读
随着互联网的迅速发展,网络资源的信息量也急剧增长。面对海量数据、海量查询、实时响应的搜索引擎应用需求,如何高效地为用户查询提供实时的响应成为搜索引擎面临的一个重要问题。一种重要的方法是通过优化单机的查询处理性能来提高整个系统的检索效率。本文首先介绍了一些倒排索引查询处理技术的相关理论,包括倒排索引的结构、查询处理方式以及动态索引剪枝等内容。DAAT Max-Score算法是Top-k查询处理算法的经典算法之一。针对现有Max-Score算法中,初始阈值为0带来的“慢启动”问题,本文提出了一种基于查询划分以及一种基于双层索引结构的DAAT Max-Score算法。基于查询词划分的DAAT Max-Score算法根据用户提交查询词特点,利用TAAT方法对短查询集合的快速查询处理选择候选文档和提高初始阈值。而基于双层索引的DAAT Max-Score算法结合双层索引结构的特点,在构建双层索引结构时大幅降低了查询词在下层索引的全局最大分数,同样利用TAAT方法对上层索引的快速查询处理选择候选文档和提高初始阈值,两种改进算法均能有效减少非最终Top-k文档进入候选文档,从而改进查询处理性能。最后本文以两种改进算法为基础,对提出的两种改进算法有机结合,在Terrier平台上设计实现了索引检索系统。
其他文献
如何在浩如烟海的Web信息中更好地找到用户关心的信息,是搜索引擎面临的一个极大的挑战。主题爬行器通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质
协同商务平台是一个大型复杂的集成应用系统,它以Internet为媒介,通过浏览器与分布在不同地域的用户及企业进行交互,并借助Web服务技术,实现了协同商务平台与其他应用系统的
近些年,基于口语对话系统的自然语言理解已经成为人工智能领域的热门话题之一。许多有影响力的口语对话系统(苹果Siri,IBM Watson,亚马逊Echo等),都包括了一个智能问答模块。
不确定性知识的表示和处理一向是专家学者研究的热点,寻求有效的方法刻画和处理不确定性知识是Rough集理论研究的重要方向。在Rough集理论中存在着几种原因引起了知识的不确定
本文主要研究在JPVM的基础上,构建一个可交互的实时分布式可视化系统,我们的目标是利用簇计算资源,把实时的三维渲染作为一个标准的ICM应用程序,充分利用带有硬件图形加速的
粒计算是人们看待客观世界的一种世界观和方法论,也是人类求解问题的基础,其在数据挖掘、分类问题、基于示例的学习、D-S理论、区间分析、定性推理、图像分割、分布式系统和软
存储需求的迅猛增长推动了存储技术的快速发展,本课题组所设计的新型智能网络磁盘(IND)存储系统,在结构上重点考虑网络和存储两方面的问题,内核经过特别的优化设计,具有独立的文
移动商务是指利用无线通信网络进行数据传输并且利用移动终端设备开展各种商业活动的一种新型电子商务模式。移动商务可高效的与用户接触,允许他们随时、随地访问关键的商业信
随着第三、四张移动业务牌照的发放,联通将面临更激烈的竞争形势,这种竞争不仅在增量市场,而且在存量市场同样激烈,以客户为本已成为主要的经营理念,客户关系管理(Customer Relati
随着Internet的不断发展,互联网给人民的生活带来了越来越多的便利,许多服务已经成为人们日常必不可少的组成部分。但随之而来的是网络安全环境的日益恶化,人们在享受网络带来的