基于GPU的快速摘要生成方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wobuwanlebuxingma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为搜索引擎展示最终搜索结果的重要组成部分,基于查询的摘要是现代搜索引擎最常用的方法,它可以向用户展示结果文档中与检索词关联度最大的若干片段,这种基于查询的摘要可以使得搜索结果对于用户而言更直观,更具针对性。根据查询词来计算一篇文档的摘要是轻量级的任务,但是现今的搜索引擎往往要面对海量的查询请求,而每个请求所呈现的结果页面中的每个结果文档都必须根据查询词来生成相应的摘要,因此基于查询的摘要计算是现代搜索引擎系统中耗费计算资源相当大的一个部分。为了改进在大负载条件下摘要生成计算的性能和经济性,提出了一种基于CPU-GPU(Graphic Processing Unit,图形处理单元)混合系统的高性能并行处理方法。提出了一种适合GPU处理的摘要生成算法,这个算法采用了滑动窗口的文档切分方法,目的是为了避免传统的截断式文档切分法所导致的高关联度片段被切断的问题。与此同时,算法还采用了一种新的量化公式来评估一个片段与查询词的关联度。在对CPU-GPU混合系统运行特征进行分析的基础之上,对前述的摘要生成算法进行了改进。将一个摘要生成任务内部并行化的同时,还实现了任务间的并行化,并设计了一种三段式的流水线系统来支持此并行化的处理方法。为了实现此三段式流水线系统,设计了一种异步执行框架JobFlow,此框架采用基于服务的编程模式,可以支持高度的模块化和并行化的程序设计。开展了多项试验以优化系统的性能指标并评估系统的性能和经济效能。实验结果显示,与基准摘要生成算法Lucene的Highlighter组件相比较,GPU流水线处理系统获得了较高的加速比,同时能降低了系统的成本。
其他文献
日志型文件系统保证了在服务器宕机时能够通过日志进行快速的文件系统一致性检查和恢复,因此被广泛使用。但文件系统日志存在对文件系统性能,尤其是写性能造成了一定的影响。而
随着云计算时代的到来,越来越多的数据被放在云端统一向用户提供相应的服务,如何保证数据实时在线、可服务已经成为一个重要的研究方向。目前,服务高可用性的研究仍处在初级阶段
由于RDF(Resource Description Framework)数据具有表达灵活,数据交换方便等优点,其数据量在以惊人的速度增长。传统的RDF数据存储系统或以关系数据库为存储后端,或以本地存储方式
光盘认证系统是网络认证服务思想的一个实现案例,它给红光高清播放机提供了通过网络认证获取音视频光盘播放密钥,并且按次计费的服务。在此基础上,扩展的网络认证服务器实现了更
随着互联网的迅速发展和信息技术的广泛应用,由网络产生的数据量越来越庞大,而联机分析处理作为存储和分析数据的主要技术,需要存储与处理的数据量也相应的成倍增长,同时要面对巨
目前医学研究人员进行数据分析的主要流程存在诸多弊端:(1)特征挑选的过程主观性强自动化程度低,难以挑选出最优组合特征;(2)对于非线性公式,难以做到得出准确的分类回归公式;(3)仅使用S
当前网络中存在着诸多以SYN(SYNchronize)洪泛攻击为代表的分布式拒绝服务攻击行为,严重影响了网络的正常运作。尽管在现有SYN洪泛攻击早期检测的基础上,研究人员在SYN洪泛攻击的
以用户手指触摸交互屏实现人机互动的触控交互模式,因其更自然、直接的操作体验,成为近年来人机交互领域研究的热点。目前常用的触摸屏主要依赖于电阻、电容、电磁感应和其它内
随着互联网的快速发展,以微信、QQ、贴吧、博客、微博等为主要代表的新型社交媒介的使用,使人类活动已经离不开虚拟世界网络环境。互联网短文作为这些社交媒介产生数据的主要
据IDC调查统计2011年全世界产生的数据达到了1.8ZB(18000亿GB)并且全球信息数据总量每过两年就会增加一倍而现有的磁记录密度将达到极限。针这一问题,存储领域已经开始研究新的