面向多线程应用的多核Cache优化研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:benben0070
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着集成电路工艺的不断发展,在同一个芯片上集成的晶体管数目增加。但是受到复杂度与功耗等因素的影响,传统的超标量处理器已经不能很好地利用不断增长的晶体管资源,片上多核处理器结构成为微处理器发展的一种必然选择。多核芯片上处理器数目的增多,势必加大了对主存储器访问需求,但受到芯片引脚和带宽的限制,处理器的“存储墙”问题继续加重。为了缓解上述问题,芯片内高速缓存(Cache)的容量不断增大,结构也更加复杂。设计出高效的Cache管理策略,对提高微处理器性能有着重大意义。同时,随着多核处理器的普及,软件设计模式也由传统的串行模式向面向高性能的并行多线程转变。本文基于多线程应用环境,以Cache的性能优化研究为目的,提出了一种基于私有末级Cache(LLC:Last Level Cache)的性能优化算法及面向共享LLC的替换算法。本文的主要工作成果如下:(1)在多核处理器LLC为私有结构的基础上,提出了一种面向多线程应用的末级私有Cache优化算法MAOPL。针对多线程应用中存在共享数据被复制到多个私有Cache体的情况,本文建立Cache数据信息缓冲表硬件,将共享数据信息存储至缓冲表,然后修改Cache失效后的读取机制,实现了数据在Cache间传输。每次末级Cache失效后先查找缓冲表,若命中则通过总线将数据从相邻Cache体传入本地Cache体,若不命中则向下级存储器请求数据。实验表明,MAOPL能够有效地降低Cache的失效开销。(2)提出了一种面向多线程应用的Cache替换算法RAMTA,该算法主要应用于多核处理器共享LLC结构。由于多线程应用中共享/私有数据的访问差异,本文通过硬件记录数据访问类别的方式,对不同类型的数据采用不同的插入或提升策略。实验表明,RAMTA算法对多线程应用具有较好的优化效果,能够有效降低末级Cache的失效率。本文采用MARSS模拟器作为实验平台,基于PARSEC测试程序进行仿真验证,实验结果与理论推导相符合,本设计具有一定的创新性和实用性。
其他文献
传统的红外器件存在诸多无法忽视的缺点,例如制备工艺比较复杂,生产周期比较长,较难制备大尺寸器件,成品合格率较低等,造成其价格过高,工程应用十分受限。相比传统的红外材料,硫系玻璃不仅显著地扩展了红外光学系统材料的设计和材料选择范围,而且完全克服其劣势,具有很大的应用潜力和工业价值。本文系统研究了硫系玻璃模压系统设计及模压工艺,首先设计了硫系玻璃模压系统设备,并制备出硫系玻璃预制件,再利用XRD(X-
[摘要]目的 比较骨水泥双极式半髋关节与全髋关节置换治疗高龄股骨颈骨折的治疗效果。 方法 选取2008年2月~2012年2月于我院接受诊断和治疗的高龄股骨颈患者108例,随机分为半髋关节置换组与全髋关节置换组两组,每组54例,观察比较骨水泥双极式半髋关节与全髋关节置换治疗高龄股骨颈骨折的治疗效果。 结果 全髋关节置换组的手术时间平均为(110.3±5.2)min,明显长于半髋关节置换组的(82.3
目的探讨甲状腺检查在外科体检中的价值。方法回顾性分析我院2009年12月~2010年12月体检科进行健康体检的7000例的临床资料,均采用触摸加吞咽动作进行甲状腺触诊检查,分析甲状
知识经济是企业实现经济增长的重要手段,知识经济的创新能力与相应的管理方式决定了企业发展速度。
对于英语学习者来说,英语阅读能力的提高是其他英语能力发展的基础。阅读能力的提高不仅有利于帮助学生学习词汇,扩大知识面,同样也有利于学生的写作能力以及其他语言能力的
祝德麟(1742—1798),字趾堂,号芷塘,海宁袁花镇(今属浙江嘉兴)人。少时聪颖,未冠登第,晚年罢官回乡,后迫于生计,至云间书院讲学。祝德麟师渊明、学老杜、效东坡,为赵翼入室弟
我国工程教育的规模已居世界前列,但工程教育质量不容乐观。针对我国工程教育存在的突出问题,借卓越工程师计划的实施,可着重从人才培养模式、实践环节、师资队伍和专业认证体系
一、新媒体评论更强调时效性互联网的迅猛发展,使人类社会的信息传播和舆论进入了网络时代。由于网络的开放程度很高,也由于人们在网上发表评论相当自由、快捷,从而孕育和产生了
分布式内存计算平台Spark是海量数据处理领域的最新技术进展。RDD是Spark中海量数据的抽象表达。交互式应用是Spark平台的一类典型应用,具有较强的请求到达不确定性。交互式S