基于SSD的海量URL数据多级存储方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiongyongdezhanghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球信息化的程度越来越高且越来越快,每天产生的数据量已经难以估计,BigData的研究主题成为了国家战略重点之一,未来是一个数据的时代。本课题主要关注互联网数据,为特定场景下的特定应用量体裁衣,设计订制的存储系统,通过摒弃传统数据库系统的冗余特性,使得关键性能部分有更多的资源投入。  本课题的题目是基于SSD的海量URL数据多级存储方法研究,研究的根本目的在于为在生命周期中涉及到URL数据的应用程序提供一个高性能的、支持良好的海量数据规模管理的数据存储方法和系统,具体的常见应用场景有网络爬虫,网页排序算法研究等等。为了设计一个可行的高效URL数据存储系统,同时考虑到现代硬件,尤其是存储设备的工艺进步,本课题选择使用固态硬盘作为信息存储载体,利用硬件特性的优势,同时结合为其设计合适的索引方法,本文先围绕三个基本问题做了工作,它们分别是:  (1)调研分析固态硬盘的数据访问特性,总结现有的针对固态硬盘的改进方法的一般思路和方法,为存储系统的设计奠定了基础,明确了存储过程中各算法的改进方向;  (2)对URL数据的活动场景以及URL数据的数据特点进行统计分析,对URL存储方法的所需的性能侧重点有直观的了解,确定了域名和路径分开存储的物理存储方案,提出了基于概率的自适应缓存替换策略;  (3)分析当前海量存储技术,尤其是非关系索引技术的优缺点,同时考虑固态硬盘的特性之后,有选择性的对COLA索引技术进行分析,最终确定了COLA索引作为固态硬盘索引的可行性。  最后结合上述三点工作成果,本文给出了基于SSD的海量URL数据存储系统的最终设计方案和系统实现细节和实验,给出性能分析。结果表明,本文提出的URL数据存储方法与常见的关系数据库和非关系数据库,均具有明显的优势。
其他文献
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、向量空间模型以及概率模型。随着Pnoet和Corft首次提出基于统计语言模型的检索模型,近十年来该模型得到了快
随着互联网技术的迅猛发展,网络信息过载问题越来越明显,如何快速地从海量信息中获取所需的部分,成为一个亟待解决的问题。RSS由于其自身的简洁性和通用性,改变了信息的获取
开放文档格式是基于XML纯文本的一种安全持久的文档格式,包含了字处理文档、电子表格、演示文稿、绘图等多种文档类型,具有跨平台的优势。由于开放文档格式规范非常繁杂,已经超
随着链接数据运动的开展,越来越多的RDF数据在Web上发布,并且其数量增长迅速。如何能够为这些大规模的RDF数据提供高效检索服务成为了目前的研究重点。提出了一种大规模RDF数据
小波分析是近30年来新兴的一种信号分析处理技术,在理论研究上具有重大的研究价值,并在众多工程技术上具有较为深远的影响。现在一维小波的理论研究越来越成熟,小波应用越来越广
随着信息技术的发展,越来越多的人利用互联网来发布和获取信息,互联网变成了人们生活中不可缺少的一部分。互联网信息的增加,使得获取和管理这些信息变得越来越困难了,导致信息超
在我国现行的热网运行系统中,由于必要参数监测手段的缺少,导致了无法对系统的运行状况进行分析判断。为了及时了解现场工况,特别是针对一些零散和无人值守的现场,需要实时采集现
近年来,随着我国经济飞速发展,城市化进度加快,城市的规模急剧扩大,城市人口数量急速增加,现有的城市交通已经无法满足城市发展的要求。减轻城市交通压力,提高城市交通能力,轨道交通
将面向方面思想引入Web服务后,可以通过定义方面将关注点从基本流程中抽象出来,提高流程定义的模块性,再使用编织技术集成,在运行时动态激活和撤销方面以适应需求的变化。用户对
随着互联网应用技术的不断发展,网络在带给人们方便的同时,其安全隐患也日益突出。现有的网络安全技术主要集中在数据加密、防火墙以及入侵检测等方面,虽然这些技术能够有效的抵