分布式视频爬虫与相似音频检索

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:_STLer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和多媒体技术的飞速发展虽然推动了数字多媒体作品的在线传播,但同时也带来了版权侵犯问题。由于网络的便利,互联网上的多媒体作品可以被轻易拷贝,同时,任何人均可以通过网络将拷贝得到的版权受保护的多媒体作品进行再次的分发传播。因此,利用网络爬虫主动搜索抓取网络上的多媒体作品,然后利用基于内容的相似音频检索技术,可以有效的保护多媒体作品的版权。本文设计实现了一个分布式的视频爬虫系统,实现对互联网上的多媒体作品的爬取。针对分布式视频爬虫系统,主要工作与创新有:1、结合视频爬虫的特点,本文设计并实现了爬虫的网页解析模块和视频下载模块。两个模块各自维护一个线程池,分别实现多线程处理;2、本文设计并实现了爬虫的断点续传处理机制。针对网络和电脑硬件的突发事件,比如,突然断电、网络中断、服务器故障重启等,避免爬虫的重复性爬取,提高爬虫系统应对突发事件的能力,设计了断点续传机制,有效避免了视频的重复下载,提高了爬虫系统的效率;3、针对视频爬虫的特点,本文提出了一种分布式视频爬虫的系统框架。相较于普通的网页文档资源,视频资源的体积更庞大,需要下载更长的时间,消耗大量的系统资源和网络带宽,而网页解析却很快且消耗资源有限。所以本文充分考虑到这些特点,设计了中心结点负责网页解析、下载结点负责视频下载的分布式系统,并在Hadoop上实现了这一系统,提高了爬虫的效率。基于实验室原相似音频检索系统,本文提出并实现了新的相似音频检索系统的索引结构,主要工作与创新有:1、对实验室原有的相似音频检索系统,尤其是系统中的索引构建方法,进行了深入分析,指出了原有LSH索引方法的缺点;2、本文提出了一种基于汉明镶嵌方法的索引构建算法,基于原系统的音频处理框架,实现了基于汉明镶嵌的索引结构,新的索引结构占用内存明显下降;3、本文提出了一种级联量化编码的索引算法,该算法大幅度降低了索引结构占用的内存空间,并且检测的准确率接近于实验室原系统方法,使该算法能够在大数据库上应用。
其他文献
提出一种针对任意朝向安装的固定式光伏电池板计算最佳安装倾角的计算方法.通过建立倾斜面上瞬时光辐射量数学模型,推导出年聚光量的计算方法.以步长为0.2°逐一计算不同
行星状星云是研究恒星演化、星际介质与星系化学形成历史与演化等问题的重要探针.距离是行星状星云的基本物理参数,对研究其大小、光度、电离质量、形成率、空间密度和在银河
组织工程越来越走近生活。引导组织自体细胞包括干细胞的增殖与分化是组织再生的细胞学基础。生物支架材料胶原蛋白是人体组织中的主要细胞外基质,对细胞的生长,组织形成与再
会议
目的研究经巩膜长隧道法植入Ahmed青光眼引流阀治疗新生血管性青光眼的疗效。设计回顾性比较性病例系列。研究对象福建医科大学第一医院新生血管性青光眼患者20例(20眼)。方
移民是资本主义列强对外侵略的惯用手段,亦是统治和掠夺殖民地所采取的主要形式,日本帝国主义以在日俄战争中获取的在中国东北南部地区的所有权为契机,对中国东北推行了移民
本合金成份探索工作主要是在目前文献资料已经发表过的铁基合金成份及性能组织数据的基础上进行的。铁基合金确认还有潜力可挖,故欲探索一种新的铁基合金,其性能要求与目前
目的:总结中西医不同方法治疗普通型手足口病的疗效。方法:回顾性分析,采取队列研究的方法,对宁夏第四人民医院2010年5月12日~2011年11月20日收治的117例手足口病进行临床特点分
在推进北京低收入农户脱贫增收的重要时期,北京农业职业学院立足职业院校“社会服务”职能,依托专业人才、科研资源等方面优势,以项目带动、科技挂职等为抓手,因地制宜,对北
测试的200个煤样采自沿煤层走向和垂直方向的29个钻孔,研究发现,锗的含量沿煤层的走向和垂直方向的分布并不均一,高锗品位可能出现在煤层的顶部、中部和底部,最高的锗含量大多出
对“企业再造”的再评价庄莉1993年,由美国著名的管理学教授米歇尔·哈默(MichaelHammer)和咨询专家杰姆斯·钱贝(JamesChampy)合著出版的《再造企业》(Reengi-neeringtheCorporation)一书掀起了“企业再...