论文部分内容阅读
互联网和多媒体技术的飞速发展虽然推动了数字多媒体作品的在线传播,但同时也带来了版权侵犯问题。由于网络的便利,互联网上的多媒体作品可以被轻易拷贝,同时,任何人均可以通过网络将拷贝得到的版权受保护的多媒体作品进行再次的分发传播。因此,利用网络爬虫主动搜索抓取网络上的多媒体作品,然后利用基于内容的相似音频检索技术,可以有效的保护多媒体作品的版权。本文设计实现了一个分布式的视频爬虫系统,实现对互联网上的多媒体作品的爬取。针对分布式视频爬虫系统,主要工作与创新有:1、结合视频爬虫的特点,本文设计并实现了爬虫的网页解析模块和视频下载模块。两个模块各自维护一个线程池,分别实现多线程处理;2、本文设计并实现了爬虫的断点续传处理机制。针对网络和电脑硬件的突发事件,比如,突然断电、网络中断、服务器故障重启等,避免爬虫的重复性爬取,提高爬虫系统应对突发事件的能力,设计了断点续传机制,有效避免了视频的重复下载,提高了爬虫系统的效率;3、针对视频爬虫的特点,本文提出了一种分布式视频爬虫的系统框架。相较于普通的网页文档资源,视频资源的体积更庞大,需要下载更长的时间,消耗大量的系统资源和网络带宽,而网页解析却很快且消耗资源有限。所以本文充分考虑到这些特点,设计了中心结点负责网页解析、下载结点负责视频下载的分布式系统,并在Hadoop上实现了这一系统,提高了爬虫的效率。基于实验室原相似音频检索系统,本文提出并实现了新的相似音频检索系统的索引结构,主要工作与创新有:1、对实验室原有的相似音频检索系统,尤其是系统中的索引构建方法,进行了深入分析,指出了原有LSH索引方法的缺点;2、本文提出了一种基于汉明镶嵌方法的索引构建算法,基于原系统的音频处理框架,实现了基于汉明镶嵌的索引结构,新的索引结构占用内存明显下降;3、本文提出了一种级联量化编码的索引算法,该算法大幅度降低了索引结构占用的内存空间,并且检测的准确率接近于实验室原系统方法,使该算法能够在大数据库上应用。