论文部分内容阅读
近年来,随着网络中多媒体内容尤其是图像和视频内容的迅速增加,政府和企业对于开发出一套快速高效的图像中LOGO检测与识别系统的需求越来越强烈,本论文的目的就是开发出一套响应快速、识别准确的LOGO识别系统以满足这一需求。
论文首先分析了LOGO的特征以及人眼视觉机制,并结合目标识别领域的既有成果,确定了以SIFT结合kd-tree作为系统的技术方案。在模块设计和实现中,除了使用既有的算法外,为了提高系统性能,我们还根据系统要求以及遇到的问题提出了一系列新的算法:论文使用了基于对比度排序的特征点筛选算法在系统的识别效率和时间效率之间进行折衷;提出了重复匹配点删除算法,用于解决实验中发现的重复匹配问题;提出了基于距离的最长递增子序列算法,用于解决错误匹配问题;提出了基于中值点距离的聚类算法,用于解决LOGO定位时的外点问题;提出了根据不同应用模式自适应地采取不同的匹配策略的想法,以充分利用各应用模式的特点,提高系统识别效率。这些算法都从不同程度上提升了系统的性能。为了提高系统的可靠性,论文还分别对系统的内存管理策略和线程安全策略进行了设计。最终,论文完成了具有“开放性、可扩展、线程安全”特征的LOGO识别系统LogoFinder系统的设计、实现与测试。
测试结果表明:系统在确认模式下的准确率达到了90%左右,在识别模式下的准确率达到了87%左右,在Intel 2.66GHz,3GB内存的PC平台下识别时间不到1秒。指标水平略高于商用系统MagellanTM,较好地满足了设计需求。