论文部分内容阅读
近年来随着数字多媒体业务的不断扩展,数字多媒体业务的观众对多媒体节目编目信息的要求也随之而来。而目前尚没有此领域的研究来满足观众的这一迫切需求,这也正是本文研究的背景和选题的动力。Internet的飞速发展使WEB数据不断增长,导致了大量半结构(semi-structured)数据的产生,因特网上存在的大量与多媒体相关的描述信息使得我们从中获取多媒体节目编目信息成为可能。为了获取多媒体节目的编目信息,论文着眼于Internet资源,将多媒体节目编目信息的网络自动抽取技术作为研究的目标和任务。论文首先研究了WEB信息抽取技术的一般分类和WEB信息抽取系统的一般实现方法。在此基础上,结合多媒体节目编目信息的特点,提出了一个多媒体节目编目信息网络自动抽取系统NMPIES,该系统设计比较简单,结构清晰,理论上可以完成实现论文所提的目标。WEB预处理和网页自动分类是编目信息抽取的前提,也是论文的研究重点。传统的WEB预处理技术一般只涉及到HTML的噪音过滤、文本抽取等技术,利用这些简单技术很难为多媒体节目编目信息的抽取做好准备。因此,论文在研究了HTML网页的特点后,提出了一套适用于多媒体节目编目信息抽取的WEB预处理技术,其中包括HTML-Tree中心内容确定方法、基于HTML-Tree方法的网页特征提取等关键技术,通过这些关键技术的实现,很好地达到了对WEB信息进行预处理的目的,提高了网页自动分类的查准率和查全率。然后论文研究了多媒体节目编目信息抽取的主要实现技术,使用了基于主题的信息抽取方法,该方法通过多媒体节目编目信息模板的构建、主题相似度的判断和模式匹配最终得到较为完整的多媒体节目编目信息,该方法可以较好地完成预期目标,获取一些简单的常用的编目信息。最后,论文在Java平台上实现了论文所提出的多媒体节目编目信息自动抽取系统NMPIES,并进行了大量的实验,取得了较好的结果。