论文部分内容阅读
随着Internet 的迅速发展,WWW(World Wide Web)蕴含的多媒体资源呈现爆炸式增长,人们从中找到感兴趣的多媒体资源的难度也越来越大。为了能够对Web 多媒体资源进行有效的检索,本文研究了面向Web 的多媒体语义信息提取方法。论文对当前已有的Web 多媒体语义信息提取方法进行了总结,将其分为基于内容的多媒体语义信息提取方法和基于外部信息源的多媒体语义信息提取方法,并指出了它们各自的优缺点。本文重点研究并实现了基于外部信息源的图像语义信息提取方法。Web 图像的语义是与其所处的上下文环境密切相关的。图像的相关文本,包括图像的文件名、图像的周围文本、图像标签、图像所在网页的标题、图像链接网页的标题或链接图像的文件名、图像的地址、图像所在网页的地址、图像链接的地址以及图像所在网页的栏目名等,均蕴含着图像的重要语义信息。从这些相关文本中提取出图像的语义信息是可行的。本文给出了在Web 页面中提取图像相关文本,以及对其进行编码转换、英汉翻译、拼音-中文翻译、分词和词性标注等预处理的方法。为了能够从相关文本中提取图像的语义信息,本文建立了图像语义词典,包括图像主题词典、图像主体名词典及图像主体属性词典,给出了图像主题词提取、主体名提取、主体属性词提取的算法,以及图像主题词自动添加算法、图像主题分类算法等。在上述工作的基础上,本文设计了一个面向Web 的图像语义信息提取系统。系统分为元搜索引擎及控制模块、文本提取及预处理模块、主题词自动添加模块和语义信息提取模块四个部分。论文详细介绍了系统的整体结构、关键编程技术和各模块的具体实现方法,并使用该系统进行了实验。初步实验结果表明,本文提出的面向Web 的图像语义信息提取方法具有较好的效果。论文最后指出了系统的不足之处和需进一步研究探索的方向。本文提出的Web 图像语义信息提取方法,其进行语义信息提取的依据是Web