论文部分内容阅读
针对日益增长的网络图像,本文研究了基于HTML文档的WWW图像语义信息提取方法,在语义层次上实现了对图像的自动标注和分析。本项研究对基于内容和语义的WWW图像检索具有重要意义。 HTML文档作为WWW图像的外部信息源和载体,蕴涵了丰富的描述图像内容的文本信息。HTML文档中的图像名、图像注释、图像周围文本、图像URL、图像所在网页URL及标题、图像超链接网页URL及标题等在一定程度上反映了图像的关键内容和语义。为了从这些与图像相关的文本中提取图像的语义信息,本文根据图像的视觉属性和语义属性提出了一种图像语义表征模型,并建立了相应的语义词典,包括图像主题词分类词典、图像主体词分类词典、图像主体属性词典和用来翻译汉语拼音、英文单词或缩写词的图像主题词对照词典。 根据图像的相关文本和语义词典提取图像语义信息的基本过程分为三步:(1)利用图像主题词翻译词典,将图像相关文本中出现的汉语拼音、英文单词或缩写词翻译成中文主题词;(2)将图像相关文本自动分词和词性标注;(3)利用图像语义词典,采用基于规则与基于统计相结合的方法,从图像相关文本的分词标注字符串中提取反映图像语义信息的主题词、主体词及其属性词。 基于上述思想,本文研发了一个WWW图像语义提取系统。该系统由图像元搜索和预处理、图像语义信息提取及主题词在线学习三个模块构成。图像元搜索和预处理模块负责从Google与Baidu上搜索图像与相关网页,并提取图像相关文本。图像语义信息提取模块负责从图像相关文本中提取图像主题词、主体词及其属性词。主题词在线学习模块负责主题词分类词典的在线学习与自动添加。 本文最后给出了提取WWW图像语义信息的实验结果。实验表明,提取图像主题词、主体词及其属性词的平均覆盖率为52%,平均准确率为44%。实验说明,这种图像语义信息提取方法,在基于内容和语义的WWW图像检索中具有较高的应用价值。