论文部分内容阅读
传统的文档检索包括基于关键字的检索和基于内容的检索,基于关键字的检索直接通过标注文本的匹配来完成文档匹配,但标注的主观随意性大,检索效果不好;基于内容的检索利用多媒体的底层可视特征如形状、颜色、纹理等,对特征进行分析匹配完成文档匹配,但缺乏对用户查询的语义理解。相对而言,主题检索通过挖掘文档底层隐藏的语义信息进行文档匹配,可以实现语义检索,已成为各大浏览器的研究对象。鉴于多媒体文档如图像、视频、音频、网页文档都采用多个模态的信息来描述文档,为了改善检索的效果,将多个模态信息进行融合。 主题模型中以潜在狄利克雷分配的假设最为完整,而潜在狄利克雷分配模型常用于解决标注问题,本次研究将多模态融合的潜在狄利克雷分配模型用于信息检索。潜在狄利克雷分配模型基于词袋假设,采用吉布斯取样方法使得假设分布收敛,计算出文档的主题分布概率,再根据主题分布采用信息散度进行相似度计算。 以图像检索为例,将标注文本和底层特征融合的主题模型有早融合和晚融合方式,早融合直接对两种模态特征进行建模,晚融合对两种模态检索结果进行组合重排序。采用视觉对象分类标准数据集完成了单模态主题检索、文本和底层特征早期融合主题检索、晚期融合主题检索实验,实现了单模态、多模态图像检索原型系统。早期融合方法中将机器智能分类模型用于图像检索并提出了两层的主题模型,实验验证分类模型比直接融合模型有更好的效果,两层融合模型和改进的直接融合模型有相当的效果,还说明了晚期融合比早期融合有更好的检索效果。