基于文本和可视特征融合的主题模型检索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:vismiling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文档检索包括基于关键字的检索和基于内容的检索,基于关键字的检索直接通过标注文本的匹配来完成文档匹配,但标注的主观随意性大,检索效果不好;基于内容的检索利用多媒体的底层可视特征如形状、颜色、纹理等,对特征进行分析匹配完成文档匹配,但缺乏对用户查询的语义理解。相对而言,主题检索通过挖掘文档底层隐藏的语义信息进行文档匹配,可以实现语义检索,已成为各大浏览器的研究对象。鉴于多媒体文档如图像、视频、音频、网页文档都采用多个模态的信息来描述文档,为了改善检索的效果,将多个模态信息进行融合。  主题模型中以潜在狄利克雷分配的假设最为完整,而潜在狄利克雷分配模型常用于解决标注问题,本次研究将多模态融合的潜在狄利克雷分配模型用于信息检索。潜在狄利克雷分配模型基于词袋假设,采用吉布斯取样方法使得假设分布收敛,计算出文档的主题分布概率,再根据主题分布采用信息散度进行相似度计算。  以图像检索为例,将标注文本和底层特征融合的主题模型有早融合和晚融合方式,早融合直接对两种模态特征进行建模,晚融合对两种模态检索结果进行组合重排序。采用视觉对象分类标准数据集完成了单模态主题检索、文本和底层特征早期融合主题检索、晚期融合主题检索实验,实现了单模态、多模态图像检索原型系统。早期融合方法中将机器智能分类模型用于图像检索并提出了两层的主题模型,实验验证分类模型比直接融合模型有更好的效果,两层融合模型和改进的直接融合模型有相当的效果,还说明了晚期融合比早期融合有更好的检索效果。
其他文献
自从90年代后期互联网络进入我国之后,便以惊人的速度发展,到现在,互联网尤如血管一样遍布我国,应该说互联网带来了一场深刻的社会变革,带来了管理手段和生活生产的全面革新,极大地
本文对粗糙集近似合成与信息变换进行了论述。文章首先给出了各种类型的经典和模糊二元关系的复合及其性质,定义了两个近似空间的合成的概念,并得到了近似空间的合成与近似算子
近年来随着云计算的兴起,WEB2.0应用的增多,大数据越来越成为IT行业内被大家关注的热门话题。大数据时代其中最显著的特点就是数据量大,数据种类繁多,而关系数据库应对这些海量的
随着我国公路交通事业的迅速发展,智能交通管理系统已成为了人们关注的焦点问题。车辆牌照识别系统作为智能交通管理系统的一部分在桥梁路口自动收费、停车场自动管理及违章车
含有多媒体对象的时空间数据库的挖掘是一个应用前景广阔的重要课题。研究者已经提出了许多关于时间、空间数据挖掘的技术和方法,尽管取得了令人振奋的成果,但时空数据的挖掘还
移动网络带宽较窄,网络质量差已经成为影响移动设备用户体验的瓶颈,因此如何同时使用多条网络接口进行带宽合并,进而来提高网络的传输能力,成为目前研究的热点。传统带宽合并方法
变化是软件开发领域和业务领域中一个基本的特征。当前信息系统面临着各种形式变化的挑战,包括信息系统所处业务环境的变化及信息系统技术本身的变化。可重构信息系统为企业快
随着计算机图形技术的发展,计算机真实感图形已深入到人们的日常工作、学习、生活中。人们所要绘制的场景模型越来越复杂,一方面,借助各种建模方法,人们可以建立高度复杂的景物模
学位
RS与GPS为空间信息的采集提供了技术支持,GIS从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含数值
数据容灾近年来受到越来越广泛的关注,这主要是由于保护信息资源的重要性实际上远远大于保护计算机系统本身。建立容灾系统是保证计算机系统数据完整性和可用性的一种重要措