论文部分内容阅读
国务院在“十三五”国家食品和药品安全规划的通知中指出,保障食品安全是建设健康中国、增进人民福祉的重要内容,是以人民为中心发展思想的具体体现。随着人民生活水平的不断提高,食品安全问题受到更多关注。互联网上食品安全方向的正确引导关系到该领域的健康发展,然而随着网络传播载体由文字逐渐转为图像视频等视觉媒体,无法直接进行内容检索,未标记或错标记的食品视觉媒体错误地引导着舆论方向。正确利用互联网中的食品视觉媒体,正确归类并标记图像,从中获取知识,是构建食品安全图谱的前提条件,同时也可以正确引导食品安全的舆论方向,推动领域的快速健康发展。然而图像的精确标注需要消耗大量的人工操作且效率较低,自动对图像进行标记逐渐成为研究的热点和难点。面向食品安全的图像语义分析方法是一种利用机器标注和描述食品图像的方法。主要分为三个步骤:图像特征提取、目标区域选择以及语句生成。现有的特征提取方法和目标区域选择方法大多利用CNN等常用的特征提取模型,较少考虑在语句生成过程中,词汇之间的关联性;在语句生成过程中,语法较为单一,语句的平滑性较差;并且在模型训练过程中,食品类图像库较少,模型的表现能力有待进一步加强。针对以上问题,本文主要提出面向食品安全的图像语义分析方法。主要从特征提取、目标区域选择和语句生成三方面展开研究。主要贡献包括:(1)针对特征提取不准确的问题,提出一种基于高层语义的鲁棒特征表示算法。通过对卷积层增加频道注意力模型,使特征提取过程分散到各个卷积过程当中。通过各个层之间与图像库的特征对比,选取尽可能准确的特征进行传递;(2)针对特征选择不恰当的问题,提出一种目标区域精确定位的方法。利用双向递归神经网络使图像目标区域和词汇短语进行配对,并通过此记忆模型选取排名更靠前的特征关系对,使之拼凑为一个特征向量,作为语句生成模型的输入;(3)针对句法生成较为单一,语句缺乏平滑性连贯性等问题,提出语句关联度最优匹配度模型。利用生成式对抗网络进行博弈,其中生成器和鉴别器都采用单层的长短时记忆模型,生成器不断产生语句,鉴别器对其不断进行鉴别。当生成器产生语句足以蒙骗鉴别器时,选择此生成器作为语句生成模型;(4)针对食品图像集少,食品图像语义分析模型难以训练等问题,本文构建了“北京工商大学食品图像集”,利用此图像集以及本文提出的图像特征提取模型和语句生成模型,提出面向食品安全的图像语义分析框架,该框架可以有效的对食品图像进行语句分析,对图像的文字表示和知识转换有较好的作用。在现有的数据集上实验表明,本文提出的方法较主流方法在三种评价指标上都有不同程度的提高。本文提出的面向食品安全的图像语义分析框架,对机器学习在食品安全领域的开展和研究有一定的参考价值。