论文部分内容阅读
认知科学的研究表明,人类在语言习得过程中,视觉信息具有重要的辅助作用。探索利用视觉信息辅助进行语言计算,有助于更深刻地理解人类语言处理的机制,为自然语言处理研究提供新的材料和思路,同时在图文转换、视频检索等方面有广阔的应用前景。本文构建了一个基于视觉信息的汉语词汇语义习得模型ViMac(Visual Information based Meaning Acquisition of Chinese Words)。该模型由三个模块组成,分别是词的聚类、特征选择和词的语义建模。词的聚类完成词汇按照所属语义范畴的划分,特征选择完成词汇与图像底层特征的对应,词的语义建模完成词汇语义的图像特征的表示。通过这三个部分得到汉语词汇的语义模型。实验表明,该模型具备较为初级的学习能力,能够学习与视觉相关的五个范畴的词,分别是颜色、形状、大小、方位和修饰颜色副词。进一步,本文将习得的汉语词汇的语义模型应用到图像描述系统ViMacs (ViMac Application System)中,用于对简单图像自动生成文本描述。实验表明,本系统具备一定的图像描述能力,这是基于符号的词汇表示方法所不具备的。另外,本文借鉴机器翻译的评测方案,提出了对图像描述系统的评测方案。该方案能够有效的反映机器自动标注与人工的标注的一致性。最后,本文利用上述评测方案,对ViMacs系统的性能及ViMac模型关键模块对ViMacs系统性能的影响进行了详尽的评测。根据评测结果,提出了对系统性能影响较大的两个问题。针对这个两个问题,本文对ViMacs系统进行了改进尝试,并作了多组比较试验。本文中介绍的ViMac模型是机器模拟人的认知能力的一个计算模型,它也是自然语言处理研究中一个新的思路。它是人类发掘自身的认知模型以及自然语言处理研究向多模态融合处理深入发展的一个有意义的尝试。