论文部分内容阅读
自然语言处理是语言学和人工智能间的跨学科研究领域,其目的是研究和开发应用程序,使得计算机具有理解或生成文本、语音等类似人类思维活动的能力。近年来,人们对于基于本体技术的文本事件语义建模方法的兴趣日益浓厚,越来越多的企业和学术组织已采用万维网联盟(W3C)的资源描述框架(RDF)作为描述文本语义知识库的标准方法。将文本进行语义结构化描述,有助于推断、推理等文本的语义理解任务,同时也能提高问题回答、信息提取、机器翻译和其他自然语言处理应用程序的性能。本文以故事驱动的连环画自动生成系统为研究背景,利用事件本体模型具有较强的语义表达和推理的特点,提出了基于自然语言处理技术的故事事件语义建模方法。该方法的目标是从自然文本中得到语义模型,从而实现机器的互操作、语义查询和推理等自动处理能力。最后本文将故事事件语义建模方法应用到基于故事驱动的连环画自动生成的原型系统中。主要工作如下:首先,分析和总结国内外信息抽取的研究背景和现状,特别是信息抽取技术在语义词汇资源获取方面的应用;接着介绍了媒体数据语义结构化描述的研究背景及意义,并回顾了基于事件本体的多媒体数据标注的研究现状。然后,提出了故事事件语义建模方法。该方法主要包括以下步骤:面向故事可视化的普适性语料预处理方法;基于开放式信息抽取的故事浅层语义框架元素抽取方法;面向故事可视化的事件类型分类体系和基于触发词表与相似度结合的事件类型识别方法;事件框架元素半自动映射为多媒体数据事件标注模型实例的规则和方法。最后,本文设计了一个基于故事的连环画自动生成的原型系统,在该系统中故事事件语义建模方法得到应用。我们使用语音技术获得图片的文本内容;利用事件语义建模方法对文本和图片的文本内容进行事件语义建模,形成语义形式的事件流;利用语义web的查询和推理机制,搜索出与文本对应的图片,音频等多媒体数据信息。