论文部分内容阅读
命名实体间语义关系抽取是文本信息抽取中的关键步骤,是语义识别的重要研究方向。随着互联网对人们生活、学习、工作等各个方面的不断加深的影响,从自由文本及互联网网页中抽取出有用的结构化信息具有非常重要的意义;随着自然语言处理技术和机器学习技术的不断发展和成熟,人们已经可以从互联网中抽取出结构化信息甚至知识。本文介绍了信息抽取系统的特点及其广泛应用,然后进一步分析了命名实体识别和实体关系抽取的特点和研究进展。在对现有信息抽取系统的研究基础上,本文基于Spring和Struts,利用GATE和WordNet,构建了一个命名实体识别与关系抽取系统,并对抽取结果进行了可视化处理。该系统具有良好的扩展性、易用性,可以作为组件集成到其它信息系统中,有较高的应用价值。此外,在关系抽取方法选择上,本文设计了基于“依赖动词”、“核心介词”、“所有格”这三种算法来实现关系抽取。利用词性、语法解析结构等语义特征,使得系统可以处理共指消解等较复杂状况。实验结果表明,本文提出的算法提高了实体识别与关系抽取的准确性,取得了良好的效果,而且系统使用了基于Java的Web框架来构建,使系统具有了方便移植的特点。