论文部分内容阅读
自然语言理解是计算机科学领域与人工智能领域中的一个重要方向,它主要研究用自然语言在人与计算机之间进行有效交流的理论和方法。计算机理解自然语言的前提条件是能够对自然语言语句进行语义分析。通过语义分析和深入的知识获取及推理,就有可能使计算机具有与人类进行无障碍沟通的能力。为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想。 浅层语义分析,又称语义角色标注,是对深层语义分析的一种简化,它只标注与句子中谓语动词相关句法成份的语义角色,如施事、受事、时间和地点等。现有自然语言处理技术和统计学习技术的成熟,为浅层语义分析的实现提供了保证。浅层语义分析多被应用于问答系统、信息抽取和机器翻译等自然语言处理系统中。 本文设计并实现了一个基于最大熵模型的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,采用从下向上的标注策略对基于语料生成的完全句法树进行语义角色标注,在对41个特征模板进行筛选后,最终采用36个特征模板进行特征提取,用最大熵模型对句子中谓语动词相关句法成分的语义角色同时进行识别和分类,在国际相关领域的评测标准下,最终在训练集外的测试集上获得了78.03%的Fβ-1值。文章最后分析了本系统的实验结果并对语义角色标注的发展做了展望。