论文部分内容阅读
框架语义依存图是基于汉语框架网,对汉语句子进行形式化表示的一种有效方式,而框架核心依存图是抽取框架语义依存图中的核心成分,来达到对句子的深层语义理解。本文研究从框架语义依存图中提取框架元素的语义核心词,得到框架核心依存图。本文的研究内容主要包括:(1)系统地描述了框架元素语义核心词的识别问题,并提出了利用统计机器学习方法:条件随机场模型、最大熵模型和SVM模型进行框架元素语义核心词的识别。(2)针对三种不同模型,对特征集选择进行了分析。在所选基本特征的基础上,构造不同的组合特征模板进行对比实验。通过实验结果分析,选取其中较优的特征模板和模型作为框架元素语义核心词识别的研究方法。(3)实验改进。为了进一步提高识别效率,本文在CRF模型的特征选择上进行了改进。在选择上下文信息的时候,选取了远距离实词这一信息。采用这种方法,使得识别效率得到了一定的提高。实验结果表明,在三种机器学习模型中,针对框架元素语义核心词识别任务,CRF模型具有较好的识别性能,其中对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了97.34%和94.03%。