论文部分内容阅读
当今,阅读理解问题研究已成为问答系统研究的热点问题。与以往的问答系统在大规模文档集合中检索答案不同,阅读理解问题更侧重于对单篇文档的深入理解,除了使用信息检索技术还需要更多的自然语言处理技术来进行解答。目前对于阅读理解问题的研究大部分针对选择题,尤其是面向实体等具有简短答案的简单事实类问题。然而,在真实的高考场景中,阅读材料与题目都很复杂。如:散文就是北京语文高考中常见的一种阅读体裁,这是传统NLP很少研究的类型。同时,考察的题型包括问答题和选择题,题目设置相当灵活,十分复杂。本文针对北京高考散文阅读理解中的选择题解答方法进行研究。本文主要分为以下四部分:(1)散文阅读理解选择题分析。从题目形式、考察内容、难点三个方面对高考散文阅读理解选择题进行分析。(2)基于语言模型的解答策略。使用一元语言模型和二元语言模型计算文章对每个选项的支持度,依据支持度计算的结果对选项进行排序,从而对选择题进行解答,取得的召回率为32%。(3)基于启发式信息的解答策略。该方法的主要思想为:(1)基于选项划分信息将选项划分为原文陈述子句和观点理解子句;(2)基于情感极性信息对选项进行初步排除;(3)针对观点理解子句使用反常度信息进行计算,依据反常度计算的结果对选项进行排序。解答的召回率为60%。(4)对选项进行基于SVM的多标签分类。从选项的类别定义和自动分类方法两方面进行研究:(1)将选项划分为概括总结类、因果类、关系推断类、思想情感类、语言鉴赏类、共五个类别;(2)使用融入词汇,语义,语法等一系列特征的词袋模型和利用神经网络训练的词向量累加模型对选项进行表示,采用了基于SVM的Binary Relevance算法和基于SVM的Classifier Chains算法对选项进行多标签分类,标签的完全匹配数为40%。本文的贡献有以下几点:(1)提出并尝试了基于语言模型的解答策略和基于启发式信息的解答策略对选择题进行解答。(2)提出了选项分类任务,定义选项类别体系,尝试了基于SVM的选项多标签分类方法。