论文部分内容阅读
以“地理”为代表的基础教育资源蕴含了丰富的知识,在高考试题解答中的知识也常常是一种复杂的结构化的信息集合且关联性强。因而,对试题研究采用何种高效的深层知识表示方法以及该知识表示与大型本体知识库之间的关系,如何对问题进行深度语义信息抽取,最终实现对问题的理解,对进一步开发类人智能产品具有重要的意义。论文依托863项目“面向基础教育的类人智能知识理解与推理关键技术”,对问题语义分析的核心任务深层知识表示方法进行了研究,主要工作如下:1)设计了基于组合语义的DAG(Directed Acyclic Graph)深层知识表示方法。针对地理高考试题特点,设计了基于模板的试题预处理算法,定义了试题模板触发词,将试题中结构复杂的长句转化为结构相对简单的短句,并利用词向量模型训练并扩展了触发词列表。在此基础上,将试题模板转化为有向无环图结构。根据组合语义,利用组合范畴语法将预处理后的试题短句转化为有向无环图,最后与模板的图结构相结合,形成最终的有向无环图DAG深层知识表示。2)设计了基于剪枝算法与启发式搜索的组合范畴语法分析优化方法,有效地提高了组合范畴语法的分析效率以及DAG深层知识表示的分析速度和准确性。在剪枝算法中论文使用的词汇序列标注模型为最大熵模型,减小了词汇范畴搜索范围,实现了对CCG句法分析的加速。接着使用了启发式搜索代替原有的CKY算法,提高了搜索效率。剪枝算法与启发式搜索是彼此相互独立、互不影响的,它们共同提高了组合范畴语法的分析效率以及准确性。3)设计了基于DAG深层知识表示的问题语义分析方法。将本体知识库视为一个具有复杂网络结构的图,同时根据DAG深层知识表示方法,将知识拆解为节点及边,插入到现有的基于图的本体知识库中,利用词向量进行谓词模糊匹配。同时,在输入的问题是由不完全、或模糊的语句组成时,设计了问题近似子图提取算法从多个DAG子图中提取问题子图,然后根据提取的DAG与问题的对比获得具有匹配度排序的DAG集,从而实现对问题语义的理解。论文提出的基于组合语义的DAG深层知识表示方法在试题结构复杂且问题表示模糊的情况下取得了较好的效果,对试题的解答提供了巨大的帮助。