论文部分内容阅读
互联网的迅猛发展和广泛普及造就了一个数据爆炸的时代。在大数据时代,信息的获取变得方便快捷,但从海量数据中进行有效信息的筛选变得困难。问答系统是信息检索的高级形式。相比于基于关键词的传统检索方法,问答系统可以直接读取以自然语言提出的问题,理解问题意图,帮助人们获取准确简洁的答案。从数据来源来看,基于知识库的问答和基于机器阅读理解的问答是问答系统研究中的两个热点方向。前者以结构化的知识库作为答案来源,后者则从相关文本段落中挖掘答案。从方法上来说,问答系统的研究热点主要集中在文本特征和神经网络两方面。在基于文本特征的问答方法中,如何结合多种文本特征对问答系统进行建模是一个难点。在基于神经网络的问答方法中,如何更好的训练神经网络模型是一直以来备受关注的问题。中医是中华民族的瑰宝,记载着几千年来中国人民与疾病抗争,追求健康的经验和知识。十九世纪以来,现代西方国家的医学体系进入中国,使得中医面临巨大的挑战。中医理论形成的时期较早,其大量知识理论以古文形式记载,这让中医知识的传播和获取变得困难。中医领域的问答系统,不仅可以服务于中医研究领域的工作者,也能让普通用户更方便地获取和了解中医知识。因此,对中医领域问答系统的研究具有传承和发扬中华文明的重要意义。在基于知识库问答和基于机器阅读理解问答两个方向上,我们进行了相关研究,并将这两类问答系统技术结合起来应用于中医领域,设计实现了一个中医领域的问答系统。具体而言,本文的主要工作总结如下:(1)本文提出了一种结合多层文本特征的知识库问答方法。该方法首先从知识库中挖掘出候选三元组,然后从句子层面、词层面和字层面提取问题的多个文本特征并计算其各自的置信分数,最终联合用于候选三元组的置信度计算。将该方法在多个数据集上进行实验,实验结果验证了此方法的有效性。(2)本文提出了一种层叠循环神经网络的联合训练方法。该方法引入了浅层循环神经网络及深层循环神经网络的辅助损失函数对模型参数进行更新。在多个数据集上的实验结果表明了该方法的有效性。相比传统的单损失函数训练方法,当神经网络模型层数加深时,使用此联合训练方法能得到更好的效果提升。(3)本文提出了一种结合文本特征的词向量训练方法。该方法结合文本的词性特征及命名实体类别,对未登录词进行联合编码并训练其词向量。在多个数据集上的实验结果表明了此方法的有效性。测试集的未登录词率越高,该方法取得的实验结果与其他方法相比优势越显著,并且在达到相同实验指标的情况下,此方法占用资源更少,效率更高。(4)本文提出了一种中医领域问答系统的构建方法。我们与中医领域专家合作,设计了中医本体结构,并基于该结构构建了中医领域知识库。本文构建的问答系统利用了多种中医领域数据作为答案来源,包括:1.自行构建的中医领域知识库;2.包含医案在内的中医领域的非结构化文档。此问答系统结合多知识来源,能取得比传统仅基于知识库的问答系统更好的性能。