论文部分内容阅读
如今时代,合理运用数据,精准高效捕获信息是当今信息技术的研究热点。由于数据规模大结构复杂,传统的检索问答无法满足当代的需求,问答系统简洁、快速、准确获取解答,吸引了众多目光,电商、医疗、教育等行业相继展开研发。金融领域问答系统从银行客户解答到网上投资借贷问答逐步发展,金融领域问答系统的研究呈现着上升发展趋势。为了提高金融领域问答系统的性能,提高机器阅读理解模型对金融领域数据的适应性,对机器阅读理解模型进行合理的改进,结合机器阅读理解和问题匹配技术搭建金融领域的问答系统,本文的主要创新内容如下:(1)在BM25基础上结合了问题的语义特征,添加主语和宾语语义成分因素,考虑主语与宾语的词序关系。并加入增量实验判断不同数据规模对问题匹配算法性能的影响。经一系列的实验得出本文的问题匹配算法P、R和F值都比BM25和Vmodel高,其中准确率比BM25高17.53%,比Vmodel高18.69%,随着数据增量的上升召回率、准确率与F值上升速率相比另外两种算法更加平稳,体现数据规模的变化对本文问题匹配算法影响更小。(2)在Match-LSTM基础上根据不同数据集在模型中的定位采用相应的数据重构策略,文章根据与问题或答案相关性对文章中的句子重新排序,使得文章中跟解答相关的句子被优先识别,突出相关性较大的文章的特征,对融合后的文档做自注意力机制加深问题与文章的关联,突出文章中与问题关联较深的特征,联合多篇文章再做自注意力机制突出文章语义特征与其他文章的关联性。最终验证结果达到Rouge-L和Bleu-4分别为44.65、38.37,相比Bi DAF、Match-LSTM和QANet性能更高。本文还分析不同问题类型模型的性能,本文机器阅读理解模型对实体类和描述类问题的提升相对较高。(3)结合本文改进的问题匹配算法和改进机器阅读理解模型搭建成金融领域问答系统,根据金融相关的关键字从百度搜索获取金融相关数据,按照一定的数据结构对数据进行分类整理,在金融数据下相比运用其他阅读理解模型的问答系统,本文的问答系统性能更高,并且在实体类和描述类问题的解答上性能相对是非类问题的解答更高。