论文部分内容阅读
进入信息时代后各个领域的数据出现了爆炸性的增长,高效的知识搜索和发现成为日益迫切的需要。在许多面向领域的搜索场景中,由于数据保密性的原因通用的搜索引擎没有帮助,实现的搜索功能往往只是基于数据库查询的条件匹配,只能捕获有限的查询语句的语义信息。因此如何做到语义理解查询语句以实现面向领域的智能搜索具有非常重要的意义。针对智能搜索中核心的查询语句实体链接,传统的方法都是先识别出语句中的命名实体,然后再链接到知识图谱的实体,这需要大量的数据处理(如实体指称标注)和特征选择工作,而且容易造成错误累积,降低链接效果。针对这种情况,本文提出基于注意力机制的查询语句实体链接模型。该模型使用双向的长短期记忆网络对问句进行编码,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后再链接到知识图谱中的实体。在有关汽车领域车系产品问句和实体的数据集上进行实验,结果表明该模型仅利用很少的上下文信息便取得良好的效果,为实体链接提供了新的思路。结合自然语言处理的知识图谱、文本分类、实体链接、表示学习等技术,经过实践和总结,本文提出了一种面向限定领域的智能搜索框架,该框架由网络层、查询语句分类层、实体链接层、服务层和数据持久层组成,对每层结构的主要功能和可选方案做了简要介绍,通过对各层不同方案进行选择即可定制和实现一定程度上的语义理解查询语句。在对比了短文本的查询语句分类、结果文档排序等方案后,利用从网络获取的数据构建了一个简单的知识图谱,基于提出的查询语句实体链接模型和面向领域的智能搜索框架,采用网络应用技术实现了面向汽车领域的智能搜索系统,证明该实体链接模型和智能搜索框架是可行的。