论文部分内容阅读
随着我国全面建成小康社会的实现,人们对饮食的需求由温饱问题转变为健康问题,这一转变使人们更加重视饮食结构,对食品及健康方面知识的需求越来越强烈。互联网的相关信息存在信息分散、数据质量低等问题,海量参差不齐的数据增加了人们获取有用信息的难度。使用浏览器搜索数据是人们惯用的查询信息的手段,但基于关键词的查找较为局限,不符合人们自然语言的特点。食品知识本身专业性强,人们难以从搜索返回的庞杂冗余的结果中筛选整理出正确的适合自已的食品信息。因此,人们急需一个整合了食品相关知识并提供高质量的食品信息的信息获取平台。谷歌在2012年提出了知识图谱概念,知识图谱可以挖掘网页文本中的概念和它们之间的关系并进行语义表示,即抽取过滤互联网上的庞杂数据,整合多数据源的数据,最终表示为知识对象。知识图谱为整合过滤食品信息提供了新的思路。对话系统是近些年提出的优于搜索系统的获取信息的另一种手段,对话系统可以理解用户的语义信息,有针对性的快速给出高质量回复,且以对话的形式以自然语言的方式与人进行交流,更贴近人的语言习惯。本项目为了满足人们对于获取饮食、营养、健康等方面信息的需求,构建了食品领域知识图谱,并提供一个食品领域对话系统。本项目主要开展了如下的工作:一、本项目针对领域数据的特点,使用一种以需求为导向的,逐步完善的,自底向上与自顶向下相结合的,领域知识图谱“三步”构建法,构建了包含食物、菜肴、餐厅、地点、营养元素、人群、症状、功效、季节九大类本体的食品领域知识图谱。二、将引入BERT预训练模型的BiLSTM+CRF实体识别算法用于食品的实体识别任务,分析对比了该模型相对于其他模型的优势。实验结果表明BERT+BiLSTM+CRF在本项目构造的数据集上达到91.55%的F1值,证明该模型能够充分提取字符、词语、句子甚至句间关系的特征,在食品实体识别任务中取得了较好的效果。设计了一个基于别名词表与综合评分筛选算法,对应用该方法筛选出相近实体的候选食品对做支持向量机SVM模型的分类任务,将分类为同一实体的食品对链接为相同实体。三、应用本项目构造的食品知识图谱,设计并实现了一个食品领域对话系统,该系统具备对话食品相关知识及简单问候功能,系统功能正常、性能良好。本项目通过构建食品领域知识图谱整合了食品相关知识,并提供一个食品领域对话系统,方便人们高效、便利的获取高质量食品相关知识,具有一定的研究意义和应用前景。