论文部分内容阅读
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,形成网状的知识结构。通过知识图谱,可以实现Web网页链接向概念链接的转变,知识图谱支持用户按主题而不是字符串进行检索,从而实现真正的语义搜索[25]。知识图谱在这些应用中已经显示出重要的价值:(1)问答系统:问答系统将整个知识图谱看成一个巨大的知识库。在用户输入问题后,问答系统通过理解用户的问题,然后将用户的问题转化为对知识图谱的查询,从而在知识图谱内得到答案节点并提取答案节点的属性值以文字形式将答案返回给用户。(2)语义搜索:知识图谱将用户输入的文字转化为Cypher语句,并在知识图谱中进行查找,若是查找的一个节点,则搜索结果以图形方式显示与该关键字节点有关系或间接关系的25个节点。若是查找的是关系,则搜索结果以图形方式显示25个有着该关系的节点。若是查找的是两个节点,则搜索结果以图形方式显示两个节点及指向连接两个节点间的关系及所有的中间节点。(3)知识融合:当前大数据的特点是分布异构,许多一样的名称却有着多种多样的解释。另外同一个东西也有着多种名称。知识图谱可以使用相关算法来计算实体相关度,从而建立同义实体库,将相似的实体融合在一起,从而建立以知识为中心的语义集成服务。构建电磁兼容标准知识图谱的意义如下:(1)现阶段虽然知识图谱的研究不少,但大多数都是针对于英文知识图谱的研究和通用知识图谱的研究。针对于专业领域的中文知识图谱的研究其实并不多。因为专业领域相关的知识图谱一般是针对于某个特定的领域,如金融,医药等构建的具有领域特色的知识图谱。一般来说专业领域相关的独特性较强,具有一些独特的专业术语。专业领域的知识图谱的构建成本很高。因此专业领域相关的知识图谱由各领域的大规模公司或政府机构来构建。而本文所构建的小规模的专业性的知识图谱构建同样也可以为相应的小型公司或学生进行帮助。(2)现阶段大部分设计电子设备的企业的信息化,自动化基础都比较薄弱。这些电器公司受到成本压力,技术风险以及人才缺口的限制,对于数据积累和知识理解都处于初级基础阶段。构建电磁兼容标准知识图谱可以为电器企业提供数字化升级的解决方案。(3)随着电器企业之间的竞争加剧。培训电子工程师的成本也在逐渐提高。同时电子工程师的培养需要管理,技术等多方面的密切配合。人员流动率的增大也会导致一些电子企业流失掉电子工程师,培训成本也随之增大。因此电子企业也需要利用电磁兼容知识图谱来迅速使新员工能迅速上手公司的工作。(4)传统的电子制造业领域经过几十年的发展,基础理论,材料,工艺都已经到了发展的瓶颈期。另一方面,现在所有行业都在追求互联网+的情况下,构建电磁兼容标准知识图谱,增强了电子制造业的技术流通。帮助电子制造业减缓人力和研发成本压力。提高行业创新能力,从而赋能电子制造业转型升级。本文所做的工作如下:(1)第一章简述了电磁兼容标准和知识图谱的背景知识,并分析了国内外对于电磁兼容的研究现状,并简述了研究挑战。然后对其他人的论文进行了文献综述,简要地介绍了文本表示学习的一些基础模型,如Word2Vec和Glove等,和进阶模型,如ELMo和BERT等。文献综述中还讨论了文本表示和知识表示之间的联系。根据对他人文献的分析确定了本文将采用Word2Vec和BERT分别结合BiLSTM-CRF来对文档进行知识抽取。最终根据知识抽取的结果来构建一个中文知识图谱。在第一章最后对本文的结构进行了说明。(2)第二章详述了构建英文知识图谱的过程。首先对GJB151B-2013的文档内容进行了翻译和分析。然后手动的从这些高质量数据中提取出有用的信息并将其转化为结构化信息并存储在Excel文档中。最后通过Python将Excel文件转化为csv文件,并通过知识表示算法将csv数据表示成构建知识图谱所需数据,从而构建了英文版本的电磁兼容标准知识图谱。本章使用Python,Echart等技术构建了一个可视化知识图谱网站。首先分析了网站的系统需求,然后设计了网站的架构,并详述了网站的设计方案。最后对网站的功能进行了测试。另外在本章提出了使用URL来存储图片的操作,电磁兼容标准文档内具有很多项目的测试配置图,而不论是Echart还是Neo4j都无法在节点内存储图片,所以在本文中提出了用URL来存储图片。首先将所有的图片存储到某个网站上,并获得图片的链接地址。然后将链接地址存储在节点的属性值中。接下来用户在查找节点时便可同时获得其属性值,用户只需将链接地址复制并打开即可获得相应的图片。(3)第三章详述了构建中文版本的电磁兼容标准知识图谱的过程。知识图谱的构建的关键在于获得结构化数据。在获得结构化数据后,可以通过Python的知识表示算法来构建知识图谱,也可以通过将结构化数据导入到Neo4j中来构建知识图谱。第二章主要是手动的将文档内的内容转化为结构化数据。在第三章研究如何使用机器来提取文档中的内容,并将文档中的非结构化数据和半结构化数据转化为结构化数据。本章采用的是联合抽取的学习模型对数据进行抽取。首先使用Python对文档内的数据进行读取。然后用python对数据进行分析和清洗,从而得到关系三元组(实体1-关系-实体2)。接着使用jieba对语料进行分词处理,然后对实体和关系进行共同进行标注,根据预先定义好的关系列表抽取1-1,1-n,n-n的关系类型的数据。然后通过四种联合抽取模型来进行命名实体识别,并通过ACE会议上提出的准确性,召回率和F1值对这四种模型抽取的结果进行了对比分析。接下来将实体相似度高的数据存储在同义实体库中。在本章中讨论并实现了计算实体相似度的两种算法,并在两种算法的基础上提出了一种新的计算实体相似度的算法。最后通过ACE会议上提出的标准对三种算法进行了对比。然后将机器抽取出来实体和关系导入到Neo4j中,在Neo4j浏览器内形成知识图谱。用户可通过Cypher语句对节点和关系进行查找。本章构建了基于电磁兼容标准知识图谱的问答系统。首先基于GJB151B-2013的文档类容构建了问答语料库,当用户输入问题时,使用DeepDive提取问题中的主语和谓语,通过问答语料库将问题转换为相应的Cypher语句并将答案以文字形式返回给用户。最后本章将中文版本的知识图谱和问答系统集成到第二章所设计的网站中,形成一个集问答系统,语义搜索和可视化分析集一体的知识图谱应用网站。(4)第四章的工作为对本文内容进行分析总结,并对未来工作进行了展望。本文还有很多地方需要在未来的学习和实验中进一步完善,主要有以下几点:(1)由于本次构建知识图谱的所采用的文档较少,未来可以将众多的电磁兼容标准文档导入到知识图谱中。(2)知识图谱的构建分为自动构建,半自动化构建和手动构建三种方式,本文讨论了手动构建和半自动化构建知识图谱,并分析比较了其中的差别,未来可以再研究自动化构建知识图谱和半自动化构建以及手动构建知识图谱的区别。(3)技术文档通常具有层次结构,一篇技术文档由段落组成,段落上下文的关联性比较低。由于技术文档格式的特殊性,本文讨论的算法对文档数据抽取的准确率和召回率还不够高,可以在未来研究更好的算法来对文档数据进行抽取。(4)GJB151B-2013 是 GJB151A-97 的新版,但是对于 GJB151B-97,GJB151B-2013并未大量修改和添加新的内容。将来也会有GJB151B-2013的新版,届时重新构建一个知识图谱会费时费力。因此未来可以对知识图谱的更新进行研究,即对知识图谱内部数据进行分析。若是相同内容表示不变,不同内容则进行替换。(5)最后在构建完可视化知识图谱系统和问答系统后之后,还可以对知识图谱的其他应用进行开发。