论文部分内容阅读
大数据环境下,海量的数据资源产生于多个数据平台,多源数据融合技术将来自多个数据源的实体信息进行整合,为数据挖掘、机器学习等数据分析任务提供高质量的分析数据集。这些数据集中可能包含大量的重复实体,不但造成资源浪费、还会影响数据分析的结果。实体解析技术是提高数据质量的关键技术,它能够解决数据重复性问题。现实世界中,同一实体可能来自多个不同的数据平台,不同的数据平台对同一实体的描述可能不一致,如数据格式、表达方式等。实体解析的任务就是从大量的重复实体中找出哪些是重复实体,并进行数据清洗,提高数据的质量。目前,实体解析研究主要集中在重复记录检测方面。现有的实体解析方法大多是基于特征匹配的,即人工的提取实体对之间的相似性特征,并设计合适的匹配函数对实体对是否匹配进行判断。一方面,现有的相似性特征都是利用字符或者文本的字面相似性,忽略了语义信息;另一方面,在进行实体匹配中忽略关键属性的作用,即在实体匹配任务中不同属性之间的差异性贡献。这些问题影响实体解析的质量和效率。针对以上的问题,本文提出基于多属性注意力机制的实体解析方法,主要研究内容如下:(1)提出多属性注意力机制的实体匹配模型。为了提取实体对之间的语义相似性特征,本文利用BERT模型做表格数据的预训练,利用表格数据在BERT预训练模型上微调的方式,获得每个字符的高维语义向量。同时,为了突出各个属性对于实体匹配的差异性贡献,本文将表格中的每个元组拆分成单词序列,利用双层LSTM对整个元组进行深度学习建模,同时以属性为界限分割,在每个属性之上添加注意力机制,突出各个属性的差异性贡献。(2)提出基于属性列的加权哈希分块方法。为了提高实体解析的效率,本文在局部敏感哈希方法的基础之上,提出了基于属性列的加权哈希分块方法。本文利用属性列与元组之间的语义关系,计算得到每个属性对于元组语义表达的权重信息,在对属性列进行局部敏感哈希编码之后,利用各属性的语义表达和权重信息对整个元组进行加权哈希编码。本文提出的方法在多个公开数据集上进行实验。实验表明,本文提出的实体解析方案可以有效的提高实体解析的质量和效率,且更适用于大数据量的实体解析任务。