论文部分内容阅读
随着信息技术的发展,产生了海量的数据,从而产生大量的冗余数据,降低了数据质量。实体识别技术是数据质量管理的重要研究方向。在不同的数据源中,现实世界中的同一实体可能具有不同的描述方式。例如电子商务信息系统中,同一用户在淘宝平台上和京东平台上注册了不同的账户。实体识别的目的就是识别出多个数据源中描述现实世界同一实体的数据记录,而实体识别的结果在数据管理、电子商务信息搜索等领域有着广泛的应用。目前实体识别技术,主要针对如何有效判定不同数据源中的两个数据对象描述的是否为同一实体,现有实体识别方法的匹配精度和时间效率还有待提高。因此,本论文将结合面向多属性字符型数据和异构网络数据,针对多属性数据的实体识别算法和基于异构网络的实体识别算法进行研究。本文的主要工作如下:(1)研究实现了面向多属性字符型数据的实体识别方法。在传统的基于前缀树模型的基础上,针对传统模型在建立前缀树时,掺杂了冗余的数据记录,致使生成的候选集个数大,验证时间长的问题,本文提出了自适应贪心前缀树算法。在生成前缀表的过程中加入自适应选取前缀变量以及在建立前缀树时加入结点拆分策略,减少了候选集个数,降低了匹配的验证时间。在真实DBLP数据集上与传统的实体识别方法进行的对比实验表明,自适应贪心前缀树算法对于处理多属性的字符型数据,保证算法的有效性同时具有更好的效率。(2)研究实现了面向异构网络数据的实体识别方法。在传统锚结点算法基础上,针对该算法在处理异构网络中结点信息时,只使用了结点的属性信息,而忽略了异构网络中网络拓扑特征的问题,本文提出了基于元路径的异构网络实体识别算法(Entity Recognition on the Heterogeneous Network based on meta path,ERHN),加入了异构网络中网络拓扑信息,提高了实体识别的匹配精度。通过在真实Twitter和Foursquare数据集上的实验,验证了算法的有效性。(3)进一步,为提高异构网络中实体识别的效率,本文提出了 ERHN++算法,即先利用自适应贪心前缀树策略,将不同异构网络数据中不可能匹配的结点对剪枝,生成可能匹配的结点候选集。针对这部分候选集,再使用ERHN算法处理得出锚结点集。通过在Twitter和Foursquare数据集上ERHN算法和ERHN++算法的对比实验,验证了 ERHN++算法的有效性同时具有更好的效率。