多源数据中同一实体识别技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhongdezhufangchuxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,产生了海量的数据,从而产生大量的冗余数据,降低了数据质量。实体识别技术是数据质量管理的重要研究方向。在不同的数据源中,现实世界中的同一实体可能具有不同的描述方式。例如电子商务信息系统中,同一用户在淘宝平台上和京东平台上注册了不同的账户。实体识别的目的就是识别出多个数据源中描述现实世界同一实体的数据记录,而实体识别的结果在数据管理、电子商务信息搜索等领域有着广泛的应用。目前实体识别技术,主要针对如何有效判定不同数据源中的两个数据对象描述的是否为同一实体,现有实体识别方法的匹配精度和时间效率还有待提高。因此,本论文将结合面向多属性字符型数据和异构网络数据,针对多属性数据的实体识别算法和基于异构网络的实体识别算法进行研究。本文的主要工作如下:(1)研究实现了面向多属性字符型数据的实体识别方法。在传统的基于前缀树模型的基础上,针对传统模型在建立前缀树时,掺杂了冗余的数据记录,致使生成的候选集个数大,验证时间长的问题,本文提出了自适应贪心前缀树算法。在生成前缀表的过程中加入自适应选取前缀变量以及在建立前缀树时加入结点拆分策略,减少了候选集个数,降低了匹配的验证时间。在真实DBLP数据集上与传统的实体识别方法进行的对比实验表明,自适应贪心前缀树算法对于处理多属性的字符型数据,保证算法的有效性同时具有更好的效率。(2)研究实现了面向异构网络数据的实体识别方法。在传统锚结点算法基础上,针对该算法在处理异构网络中结点信息时,只使用了结点的属性信息,而忽略了异构网络中网络拓扑特征的问题,本文提出了基于元路径的异构网络实体识别算法(Entity Recognition on the Heterogeneous Network based on meta path,ERHN),加入了异构网络中网络拓扑信息,提高了实体识别的匹配精度。通过在真实Twitter和Foursquare数据集上的实验,验证了算法的有效性。(3)进一步,为提高异构网络中实体识别的效率,本文提出了 ERHN++算法,即先利用自适应贪心前缀树策略,将不同异构网络数据中不可能匹配的结点对剪枝,生成可能匹配的结点候选集。针对这部分候选集,再使用ERHN算法处理得出锚结点集。通过在Twitter和Foursquare数据集上ERHN算法和ERHN++算法的对比实验,验证了 ERHN++算法的有效性同时具有更好的效率。
其他文献
通过介绍以色列的模板规范,阐述了模板规范的当代走向.以色列规范的主要新颖之处在于同等对待临时结构和永久结构的设计,用极限状态设计和分项安全系数的概念来代替传统的"许
<正> 近年来,住宅屋面由几十年的平屋面改为造型多变、色泽亮丽的斜屋面,为城市景观增添了亮丽的色彩.然而从使用效果来看,有些斜屋面的防水性能并不尽人意,漏水问题依然存在
以分析法和归纳法为手段,在全面考察康熙五彩纹饰基本形态的基础上,探讨康熙五彩人物纹饰的具象内涵及色彩意境。此纹饰虽为装饰语言,但深层次的研究文化心理语言,还是无几,
通过深基坑土钉支护工程实践,表明复合土钉墙支护工艺在复杂周边环境及超大型深基坑中的适应性及可行性.
在高层建筑顶端建造金字塔形的屋面,其上还要安装30m高的独立旗杆,具有相当的施工难度。
江泽民作为党的第三代中央领导集体的核心,高度重视知识分子问题,发表了系列相关讲话。他诠释了知识分子的阶级属性,评价了知识分子的社会作用,指明了知识分子的成长道路,阐
现在社会城市生活节奏的加快带动了城市环境的发展。为了拓展城市绿化空间,城市大量推进立体绿化的建设,城市山体公园在此基础上得到了大量的发展。各大城市利用城市内部、外围的自然山体或人工堆砌山体开始营造山体公园。但初期的各大山体公园往往与城市的联系不紧密。由于山体公园的地形原因,处于位置较偏的地带,而与当地文化相结合的山体公园景观也很少,导致山体公园没有一定的标识性和地方性,难以体现当地景观特色。在中国