工业物联网数据的实体识别方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:meishan802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物联网中的劣质数据处理一直以来都是研究热点之一,针对实体同一性问题的实体识别方法更是受到广泛关注。实体识别是指从数据集合中发现描述现实世界同一实体的不同数据。由于工业物联网数据具有浮动性和实时性,现有实体识别方法不能实现高准确性、高效率的工业物联网数据实体识别。因此,针对工业物联网数据,本文首先提出了一种面向历史数据的渐进式实体识别方法,然后在该方法基础上提出了一种面向实时数据的增量实体识别方法。本文的主要成果如下:为提高工业物联网数据实体识别的准确性,首先,针对工业物联网数据中各属性的数据类型不完全一致的问题,提出利用哈希编码实现数据类型不敏感的属性判等方式,并基于该属性判等方式形成一系列实体匹配条件,进而构建一套实体匹配规则,该匹配规则利用哈希编码的唯一性实现高精度匹配。然后,针对工业物联网数据的数据浮动性,以上述高精度匹配的实体匹配规则为理论基础,利用Merkle-tree的思想提出一种面向历史数据的渐进式实体识别算法(progressive entity resolution for historical data,以下简称PER-H算法)。该算法首先提出了一种数据标准化方法,以便消除数据浮动性对实体识别准确性的影响;而后针对工业物联网数据的海量性,为了保证实体识别的效率,本文对Merkle-tree结构进行变形,利用变形后的Merkle-tree结构对数据中包含的各个属性列的属性值进行渐进式哈希运算,通过渐进式操作方式避免了大量不必要的属性哈希运算及其对比操作,在提高识别精度的同时保证识别效率。为提高工业物联网数据实体识别的效率,首先,针对实时增量数据对实体识别过程的高实时性要求,对链式结构St-Chain进行优化,基于优化后的St-Chain结构提出一种面向实时数据的增量实体识别算法(incremental entity resolution for real-time data,以下简称IER-RT算法)。然后,为了提升IER-RT算法的可扩展性,便于其他领域引入并结合该算法的核心思想,本文将IER-RT算法的精髓抽象出来,进行优化提升,构建一套面向实时增量数据的通用实体匹配规则,并提出适合该实体匹配规则的相似性度量公式。实验结果表明,本文提出的面向工业物联网数据的实体识别方法在识别准确性和识别效率两方面都具备较高性能。
其他文献
G·A·柯亨(Gerald·Allan·Cohen,1941—2009)分析马克思主义的代表人物,他对历史唯物主义的重新解读让英美学术界重新开始把历史唯物主义当作一项重要内容进行研究的同时也
复杂网络的相关研究对社会生活各方面都具有重要意义,随着对其相关研究的不断深入和社会信息的飞速发展,最初的节点间只存在一种连接关系的单维网路无法满足真实世界的应用需
近些年来,数字图像技术不断发展,针对计算机视觉的研究成果不断应用于各个领域,其中图像配准作为研究热点,更是在许多方面有着广泛的应用,包括图像拼接、变化检测、图像融合
小波分析的理论研究是小波分析的实际应用的强大支撑,由于实际应用的要求和数学学科本身的发展,人们根据需要构造出不同的小波.然而在实际应用过程中,我们发现对于2尺度小波,
随着生产技术与工业水平的不断发展,社会对于各种能源的需求越来越大,比如:石油资源以及石油衍生物的需求。石油资源的运输主要依靠水路运输,无论是依靠海上石油运输或是依靠
当前工业发展正朝着工业4.0的目标前进,新产品的设计效率对企业的竞争力显得越来越重要。三维CAD模型检索技术在新产品设计中发挥着显著作用,用户通过检索出相似模型,可以削
区块链技术是多种现代技术的新型应用模式,其中包括共识算法、密码学、分布式存储等诸多计算机应用技术。作为一种新兴的信任模型,其实现了资源的高效分配,并保障了基础设施
在近代科学中,反应扩散系统已被广泛地用来描述物理、化学和生物学中等各种现象.如:流体在多孔介质中的运动规律、Belousov-Zhabotinakli反应、生物学中各种群间的相互作用和
21世纪以来,随着中国经济的高速发展,“汉语热”不断兴起。特别是十八大以来,习近平总书记在各大重要场合不断强调和阐释文化自信,让中国优秀传统文化不断“走出去”,也让世
肿瘤微环境是一个复杂结构系统,具有增强或逃避宿主免疫监视和杀伤的作用。组成肿瘤免疫环境的核心免疫细胞包括T淋巴细胞、B淋巴细胞、NK细胞、巨噬细胞、DC细胞和中性粒细