论文部分内容阅读
物联网中的劣质数据处理一直以来都是研究热点之一,针对实体同一性问题的实体识别方法更是受到广泛关注。实体识别是指从数据集合中发现描述现实世界同一实体的不同数据。由于工业物联网数据具有浮动性和实时性,现有实体识别方法不能实现高准确性、高效率的工业物联网数据实体识别。因此,针对工业物联网数据,本文首先提出了一种面向历史数据的渐进式实体识别方法,然后在该方法基础上提出了一种面向实时数据的增量实体识别方法。本文的主要成果如下:为提高工业物联网数据实体识别的准确性,首先,针对工业物联网数据中各属性的数据类型不完全一致的问题,提出利用哈希编码实现数据类型不敏感的属性判等方式,并基于该属性判等方式形成一系列实体匹配条件,进而构建一套实体匹配规则,该匹配规则利用哈希编码的唯一性实现高精度匹配。然后,针对工业物联网数据的数据浮动性,以上述高精度匹配的实体匹配规则为理论基础,利用Merkle-tree的思想提出一种面向历史数据的渐进式实体识别算法(progressive entity resolution for historical data,以下简称PER-H算法)。该算法首先提出了一种数据标准化方法,以便消除数据浮动性对实体识别准确性的影响;而后针对工业物联网数据的海量性,为了保证实体识别的效率,本文对Merkle-tree结构进行变形,利用变形后的Merkle-tree结构对数据中包含的各个属性列的属性值进行渐进式哈希运算,通过渐进式操作方式避免了大量不必要的属性哈希运算及其对比操作,在提高识别精度的同时保证识别效率。为提高工业物联网数据实体识别的效率,首先,针对实时增量数据对实体识别过程的高实时性要求,对链式结构St-Chain进行优化,基于优化后的St-Chain结构提出一种面向实时数据的增量实体识别算法(incremental entity resolution for real-time data,以下简称IER-RT算法)。然后,为了提升IER-RT算法的可扩展性,便于其他领域引入并结合该算法的核心思想,本文将IER-RT算法的精髓抽象出来,进行优化提升,构建一套面向实时增量数据的通用实体匹配规则,并提出适合该实体匹配规则的相似性度量公式。实验结果表明,本文提出的面向工业物联网数据的实体识别方法在识别准确性和识别效率两方面都具备较高性能。