一种基于模式的实体解析算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:esinstra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性.
其他文献
行人再识别是一个有着非常重要现实意义的研究问题,它可以应用于刑事侦查、在公共场所中寻找丢失的小孩、个人相册管理以及电子商务等领域.同时由于光照、视角、人的姿态以及
UWSN(Underwater Wireless Sensor Networks)相较于传统的无线传感器网络采用了声信号进行数据传输,由于高传输延迟的引入,冲突类数据丢失现象凸显,网络可靠通信面临全新的挑战
随着智能移动终端的普及和移动应用对计算资源需求的不断增长,移动终端资源(包括计算、存储、能量等)受限问题日益突出,如何扩展移动终端资源成为移动计算领域需要迫切解决的
网络坐标是根据网络测量时延将节点嵌入虚拟度量空间,根据坐标位置预测节点时延的模型和算法.然而通过网络测量发现互联网中广泛存在非对称和反三角(Triangle Inequality Viol