基于多索引的实时实体解析与关键词查询处理

来源 :河北大学 | 被引量 : 0次 | 上传用户:dhxdhxdhxdhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的关键词Top-N查询技术大多基于干净数据集,难以直接用于脏数据集。脏数据集中可能存在大量包含拼写错误、空值或重复的记录,直接查询难以得到可靠的结果,从而影响后续决策分析的准确性甚至得到错误的结论。传统实体解析技术识别与合并脏数据集中的重复记录,从而得到一个干净数据集,但是其耗时大且难以直接与查询算法相结合,所以有必要研究实时实体解析技术并且设计有效的分块索引和算法,使其可以在亚秒级时间内完成一条记录的解析。针对包含重复、拼写错误或空值等类型的脏数据,本文研究实时实体解析和关键词Top-N查询技术。本文的主要工作包括:(1)针对数据集中的多个属性建立多个索引,每个索引根据相应属性值的特征使用不同的索引结构,包括哈希索引、跳跃表索引以及B~+树索引等,用来对数据集进行划分。基于多个索引构成全局索引来协同检索候选元组。(2)设计基于多索引的实时实体解析相应的排序函数与算法。排序函数以编辑距离为基础,利用元组间相同属性值的数目以及属性值长度等因素来判断两元组是否指向同一实体。所设计的算法通过对数据集进行分块,减少候选元组的数目,从而提高实体解析效率。同时避免不必要的计算,以减少实体解析的时间,使其可以在亚秒级时间内解析一条记录。(3)基于多索引,设计两种关键词Top-N查询算法来对脏数据集进行查询处理。一种是基于实体解析结果的关键词查询,另一种是融合实时实体解析的关键词查询。同时利用元组属性的数目、属性的重要程度、查询词的匹配数目等因素设计排序函数,对关键词查询结果进行排序。本文基于真实数据合成了多个有着不同规模、重复次数、拼写错误或空值的脏数据集。通过在这些脏数据集上进行大量实验,验证了本文所提出的实体解析算法与关键词查询算法的有效性与高效性。
其他文献
我国属于天然气的消费大国,储存在距离地层较浅的天然气资源已经探明,并进行了工业化开采。但是天然气作为不可再生资源其储量有限,在需求量不断增长的今天,常规的天然气资源
以诺氟沙星为典型的氟喹诺酮类抗生素在水体环境中出现残留,对微生物在废水处理过程具有毒性作用,从而处理效率不高。而纳米银也因诸多优良特性被广泛应用,不可避免得进入水
电化学水处理技术作为一种新兴的清洁处理工艺在污废水处理领域被逐渐应用,具有效率高、反应灵活、可控性强、无二次污染,反应装置简单且占地面积小,应用范围广等优点。其中,
在美术学科核心素养理念的引导下,依托地域美术资源,不断深入挖掘、开拓极具特色并受学生喜爱的美术课程实为当前形势之所趋。新疆哈萨克民间艺术是地域精神情结的物化,在审
超疏水涂层材料具有自清洁、油水分离、防腐蚀、减阻、防冰等重要特性,在科学研究与工业生产等诸多领域引起广泛的关注。然而,此类涂层材料在实际应用中仍然存在一些问题,其
云存储环境中数据因果一致性指的是,在对一个节点中的数据、依赖集进行更新的同时,必须确保也能够更新其他副本中的数据、依赖集,即使在分布式存储环境下,也可以满足高可用性和高性能需求。该约束只有在因果依赖性的影响可见时,才对用户事件的因果序有要求。目前安全形势日趋严峻,数据因果一致性面临的安全风险也逐渐受到更多重视。用户将数据存储在云端,云服务环境中难免会存在数据泄露、敏感数据篡改等风险,目前关于数据因
近些年以来,有机分子材料由于其结构灵活,成本低,响应速度快和大的非线性响应等优点在光开关、有机发光二极管以及光通信等方面有着重要的应用。研究这些材料结构的变化对其
随着时代的进步与科技的发展,我国互联网事业在最近几年得到快速发展。与此同时,在工作和生活中,社交媒体与人的关系也越来越紧密。特别是,微博作为国内最大的信息交流平台之一,给人们的社交生活带来了便利,但同时也存在着一些的缺点,比如网络谣言的产生与传播。为此,本文针对谣言在微博网络中的传播进行建模,通过理论分析与数值仿真实验对模型进行分析,以及对微博谣言进行检测和早期预警提醒并提出相应的策略。相关内容如
镍基高温合金在高温环境下具有优异的机械性能和组织稳定性,被广泛应用于航空航天领域。然而,镍基高温合金是典型的难加工材料,切削振动现象的存在不仅会影响已加工表面精度,
ZnS纳米半导体为直接带隙半导体,其带隙(3.67eV)远宽于体相材料,且由于其较高的红外波段透过率、优异的光催化性能、窄的荧光发射带、低毒性及较高的耐磨性及遮光系数等性质,在