论文部分内容阅读
大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差.传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据.基于互联网的缺失值修复过程一般包括生成查询、检索文档集、抽取实体、实体排序4个步骤,其中候选实体的排序决定了最终用于修复数据库的信息.现有的利用互联网数据来修复缺失数据的研究主要集中在两个方面:一是提升查询和抽取的质量,然后对抽取的候选实体按频率进行排序;另一种是分析目标实体应该具有的特征,然后对候选实体计算特征值,