论文部分内容阅读
随着计算机科学与技术的不断发展和大数据时代的到来,例如现今移动互联网、物联网、云计算等的普及,需要处理的数据量呈指数增长,由此给数据处理带来了不小的压力,所以针对庞大数据量的分析查询工作就变得日益重要。并且在商业社会中,企业从这些数据中挖掘知识,数据分析查询的结果往往直接或间接地跟企业的效益挂钩。因此,数据分析查询工作的重要性和相关性使得人们对其的重视程度也随之提高。但是现实生活中用户设备故障、隐私保护策略和数据丢失所造成的信息不完整给研究工作增加了难度,而且即便是完整的数据其真实性也存在不确定的问题。所以在众多数据分析查询方法中,本文选取top-k支配查询(Top-k Dominaing Queries,简称TKD查询)为切入点,以含有不完整属性值的关系为研究前提,进行TKD查询上的查询规范化、个性化和效率化研究。
人为刷高或刷低评分是影响TKD查询效果的一种极端行为。通过分析ESB算法(Extended Skyband Based Algorithm)、UBB算法(UpperBound Based Algorithm)和BIG算法(Bitmap Index Guided Algorithm),并结合多种排极端化规则提出一个新的综合算法。同时基于混合推荐实现了对于用户的个性化结果呈现,采用多种不同方法计算用户对于项目的喜好程度,并将各种计算结果融合,以提高输出结果的可靠性。本文的主要工作如下:
(1)针对极端化问题,提出了基于多种排极端化规则的优化算法。首先对于评分次数较少的相似用户进行去重,借鉴IMDB排名算法以提高评价较多用户的评分占比。然后对于不完整数据进行分类处理,并且按照用户总数去除掉一定比例的最高分和最低分。最后用真实数据集和人工合成数据集进行实验评估。实验结果表明,本文提出的方法在数据不完整率低于50%的条件下可以排除极端化行为对TKD查询效果的影响。
(2)针对算法运行效率和个性化结果推荐等问题,提出了多种算法优势互补和层叠式推荐技术的解决方案。首先从ESB算法中提取了组内剪切操作进行第一次缩小范围的优化,其次从UBB算法中吸取了近似评分计算方法作为第二次优化,接着利用BIG算法中的位图索引计算真实评分作为第三次优化,最终基于层叠式的混合推荐技术,在NMF算法结果基础上进行内容过滤算法,使得结果更加精确。在使用上述相同数据集进行实验后可以看到针对用户有动态个性化的推荐,并且运行时间在一个可以接受的范围内。
人为刷高或刷低评分是影响TKD查询效果的一种极端行为。通过分析ESB算法(Extended Skyband Based Algorithm)、UBB算法(UpperBound Based Algorithm)和BIG算法(Bitmap Index Guided Algorithm),并结合多种排极端化规则提出一个新的综合算法。同时基于混合推荐实现了对于用户的个性化结果呈现,采用多种不同方法计算用户对于项目的喜好程度,并将各种计算结果融合,以提高输出结果的可靠性。本文的主要工作如下:
(1)针对极端化问题,提出了基于多种排极端化规则的优化算法。首先对于评分次数较少的相似用户进行去重,借鉴IMDB排名算法以提高评价较多用户的评分占比。然后对于不完整数据进行分类处理,并且按照用户总数去除掉一定比例的最高分和最低分。最后用真实数据集和人工合成数据集进行实验评估。实验结果表明,本文提出的方法在数据不完整率低于50%的条件下可以排除极端化行为对TKD查询效果的影响。
(2)针对算法运行效率和个性化结果推荐等问题,提出了多种算法优势互补和层叠式推荐技术的解决方案。首先从ESB算法中提取了组内剪切操作进行第一次缩小范围的优化,其次从UBB算法中吸取了近似评分计算方法作为第二次优化,接着利用BIG算法中的位图索引计算真实评分作为第三次优化,最终基于层叠式的混合推荐技术,在NMF算法结果基础上进行内容过滤算法,使得结果更加精确。在使用上述相同数据集进行实验后可以看到针对用户有动态个性化的推荐,并且运行时间在一个可以接受的范围内。