数据偏斜相关论文
随着互联网技术的高速发展,各式各样的互联网产品进入了人们的生活,用户行为的堆积形成了海量数据,与此同时,海量数据本身的规模属......
随着计算机技术的飞速发展,各行各业的数据以指数形式爆炸式增长。大数据时代已经来临,给互联网行业带了巨大的机遇与挑战。一方面......
随着智能化时代的到来,计算机数据管理正逐步由手工化向智能化转变,个人信息的智能管理也成为了热门的研究领域。如何高效管理日益......
Na(i)ve Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布.本文利用层次式分类的特点并引入概率条件改进Na(i......
在分析了数据偏斜特点的基础上,提出了一种抗静态和动态数据偏斜的Hybrid Skew算法以及代价分析模型.应用本模型对Hybrid Skew算法......
在进行并行关联规则挖掘时,数据偏斜和工作量平衡这两个数据分布特征影响着剪枝的有效性.本文提出了用定量的方式对数据偏斜和工作......
针对有选择条件的连接易于造成选择率偏斜和重分布偏斜的问题,通过在各个处理结点中的A-D(At-tribute-Distribute)临时关系以及主......
链路预测是社交网络研究中最核心、最本质的研究问题。文章基于学术合作关系社交网络,采用多种现有的经典机器学习算法进行链路预......
针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进......
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的......
本文提出了一种能克服各种数据偏斜、高效的、并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的......
通过分析ABJ+算法和Hybrid hash join算法,并对两个算法进行了结合和改进,提出了一种能克服各种数据偏斜的并行二元连接运算算法,可在......
给出了一个相关规则新的并行算法,利用DHP算法中的HASH技术削减候选集,同时对DHP算法进行优化改进以利于并行算法的实现.在并行化......
数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易受......
训练集的分布对文本分类质量有重要影响。该文对两类文本分类中的数据集偏斜问题进行研究,提出一种基于反馈信息的特征权重调整方法......