【摘 要】
:
大数据的高速发展,使特征选择技术面临着新的数据类型的挑战,类型之一的是流特征。流特征是指数据的样本空间固定不变,特征空间随时间而增大,特征逐个流入特征空间的场景,其
论文部分内容阅读
大数据的高速发展,使特征选择技术面临着新的数据类型的挑战,类型之一的是流特征。流特征是指数据的样本空间固定不变,特征空间随时间而增大,特征逐个流入特征空间的场景,其难点在于流特征所在的高维数据空间呈现动态性,即特征空间不是或不能事先给定,而是随时间动态变化,因而特征空间呈未知性和演化性。尽管目前已经有许多针对流特征的特征选择算法的出现,但它们仍然存在着些许不足和缺点。首先,针对目前的流特征选择算法一旦认定特征是冗余的,则会剔除该特征,忽略了在流特征背景下被删除的冗余特征仍然可能对任务性能提升起到作用这一现象。本文提出了一种基于一个大小固定的缓冲池的在线流特征选择算法。缓冲池技术已广泛应用于流样本领域,本文将此应用在流特征上以解决上述问题。具体而言,算法通过缓冲池动态地保留和恢复特征来处理变化的特征空间,并结合了两种不同类型的特征选择器以提高预测表现的同时压缩特征空间。最终,将本文提出了的算法在12个典型的特征选择数据集上与现有流特征选择对比,表明了该算法能够获得更加优异的分类精度和空间压缩率。其次,Grafting算法是基于稀疏正则化约束的流特征选择经典算法。针对Grafting的诸多的改进算法的出发点都是利用不同的正则化技巧改进搜索策略,但很少针对流特征度量准则的改进。为此,本文在原始Grafting算法原始的损失函数中添加了对新特征鉴别性的约束,得到了对每个新加入的流特征最小化重构残差的新型流特征选择模型。本文将提出的增强后的Grafting算法与其他典型的流特征选择算法以及上述的基于缓冲池的特征选择算法进行对比实验。实验结果表明,本文提出的改进算法在最优特征子集的分类识别率,特征空间压缩率以及流场景下的算法稳定性上都是有明显竞争力的。本文的源代码、数据集、实验结果均已开源,链接为:https://github.com/qixuejun1225/online_feature_selection。
其他文献
所谓布拉格潜堤,由近海区域多个形状大小均等的水下人工沙坝组成,它们与海岸平行且间距相等。依据布拉格共振原理,当人工沙坝间距大约为外海入射表面波的半波长时,布拉格潜堤
多址技术作为历代通信技术的核心力量之一,为其发展变革提供了关键性支持。在第五代移动通信系统(the 5th Generation Mobile Wireless System,5G)的演进中,大规模用户接入和“Gbps”的链路传输速率被列为区别于传统通信技术的最重要考核指标,从而对多址技术的发展提出了新的挑战。为解决这一技术瓶颈,非正交多址技术在近年来被广泛高频次的提出,其中最具代表性的技术类别包
随着云计算和大数据时代的到来,信息系统所支持的业务过程产生了海量的事件日志。基于这些事件日志,企业可以进行诸如过程挖掘等应用和分析,从而为企业提供智能决策。与传统
近来围绕标准必要专利的FRAND许可纠纷愈发激烈,面对纠纷解决的具体规则空白的现状,我国有必要加快和加深对FRAND义务的研究,寻找到解决FRAND许可纠纷的最为合适的方法和途径,为今后相关司法实践和立法工作提供理论参考。对FRAND义务的研究,不仅是为了解决当下标准必要专利权人与专利实施人之间的纠纷,营造公平的竞争环境和规范的市场秩序,从长远来看,还有利于促进先进技术的推广和使用,惠及普通大众,
目的总结分析临沂地区变应性鼻炎患者的变应原种类以及变应原在患者年龄、性别、职业、生活区域的分布特点,为本地区变应性鼻炎的防治及流行病学研究提供一定的理论依据。方
本文以微晶纤维素为原料进行改性,通过与钛溶胶合成负载钛溶胶的纤维素黄原酸盐吸附剂(TCX),考察其对Ni2+、Cu2+和Co2+吸附性能,研究吸附过程机理,进行选择性吸附实验和解吸实
随着信息技术的飞速发展,海量数据处理问题成为当下研究热点,特别是对于自身资源有限的用户来说,如何高效地处理海量数据成为亟待解决的困难问题。提供强大集中配置资源的云
目的:建立凝血因子XⅢ(factor XⅢ,FXⅢ)缺陷症的诊治体系,并分析其发病机制。方法:收集5例患者出血表现及调查家系情况,通过氨释放法检测FXⅢ活性(FXⅢ activity,FXⅢ:Act),ELIS
凝水泵是海洋装备和能源领域液体输送的关键设备。凝水泵的空化等不稳定流动现象对设备系统的高效及安全稳定运行造成一定威胁,会导致其本身水力性能下降、增加装置流体流动
随着空间光学技术的不断发展,空间激光通信技术作为一种新兴的高速通信手段,在军事侦察以及空间探测等领域都发挥了至关重要的作用。反射镜作为激光通信光端机系统的核心部件