成对约束下半监督特征选择算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:BLUECAT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是机器学习领域的研究的重要内容之一。随着应用于机器学习领域的数据维数不断升高,数据存储、运算,都消耗了大量的计算机资源。为了节省资源,避免所谓“维数灾难”的出现,变量和特征的降维技术在许多研究课题和实际应用中(如:网络文档的文本处理,基因表达序列分析,组合化数据等等),都有着非常重要的意义。   半监督特征选择算法是针对于含有少量监督信息和大量无标记数据的样本集的特征选择算法。现有多数半监督特征选择方法是基于类标记这种监督信息形式的,而在实际应用中,成对约束分类信息作为一种先验知识的形式往往比较容易获得,成对约束下的半监督特征选择算法并不多见。本文主要针对成对约束下的半监督特征选择算法进行了相关的研究,主要研究工作如下:   (1)提出了一种成对约束下基于假设间隔的半监督特征选择算法Csimba。该算法利用成对约束条求解使假设间隔最大的特征,以此进行特征排序。在UCI数据集的实验表明提出的算法是有效的。   (2)提出了一种成对约束下基于特征相关性的半监督特征选择算法ICSMI。算法利用互信息和信息熵估计特征间的相关性,可以降低特征子集的冗余度,增强了特征的有效性。在UCI数据集的实验表明提出的算法是有效的。   (3)提出了一种成对约束扩展方法RCE。该方法利用Relevant-Set Correlation聚类模型对于成对约束包含的样本点进行聚类,从而扩展成对约束集。利用扩展后的成对约束集并运用ICSMI进行特征选择,从而使ICSMI算法在初始成对约束数量比较少的情况下也能获得比较好的效果。在UCI数据集的实验表明提出的算法是有效的。
其他文献
计算机辅助排样,又称为CAN(Computer Aided Nesting),是广泛应用的计算机辅助技术之一,用于指导各行业处理各种下料问题,以达到节约材料、降低产品成本的目的。下料问题存在
空蚀是水轮机运行过程中产生的一种不可避免的破坏现象。它严重影响了水轮机的工作效率和寿命。现已发现所有与流体动力学有关的机器、设备和构件,都会产生空蚀破坏。无法控
学位
随着工业的发展,对产品设计、产品制造都需要进行材料的选择,不同材料选择的主要依据之一就是材料的耐腐蚀性,在自然环境条件下,受各种因素的影响,材料的表面会呈现出各种腐
网络模拟已成为研究Internet的重要手段,然而互联网的规模、复杂性、异构性等问题严重制约着互联网行为的研究。由于异构、复杂、大规模的网络模拟需要耗用巨大的计算资源,无
在无线传感器网络(Wireless Sensor Network,WSN)中,溯源数据(Provenance)是评估数据可信性的重要依据之一,Provenance记录了一个数据包从产生至被传输至基站(BS)途经的全部
基于帧内编码地理信息视频系统是一个结合了地理信息系统和视频系统的综合应用系统。在地理信息和视频结合的需求不断增长的大背景下,本文对现有的地理信息系统和视频系统的
随着全球经济一体化的深入发展,敏捷的、不受限制的集成业务流程的需求已经成为关键的业务需求。在这种状况下,面向服务的架构(Service Oriented Architecture, SOA)应运而生
近年来,随着多核处理器的迅速普及,多核并行计算已经成为计算机领域的一个重要研究课题。尽管多核处理器的计算能力显著提升,但是由于当前大量软件都是基于单核处理器开发,不
近年来,虚拟现实技术已成为计算机应用领域的研究热点之一。它利用计算机多媒体技术在计算机系统中仿真真实世界的环境,通过计算机的相关设备来模拟人体的视觉、听觉等真实感知
软件复用是提高软件生产效率和提高软件质量的关键技术,软构件是软件产品族的核心资产之一,通过对产品族构件的复用,能有效缩短产品族软件开发周期。本文结合软构件技术,在已