【摘 要】
:
网络信息技术发展和高新技术产品的普遍应用,众多行业获取的信息数据在数量和内容上都在飞速扩增,信息数据呈现高维度、复杂化的特点。高维的数据给数据存储和相关应用带来了巨大的压力,这些信息数据中既有丰富的有用信息特征,也包含大量不相关和冗余的特征以及噪声。直接处理这类原始数据会面临“维数灾难”的问题,这将极大增加模型的计算开销,而且模型在高维数据上容易出现过拟合,导致模型实际性能不理想。此外,现实中获取
论文部分内容阅读
网络信息技术发展和高新技术产品的普遍应用,众多行业获取的信息数据在数量和内容上都在飞速扩增,信息数据呈现高维度、复杂化的特点。高维的数据给数据存储和相关应用带来了巨大的压力,这些信息数据中既有丰富的有用信息特征,也包含大量不相关和冗余的特征以及噪声。直接处理这类原始数据会面临“维数灾难”的问题,这将极大增加模型的计算开销,而且模型在高维数据上容易出现过拟合,导致模型实际性能不理想。此外,现实中获取的信息数据多为未标注的数据,后期人工给大量的高维数据标记标签花费成本高且不实际。从高维数据中有目标地筛选出有用的特征信息,缓解数据“维数灾难”问题现已成为研究的热点。本文针对解决无标签高维数据下的特征选择问题进行了研究,提出了两种有效的无监督特征选择算法,其中针对大样本高维数据处理效果进一步改进,加快算法对大样本高维数据的处理速度,提升算法的实际性能。本文的主要工作包括以下两个部分:1、针对多数基于图学习的无监督特征选择算法探索数据内部局部流形结构能力不足、图学习效率不高和模型优化参数复杂的问题,提出一种基于图嵌入学习的l2,0范数约束正交局部保持投影无监督特征选择方法(OLPPFS)。该方法首先利用局部保持投影(LPP)方法探索数据内部的局部几何流形结构,同时约束投影方向正交以增强线性映射能力和方便数据重构,接着采用稀疏正则化方法结构稀疏投影矩阵选择特征。在数据相似图构建方面,摒弃了传统KNN构图使用高斯核函数度量数据点之间的相似度方法,受拉普拉斯秩约束聚类算法(CLR)启发,构建原始样本数据的一个稀疏连接相似图,学习数据矩阵一个高稀疏度的相似度矩阵,并且相似度矩阵计算式不涉及需要调节的参数。多数无监督特征选择算法采用l2,1范数作为稀疏正则化约束范数,l2,1范数是凸并且光滑的函数,相较于非凸且不光滑的l2,0范数更易求解,但会带来复杂的正则项参数调整问题。而采用l2,0范数约束则是以给出预期选择特征数量的方式动态选择一个最优的特征组合,本文巧妙设计了一个迭代算法直接优化l2,0范数NP难问题对模型进行优化,整个算法不需要复杂的参数调整就能有效选择信息特征。2、针对大样本量下高维度特征的任务数据,在OLPPFS算法基础上,提出基于锚点策略的快速正交局部保持投影无监督特征选择算法(FOLPPFS),增强算法对大样本高维数据的处理能力,进一步提升算法性能。算法改进主要是通过在图学习过程中,采用嵌入锚点的方法加速相似度矩阵的构造,与传统k近邻法构造的几乎全秩非双随机相似矩阵相比,基于锚点策略构造的相似度矩阵具有稀疏低秩对称、PSD和双随机的性质。在实验中选取的公开标准数据集上进行仿真对比的结果表明,锚点策略的改进算法性能优于所对比的算法,尤其在算法运行速度上得到了显著的改善。
其他文献
近红外光谱检测技术已经成熟的应用于水果品质检测。通过水果检测装置可以快速无损伤的检测水果的内部品质。目前,水果检测装置不仅价格比较高昂,而且检测装置的检测方式单一。不能满足不同水果的检测方式,此时需要使用不同的水果检测装置。同时检测方式单一降低了水果检测装置的实用性,提高了水果批发商的购买成本。因此,水果检测装置迫切需要实现多模式通用化。目前,漫反射存在两种结构,45°光源漫反射结构和环形光源漫反
TiAl基合金具有高比强度、耐腐蚀性和抗氧化性良好以及密度低和优异的高温性能等优点,是替代传统镍基合金及耐热钢的理想结构材料,在航空航天发动机涡轮叶片方面得到广泛使用。与传统的Al基和Ag基钎料相比,Ti基钎料在TiAl基合金表面具有良好的润湿性,焊接接头具有较高的强度和高温性能。钎焊由于操作性强,经济实惠和较低连接压力要求等优点,广泛用于连接TiAl基合金。本课题主要是研制适用于Ti-47Al-
发展重载运输是交通强国战略的重要一部分,直接关系到国民经济的发展。但由于重载列车本身结构复杂,运行环境多变,导致列车系统存在内部不确定性并受到外界未知扰动,直接影响了列车运行的安全、高效、平稳、节能等性能指标。因此,研究重载列车的模型和控制方法,使列车在存在未建模动态、内部不确定性及受到外界扰动情况下仍能保持系统鲁棒性和稳定性十分重要,直接关系到列车运行的安全性、高效性。为解决上述问题,所做具体研
随着我国城市化进程不断推进,城市轨道交通建设也如火如荼。地铁车站基坑工程常遇有限土体情况,有限土体情况下围护结构的受力变形特性研究不深入、不系统,设计计算方法不完善。本文运用模型试验与数值模拟相结合的方法,分别开展了四组不同宽度模型试验和八组不同宽度情况下的数值模拟,对不同宽度有限土体下围护结构变形及内力、地表竖向位移变形规律等开展了系统研究。初步得出如下结论:(1)不同宽度有限土体桩体深层水平位
随着城市轨道交通(俗称地铁)行业的发展,人们的生活也在发生着日新月异的变化,这不仅表现在提高了市民的出行效率、扩大生活圈,也对生活中的方方面面都有着直接或间接的影响。本论文以南昌地铁为例,对于地铁建设的不同阶段对站点周边住宅价格所表现出来的外部性进行分析研究,估算地铁对周边住宅价格带来的具体增长量。同时,从南昌地铁建设方南昌轨道集团的角度出发,对南昌地铁表现出来的正外部性提出相关的建议措施以实现外
四环素(Tetracycline,TC)因其优越的抗菌性能、低廉的价格等优点,被广泛应用于人类和动物的感染的预防和治疗中,但因其含有多个苯环、分子量大且其化学性质稳定不易被降解。过硫酸盐高级氧化技术因其产生的硫酸根自由基(SO4-·)半衰期长、适应的p H值范围广、对污染物的选择性强,不易受到水中无机离子的影响等优点而受到广大研究者的关注。过硫酸盐高级氧化技术主要分为均相反应体系和非均相反应体系,