【摘 要】
:
多模态数据处理一直是机器学习领域的热点问题。在众多领域中,往往积累着大量的多模态数据,这些多模态数据通常维数很高并且含有大量的冗余信息,因此直接处理这种数据容易引发维数灾难。针对这种困难,学者们提出了特征选择,在特征选择的方法中,稀疏典型相关分析(Sparse Canonical Correlation Analysis,SCCA)占据着极其重要的地位,但是这种方法对于具有群组结构信息的数据并不能
论文部分内容阅读
多模态数据处理一直是机器学习领域的热点问题。在众多领域中,往往积累着大量的多模态数据,这些多模态数据通常维数很高并且含有大量的冗余信息,因此直接处理这种数据容易引发维数灾难。针对这种困难,学者们提出了特征选择,在特征选择的方法中,稀疏典型相关分析(Sparse Canonical Correlation Analysis,SCCA)占据着极其重要的地位,但是这种方法对于具有群组结构信息的数据并不能有效的进行特征选择。因此,针对这种局限性,本文通过使用稀疏正则化的方法将组范数作为正则项惩罚典型相关分析以提高利用群组信息特征选择的有效性,建立了特征选择模型并应用于精神分裂症数据集,具体的研究工作如下:(1)具有组内稀疏特性的l1,2范数往往应用于先验组结构信息已知的情况,但是现实生活中先验组结构信息往往难以获取,这极大限制了其特征选择的可应用范围,而随机分组能够使得重要特征被随机的分到每一个组里。因此,本文针对先验组结构信息存在但是未知的两模态数据,考虑使用随机分组构造新的组以应用l1,2范数实现组内稀疏,提出一种全新的基于l1,2范数的随机组稀疏典型相关分析模型,称其为ERGSCCA。本文构造了模拟数据并做了相关实验,包括对实验得到的相关系数和典型变量在训练集和测试集上进行分析,对基于改进模型的特征选择性能进行可视化评价,模拟实验结果表明ERGSCCA的特征选择能力比S2CCA的特征选择能力更强。(2)当某些数据集中的重要特征既存在于组间又存在于组内时,只具有组内稀疏特性的l1,2范数就受到了限制,而l2,1范数可实现组间稀疏。因此,本文针对重要特征既存在于组间又存在于组内的两模态数据,通过在ERGSCCA的基础上添加惩罚项l2,1范数,构建一种全新的基于l1,2范数和l2,1范数联合的组稀疏典型相关分析模型,称之为EGSCCA。模拟实验结果表明,EGSCCA的特征选择能力比ERGSCCA和sparse group lasso的特征选择能力更强。(3)基于ERGSCCA研究精神分裂症问题。基于获得的精神分裂症数据集先验组结构信息存在但是未知的特点,因此本文考虑使用ERGSCCA。该方法的主要思想是将ERGSCCA直接作用于两模态高维度的精神分裂症数据集上以获得与精神分裂症相关的易感基因和风险脑区,从统计学方法、基因功能富集分析等评价指标上来看,本文的新方法优于其他模型。
其他文献
混凝土内部结构的细观非均质特性极大地影响了宏观力学性能,导致了材料在拉应力的作用下容易开裂。抗拉强度作为一项基本的力学参数,可以用来评价材料的抗拉性能、预测裂缝的产生和发展,以解决实际工程中普遍存在的混凝土结构开裂问题,为混凝土结构构件的安全性评定提供参考。通常情况下,直接拉伸试验方法是最为常用的抗拉强度测定方法,然而试验存在着实施较困难的问题,又很容易受到局部应力集中和拉应力偏心的影响导致测量数
目标跟踪技术是计算机视觉领域的核心任务之一,其在视频监控、人机交互、医学诊断、智能视觉导航等众多领域有着重要应用。由于受现实复杂场景中光照变化、阴影、遮挡、运动
AlGaN材料可以通过调节铝组分使其禁带宽度从3.4eV(GaN)连续变化到6.2 eV(AlN),覆盖了从近紫外到深紫外波段,因此被广泛应用于LED、激光器、光电探测器等器件。然而,较高的折
长久以来,我国花样游泳运动员存在着重技能与体能训练,轻艺术表现力培养的问题,导致其艺术表现力弱,影响运动成绩的获取与提高。进行专门化的提高花样游泳运动员艺术表现力的训练成为亟待解决的问题之一。芭蕾基础训练在长期的发展过程中已经形成了一套成熟、完善、科学的训练体系,对优美的身体姿态、肌肉控制能力、艺术素养等都具有科学有效的训练价值,可用于提高运动员的艺术表现力,将芭蕾基础训练的内容和方法等运用在花样
本文研究方向是NLTV模型下利用ADMM对图像进行去模糊化处理。NLTV源自于TV模型,并且在处理去模糊化问题时相比于TV模型有更好的表现。在图像处理中,图片中的像素点的数值往往
随着片上多处理系统在各个研究领域被广泛应用,片上网络(Network-on-Chip,NoC)作为一种代替总线的新型核间互连方式得到学术界的广泛关注和研究。现如今,片上系统复杂度的日
电力负荷预测研究作为电力系统稳定运行的重要组成部分之一,为市场环境提供了高效、经济的发电计划和交易计划。准确无误的电力负荷预测能够有效保障电力电网系统的健康高效
伴随着媒介技术的发展,网络娱乐真人秀类节目形式不断创新,养成类网络综艺节目成为近年受众热捧的娱乐节目类型。这类节目具有不同以往网络综艺节目的鲜明特色,以粉丝的参与度决定偶像是否能出道为主要卖点,是粉丝被娱乐经济更深层次的卷入。本文旨在通过分析养成类娱乐节目中粉丝对偶像的感知、移置和涵化,研究养成类节目粉丝形成过程和节目的涵化效果,深入思考养成类娱乐节目对粉丝的影响及其社会责任。本文选取典型的养成类
纤维素作为一种含糖量最为丰富的可再生能源,在解决能源短缺方面具有重要的意义。研究发现纤维素酶降解纤维素是一种既环保又高效的方法。在纤维素降解过程中,酶活力高、热稳
现代软件系统规模不断增加,且依赖了大量的库函数,库函数的广泛使用有效地提高了软件开发的效率和质量。然而,库函数在给软件开发带来便利的同时也增加了软件系统本身的复杂