基于图的嵌入和维数约减方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shewe111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去十多年间,数据收集和存储能力的显著进步在生物、天文学、统计学和经济学等许多科学领域都引起了“信息过载”的问题。研究者需要面对越来越海量的数据,和已经经过广泛研究的传统小数据集不同,这类数据对数据分析方法提出了新的挑战。幸运的是,很多实际数据集都存在隐含的少量参数控制其主要的分布变化,类似的情况出现在很多不同的研究领域中获取的高维数据中,比如生物信息学、机器人导航和自然语言处理等。这些隐含参数描述了一个低维流形,可以通过记录哪些流形上的点为近邻的图来表示。通过图嵌入,我们便可以获取描述隐含参数的低维坐标,进而揭示出数据潜在的结构,从而使数据探索、可视化和建模的性能更优。围绕这一目标,全文的主要工作概括如下:   (1)线性判别分析(linear discriminant analysis,LDA)在数据挖掘、机器学习和生物信息学等领域是最为常用的有监督特征提取和维数约减工具之一。可是,LDA的计算通常需要求解稠密矩阵对的广义特征分解,计算负担较大,难以应用于大规模数据集。因此,在本文中我们提出瑞利-瑞茨判别分析(Rayleigh-Ritz discriminant analysis,RRDA)用于求解LDA,不同于以往需要将LDA转换为回归问题的相关方法,RRDA建立在求解通用特征值问题的瑞利-瑞茨框架基础上,同时,通过利用LDA问题的特殊结构,我们得以设计出快速的子空间扩展和瑞茨向量扩展策略。为了降低LDA应用中常见的样本不足问题的计算复杂度,我们也为其建立了RRDA的等价快速形式。此外,我们进一步讨论了RRDA的实现细节和收敛结果。在多个真实数据集上的实验结果表明了RRDA的有效性。   (2)正则化线性判别分析(regularized linear discriminant analysis,RLDA)是用于处理LDA中小样本问题(small sample size,SSS)的维数约减方法。RLDA的一个尚未解决的重要问题是如何快速确定合适的正则参数,而不需诉诸交叉验证等扩展性较差的方法。在本文中,基于RLDA的几何解释,我们提出一种新颖的RLDA参数选择方法。我们进而给出所提出方法的理论分析,证明它对于训练数据特征空间的扰动具有鲁棒性。在多个基准数据集上的实验结果证明了该方法的有效性。   (3)蛋白质相互作用网络为理解生物过程、功能和细胞内在复杂演化机制提供了新的渠道。为蛋白质网络建模,找出需要更少的结构假设、对噪音鲁棒和拟合能力更强的网络模型仍然是系统生物学的重要课题。在本文中,我们提出一种基于图嵌入的t-逻辑斯蒂语意嵌入(t-logistic semantic embedding,t-LSE)模型为蛋白质相互作用网络建模。基于蛋白质网络的几何假设,t-LSE试图自适应地将网络嵌入到低维空间,并使用非凸损失函数降低噪音的影响,实验结果证明相比于其它主流网络模型,t-LSE的拟合能力更强,同时我们所选取的非凸损失函数也显著地提高了对于蛋白质网络噪音的处理能力。由此,我们所提出的模型可以有助于基于图的蛋白质相互作用网络研究,更好地推断出其隐含的生物知识。
其他文献
组串式光伏发电是目前光伏发电系统中应用最广泛的发电模式。但其缺点是:当光照受到局部阻挡或其中某个组件发生故障,其输出功率通常无法达到实际最大,将使系统运行效率降低。针对此缺点,本文提出了一种以微型变换器为基础的新型光伏发电系统,可以通过GPRS/ZigBee检测每个微型变换器和光伏组件的工作情况。本系统在每块光伏电池板上均配置一个微型DC-DC变换器,其额定功率与光伏电池板的额定功率相当。各个微型
无线传感器网络技术是物联网的实现基础,也是当下物联网创新工程的重要组成部分,其在2012年国家工信部发布的《物联网“十二五”发展规划》中被确定为关键信息传输技术。定位技
在单元制机组的不断发展,不同类型的机组都得到了普及,从循环流化流化床锅炉机组、亚临界机组、超临界机组到超超临界机组,机组的参数越来越高,容量也在逐渐增加,机组的动态特性、
随着量子技术的进步以及控制科学发展,逐渐形成了量子控制这一交叉的新兴学科方向,并且该研究方向已经在科研领域内取得了一定的科研成果。本论文以封闭量子系统作为研究对象,重
航路模拟系统是激光雷达跟踪系统的内场测试设备,通过对目标航路的模拟以测试激光雷达跟踪系统的功能和性能。论文简要介绍了激光雷达跟踪系统的工作过程,描述了航路模拟的基本
随着ATM机的广泛应用,关于ATM机的违法犯罪行为也越来越多,本文研究了用于ATM机的遮挡人脸检测算法,希望对ATM机的安全交易加以保障。本文首先回顾了已有的运动目标检测方法,
随着我国基础建设的快速发展,工程车辆的需求量不断增大,从而带动了与其配套使用的GPS车载终端(也称GPS远程监控终端)生产。面对GPS车载终端检测内容日益复杂,传统的人工检测
随着以三维电影和游戏为代表的数字媒体娱乐产业的兴起,计算机动画技术的得到了长足的发展,已经成为国内外学者研究的热点。其中,人体运动捕获技术因其相对于其他运动生成技
煤矿的现代化管理和安全生产是煤炭行业永恒的主题。矿井恶劣的工作条件及性质导致矿下作业存在很大的安全隐患。监控室对井下人员的监控措施不完善、地面与作业人员的信息沟
电磁层析成像(Electromagnetic Tomography, EMT)技术是一种基于电磁感应原理的新型过程层析成像(Process Tomography, PT)技术。实现思路是通过外加激励磁场从不同角度扫描