基于肿瘤基因表达谱数据的特征提取方法

来源 :安徽大学 | 被引量 : 0次 | 上传用户:longlaotest1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息学和生物医学的迅速发展,基因表达谱数据的获取变得越来越容易,且获得的数据具有很高的准确性。近年来,研究人员已成功地将生物医学问题转化为模式识别问题,其典型应用之一就是将基因表达谱应用于基因分析,挖掘出导致癌变的基因,从而准确地辨别别出癌变肿瘤种类。谱数据挖掘可以帮助研究人员发现新的肿瘤类型,提高复杂疾病诊断的准确率;但肿瘤基因表达谱数据具有样本小、噪声大、维数高等特点,直接使用数据进行肿瘤特征提取与识别是不可行的。很多传统的数据处理方法已经无法满足处理高维基因表达谱数据的需求,因此在数据处理前须对谱数据进行降维处理,获得最优特征的同时尽量舍弃部分冗余信息,以降低谱数据维数和系统复杂性。本文基于生物学理论和谱论理论,将模式识别与流形学习等相关算法运用于肿瘤基因表达谱数据分类中。通过构建相应的特征空间,使得无结构信息的基因表达谱数据序列,变成具有结构信息的图结构;再通过谱图理论对基因表达谱数据进行特征提取,并对实验结果和算法的鲁棒性给出合理的解释和分析,其主要内容如下:1.提出在非负矩阵分解之中引入LoG权值矩阵,并应用于基因表达谱数据分类,LoG权值矩阵的算法思想是在原有的高斯函数的基础上加入Laplace算子,从而克服了传统的高斯函数无法充分利用样本的类内和类间信息。该实验首先对肿瘤基因表达谱数据进行数据降维,然后根据LoG算法构建权值矩阵,将高维基因表达谱数据映射为空间中的点,再经SVD分解后得到能够表征肿瘤样本类别的指示向量;再通过NMF对数据进行非负分解,得到能够反映样本类别信息的低维特征向量,最后采用分类器对特征进行分类。2.针对传统最大间隔准则(MMC)算法在数据特征提取中存在的不足;本实验将最大间隔准则与Laplace算子及递归特征消除思想相结合,提出了一种基于Laplace最大间隔准则的肿瘤特征提取方法;并运用于肿瘤基因表达谱数据分类之中。新算法以寻找谱数据空间中类间散布与类内散布之差最大化为准则,寻求最佳鉴别矢量用于投影变换后的特征提取;然后对特征排序后分数最低的基因进行递归消除,最后定位出具有最大调控概率的信息基因,在对已有的三组肿瘤样本数据集的实验中,验证了本算法的有效性。3.针对传统的局部线性嵌入算法(LLE)中近邻域的选择仍存在人工依赖性。本实验提出了一种自适应的近邻选择算法,将高斯核技巧引入到肿瘤识别之中,并结合样本的类别信息,为样本自动设置合理的近邻,很好地解决了邻域选取问题。其思想是在样本点和它的近邻样本点之间构建局部线性平面时,能够自动选择近邻域,并以此建立优化算法;即任一个样本均可由其近邻域样本重构而来,且样本重构后的线性重构误差最小。最小重构误差能够使数据在旋转、平移和缩放时保持不变,从而使实验具有较高的鲁棒性。
其他文献
多输入多输出(MIMO)技术在发射端与接收端使用多根天线,合理利用信道的多径效应,建立空间并行子传输通道,为系统带来空间复用增益和空间分集增益,在不额外增加系统带宽和发射
AVO技术通过分析地震反射振幅与炮检距的关系由实际地震道集记录估算目标地层的属性参数,进行油气区的估计和检测。在AVO技术中,子波估计以及AVO反演是研究的主要关注点,本文
随着计算机技术的快速发展,浏览网页成为人们获取信息的重要方式之一。在开放的网络环境中,网页信息易于编辑且传播速度快的特点使其很容易被篡改伪造,网页信息的真实性和完
本文首先介绍了数字图像水印技术的研究背景、意义及应用,以及可恢复水印算法的基础知识、常见攻击类型和性能评价指标等。然后,对现有可恢复脆弱水印算法进行分析研究,指出
摘要:随着信息技术的发展和宽带网络的普及,在线视频业务迅猛发展,也当今互联网上网络流量的主要贡献者之一。不断涌现的视频系统为互联网用户提供了十分多彩的节目内容,丰富
智能监控技术已经广泛应用于人们的生活与工作当中,该技术包括了运动目标检测、跟踪、行为识别等关键步骤。其中运动目标检测技术是监控设备能够进行智能监控的基础也是实现
MIMO技术是指在收发两端同时配置多个天线的无线传输技术,它既可以实现复用增益,又可以实现分集增益,是无线通信领域获得突破性进展的关键技术,并已成为广泛研究的热点问题。
在组播网络中,网络编码(Network Coding)已被证明是一种能够获得最大流容量的有效方式,可以提高无线网络吞吐量、改善负载均衡、减小传输延迟、增强网络鲁棒性。在无线网络利
无线局域网(WLAN)技术被广泛用于移动设备、计算机、智能电视、网络设备等多种通信产品中,已经成为目前应用最为广泛的宽带通信技术。近些年,由于移动互联网的迅速发展,蜂窝
压缩传感作为一种新兴的信号处理理论,凭借大大低于奈奎斯特采样定理所规定的速率对被测信号进行采样。压缩传感将数据采样和压缩同时进行,再利用重构算法对少量的测量值进行