【摘 要】
:
单细胞RNA测序(scRNA-seq)技术是研究基因与表型之间的关系的利器,同时也是当前生物医学研究中最重要的技术之一。然而多种因素导致单细胞RNA测序数据中存在噪声,如Dropout现象等。这些噪声可能会阻碍单细胞测序的部分下游分析问题。为此研究人员提出多种计算方法用以填充或补全单细胞测序数据,以减少数据噪声。单细胞RNA测序数据会因为Dropout现象等原因导致测序数据矩阵具有极高的稀疏性,针
论文部分内容阅读
单细胞RNA测序(scRNA-seq)技术是研究基因与表型之间的关系的利器,同时也是当前生物医学研究中最重要的技术之一。然而多种因素导致单细胞RNA测序数据中存在噪声,如Dropout现象等。这些噪声可能会阻碍单细胞测序的部分下游分析问题。为此研究人员提出多种计算方法用以填充或补全单细胞测序数据,以减少数据噪声。单细胞RNA测序数据会因为Dropout现象等原因导致测序数据矩阵具有极高的稀疏性,针对这一问题,本文提出一种基于压缩感知的计算框架,用以解决单细胞RNA测序数据的质量问题。压缩感知在数据稀疏的条件下,可通过少量观测数据,以极高的概率重构出原始数据。本文主要研究了基于压缩感知对单细胞RNA测序数据的填充方法,做了以下两个贡献:第一个贡献是提出一种压缩感知恢复模型(Compressed Sensing Recovery,CSR),用于单细胞RNA测序数据填充或恢复。首先,CSR使用K-奇异值分解(K-SVD)算法对单细胞RNA测序数据进行字典矩阵的计算。字典矩阵中包含了原始数据重要的特征信息,观测数据可以进一步稀疏化,使压缩感知有更好的效果。其次,设计了观测矩阵,通过观测矩阵对原始数据集进行观测,并使用正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法进行数据重构。最后实验将CSR模型与其他填充模型进行比了较,证明了 CSR模型的有效性。第二个贡献是提出网络恢复模型(Network Recover,NR)使用全连接神经网络对CSR填充后数据矩阵出现的负值及部分零值进行恢复。mRNA含量不存在负值,本文假设细胞与基因之间存在着一种非线性关系,利用全连接神经网络计算细胞与基因之间的映射关系,对数据矩阵中的负值和部分零值进行恢复。实验结果表明NR方法能够有效提高CSR的表现能力。综上所述,本文为了解决单细胞RNA测序数据的数据噪声问题,构建以压缩感知为框架的CSR数据填充模型,并构建网络恢复模型对CSR模型中出现的负值问题进行解决,实验表明了模型的有效性。
其他文献
近些年来,随着科技的发展和机器计算能力的提升,神经网络和深度学习技术在自然语言处理领域中得到广泛的应用。在自然语言处理领域里,文本自动生成是一个重要且具有挑战性的研究方向。本文旨在根据给定的主题词生成一段可读性强的、主题相关性大的文本,此任务有以下三个难点:第一,输入信息不足。本文中的主题短文生成任务属于文本到文本的生成,在文本摘要和机器翻译这些任务中,原文本的输入提供了足够的语义信息以生成所需的
小学生编程教育对国家未来科技主导权具有极其重要影响,现已经上升到了国家战略层次。目前针对小学生编程教育平台的应用虽然有了一定的进展,但实际教学中仍存在硬件可编程性较差、设备实用性不足、编程教学案例乏味等问题。针对以上问题,采用SOM-RK3399核心板作为主控设备,集成语音处理模块、STM32控制模块等,设计并实现了一种面向小学生编程教育的嵌入式开发平台,具有研究意义与应用价值。主要研究内容如下:
课程思政与专业教育有效融合是实现立德树人的重要手段。基于“视觉设计”课程的特点,从爱国情怀、中华文化传承创新、科学思维方法、工匠精神、职业素养等方面挖掘课程思政要素,修订课程标准,优化课程思政教学内容及目标,梳理思想政治教育融入点,以期推动“视觉设计”课程思政建设取得显著成效。
文档与查询之间的语义鸿沟是信息检索领域中一个挑战性的难题。伪相关反馈是解决这个问题的一个可行的办法。由于自然语言的复杂性,传统的伪相关反馈方法很难准确判断查询与扩展项之间的语义相关度,因此这种方法不可避免地会引入一些噪音。预训练模型BERT在很多自然语言处理任务上取得了里程碑式的突破,其中Nogueira等人在MS MARCO段落检索任务上,利用BERT模型将检索精度提升了 27%左右。相对于传统
智能交通系统可以监控道路状况,是当今交通发展的必然方向。而车辆检测在智能交通系统中有着重要作用,它可以检测车流量,从而为道路交通状况提供各种重要数据。由于航拍图像的背景环境比较复杂,目标比较小且数量较多,遮挡问题比较严重,给航拍车辆的检测带来了困难,所以如何在复杂的环境下提高车辆检测的精确度具有现实的意义。YOLOv4算法代表着目前业界最先进的物体检测水平,它的检测速度超过其他检测系统,实现了速度
目前,知识图谱已广泛应用于各个领域,在教育领域的应用和成就尤为显著,知识图谱在教育教学中扮演着越来越重要的角色。编程学习作为教育领域的一个重要分支,对于初学者来说,却仍存在诸多挑战,如学习周期普遍较长、缺乏有效的学习辅助手段并且在编程实践中难以及时的获得帮助等。这些挑战给编程初学者带来极大的不便,对于其知识的掌握和能力的提升都是不利的。基于上述内容,本文在分析编程语言学科特点的基础上,围绕着编程语
计算机信息技术发展日新月异,其开发应用百花齐放,深入各行各业。计算机视觉技术对图像和视频的处理水平也日趋成熟,尤其是人脸检测和识别技术发展迅猛,在人机交互、身份验证和视频安防等领域均有一定的研究成果。卷积神经网络是深度学习的代表算法,因其良好的鲁棒性和较高的准确率,广泛应用在目标检测和模式识别领域,逐渐成为工程应用的主流选择。人机交互技术使人与机器建立连接,实现机器为人提供更加优质的服务。这些技术
伴随着互联网的发展和普及,以MOOC为代表的在线学习已成为一种新型的学习方式。在新冠肺炎疫情期间实施的“停课不停学”活动,进一步推动了 MOOC学习的应用广度和深度。虽然MOOC学习具有不受时间空间限制、受众门槛低、学习资源丰富等优势,但也存在学习者被淹没在海量的资源中、难以找到符合自身需求的学习资源以及退课率高等诸多问题,所以如何为在线学习者提供个性化的资源服务是当前在线学习领域亟需解决的问题。
从工程领域到经济学领域,大量问题都存在多个需要优化的目标,而且各个目标之间相互制约、彼此冲突,此类问题被称为多目标优化问题(Multiobjective Optimization Problem,MOP)。与传统数学方法相比,进化多目标优化算法(Evolutionary Multiobjective Optimization Algorithm,EMOA)不需要了解问题的数学特性,而且在一次运行中
随着“互联网+”教育和智能技术的不断融合,智慧课堂场景下的多屏多点触控教学模式应运而生,教学内容及教学活动表现形式将更加丰富多彩。然而,以教师为主体的填鸭式教学模式将不适用于新时代背景下的师生互动关系,不利于教学效果的提升。为引导学生成为教学活动中的主体,掌握教学过程中的学生学习状态、感兴趣情况是非常有必要的。课堂学生注意力将能够客观真实地反映教学活动中学生的兴趣热点、知识盲区以及积极状态,是提高