【摘 要】
:
概率图模型是人工智能领域重要的统计机器学习模型之一,在个人信用风险评估、自然语言处理、生物医学等领域有广泛应用,非参数贝叶斯模型是其中特殊的一类,具有非参数模型和贝叶斯模型的双重特征。但其模型复杂度高,研究难度较大,尤其表现在非参数模型的模型结构、模型大小和分布函数可随观测数据的变化而变化,参数数量可随样本量增加而增长,导致机器学习时,分布函数难以确定,分布采样难度增加等问题。根据非参数贝叶斯模型
论文部分内容阅读
概率图模型是人工智能领域重要的统计机器学习模型之一,在个人信用风险评估、自然语言处理、生物医学等领域有广泛应用,非参数贝叶斯模型是其中特殊的一类,具有非参数模型和贝叶斯模型的双重特征。但其模型复杂度高,研究难度较大,尤其表现在非参数模型的模型结构、模型大小和分布函数可随观测数据的变化而变化,参数数量可随样本量增加而增长,导致机器学习时,分布函数难以确定,分布采样难度增加等问题。根据非参数贝叶斯模型的上述问题,本学位论文主要从理论上研究非参数贝叶斯模型的概率分布函数特征,并在此基础上研究非参数贝叶斯模型的精确推断与近似推断方法。提出适用于任意数量观测样本的非参数贝叶斯模型的通用概率推断方法。主要研究内容和成果如下:针对由折棍构建方法所生成的非参数贝叶斯模型的有限维观测样本分布函数难以计算的问题(即由于两个样本之间可能存在任意个包含个样本的轮,导致无法确定各个样本的轮数和分布函数),提出了一次性边缘化各个样本的所在轮数、各轮样本数量不可观测变量,得到个随机变量观测值所服从的分布函数。基于随机变量分布函数之间的共轭性,得到所有观测样本的联合概率似然函数。从理论上建立起适用于所有包含任意有限个随机变量的非参数贝叶斯模型折棍构建方法的似然分析框架。针对使用折棍构建方法对贝塔过程分布的有限维观测样本进行采样过程时,计算复杂的问题,提出基于贝塔过程和狄里克雷过程关系的简单易行的近似采样方法。该方法按照狄里克雷分布的分裂性特征和归一化性质,得到了近似的贝塔过程分布样本。通过直接分析任意次单个样本的采样机制,实现对任意有限数量个贝塔过程随机变量进行的序列采样。针对伽马泊松过程分布函数的采样需分别对伽马过程分布和泊松分布进行采样,导致计算复杂的问题,提出了一种利用伽马过程分布和泊松分布性质的伽马泊松过程分布采样方法。该方法进行的每一次采样,均可得到一个任意维的整数矩阵。从而建立了一个在无限维的伽马泊松过程中,对所获样本的分布函数进行近似推断的框架。针对贝塔过程因子分析模型定义形式复杂、观测样本难以计算的问题,提出了运用矩阵分析法将向量的点积运算变换为矩阵乘法运算的贝塔过程因子分析模型观测生成方法,得到了贝塔过程因子分析模型简化定义形式的观测样本计算结果。该方法可以应用到因式分解和因子分析等重要领域。
其他文献
太赫兹波具备能量低、频谱宽、穿透性强以及特异性吸收等诸多优点,因此太赫兹频谱技术被广泛地应用于物质的分析与检测中。另一方面,机器学习方法具有无人工干预、自动化与规模化的优势。在机器学习的推动下,太赫兹频谱技术中的数据分析能力和应用范围得到了显著提升。但是在面对无标注类型的太赫兹频谱数据时,常用的机器学习方法受到了一定的限制。本论文将无监督机器学习领域中的因子分析法和独立成分分析法进行了扩展,使其适
随机过程是概率论的一个重要研究领域,对一些随机现象的刻画,需要用随机过程来研究.随着科学技术的发展与完善,随机过程理论广泛应用在物理、生物、经济、管理、工程技术等众多领域,同时这些领域的需求也促进了随机过程理论的发展.近年来,很多学者研究了轨道为凸函数的随机过程的性质、不等式以及应用,取得了一系列的结果.本文主要研究了两类凸随机过程及其不等式.在均方连续、均方可微、均方可积的意义下,类比凸函数的思
第一部分PARP1参与新生小鼠心脏再生和心肌细胞增殖背景:成年哺乳动物心脏在受到损伤时不能再生,结果导致瘢痕修复和心脏重塑。而低等脊椎动物如斑马鱼的心脏能够终身保持再生能力,常用作研究心脏再生的动物模型,但是其应用受到种属进化差距较大的影响。最近研究发现新生小鼠心脏也能够再生,这为心脏再生的研究开辟了一条更为方便的道路。PARP1作为一种存在于细胞核内的蛋白修饰酶,其在心脏发育和心肌细胞肥大中都有
该课题组前期从发酵蔬菜中分离并鉴定出一株凝结芽孢杆菌13002,在前人的研究基础上,该研究进行凝结芽孢杆菌发酵乳生产工艺的优化。以凝结芽孢杆菌13002、保加利亚乳杆菌CGMCC 1.290、嗜热链球菌CGMCC 1.2741共发酵的新型发酵乳为研究对象,以不同菌种复配比、菌种接种量、发酵基低聚果糖添加量进行单因素实验,再以感官评分为响应值,通过Box-Behnken中心组合建立数学模型研究发酵乳
器官是高等动物重要的功能单位,对器官结构的研究有利于了解器官的功能,并支持相关的疾病研究。利用近年来发展的显微光学成像技术,可以实现器官水平的细胞分辨三维成像。基于高分辨率三维数据,数字切片技术可以实现对完整器官在任意角度获取细胞分辨率的切片。然而,如此高分辨率的成像获取的单套数据可达TB级甚至10 TB以上,给数字切片带来了大数据挑战。现有的数字切片方法工具仅能对GB级数据切片。实现10 TB以
简单液体理论是20世纪后半叶凝聚态物理学所取得的最重要成就之一。在这一理论中,硬球模型和范德瓦耳斯模型抓住了原子或分子间排斥作用在决定液体结构中所发挥的核心作用;相反,吸引作用的效应可以简单地用一个平均场近似来处理,即吸引作用被认为只是提供一个空间均一的背景相互作用以维持液体的稳定,其对液体结构和动力学的影响甚微。然而,越来越多的证据表明,液体中存在一系列复杂现象,吸引作用在这些现象中扮演着重要角
由于维数灾难,高维空间的最近邻查询效率十分低下。而作为一种众所周知的解决方案,局部敏感哈希能够以常数的概率在亚线性时间内回答近似最近邻查询问题。但是,现有的粗粒度索引结构无法准确地估计候选点和查询点的距离,这会使得算法检测了大量不必要的候选点,继而降低了查询过程的性能。相比之下,本文提出了一种快速准确的基于内存的局部敏感哈希框架,称为中枢测度局部敏感哈希方案(Pivot Metric Locali
化学链燃烧是一种具有CO2内分离特性的新型燃烧方法,是解决化石燃料碳减排问题最有前途的技术之一。就我国“富煤、贫油、少气”的能源结构来说,发展煤的化学链燃烧技术是当务之急。作为一种实现固体燃料化学链燃烧的方式,化学链氧解耦燃烧(Chemical Looping with Oxygen Uncoupling,CLOU)因能够促使固体燃料转化速率与氧载体转化速率更相匹配而具有更加现实的应用前景。在煤的
研究背景2型糖尿病非酒精性脂肪性肝(Nonalcoholic fatty liver disease,NAFLD)的主要特征为糖脂代谢紊乱。而盐诱导激酶1(Salt-inducible kinase 1,SIK1)对于糖脂代谢有重要的调控作用,SIK1可磷酸化环磷酸腺苷转录调节共激活因子2(c AMP Regulated Transcriptional Coactivator 2,CRTC2)与固
半导体激光器和光放大器在光通信、光互联中有着极其广泛的应用。受限于非对称、小尺寸的有源区,其远场光斑不对称且发散角通常较大,因此与光纤的耦合效率较低,从而导致功耗和封装成本增加。本文提出了一种小发散角的半导体光放大器(Semiconductor Optical Amplifier,SOA)和一种小发散角的法布里-玻罗(Fabry-Pérot,FP)激光器,并分别对它们进行了优化设计和实验研究。本文