多组图贝叶斯分类模型研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:puccacat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,我们已然步入了大数据时代,便捷和多样的数据收集途径为人们更好地规避风险、理解自然规律带来了机遇和挑战。往往在数据采集阶段,人们很难对研究问题有着很清楚的认识,加之某些问题本身的复杂性,导致我们常常面对具有大量噪音的高维数据。一方面,这些维度之间存在错综复杂的关联关系,任何一个维度上的噪音都会因这种复杂的关系而传播放大,同时维度间的关联关系往往并非一成不变,这使得数据本身混杂了大量噪音且显现出明显的异构性。另一方面,数据存在大量冗余或相关性较低的维度,甚至部分维度本身就是数据采集过程中产生的噪音,从而进一步遮蔽了问题本身的内在规律,对分类算法和统计决策提出了更高要求。针对这些问题,本文首先基于完全贝叶斯估计,提出了多组图贝叶斯分类框架(Multi-Grouped Graph Bayesian Framework,MGGBF),根据高维数据的特殊性,将特征分为四组,前两组为冗余和噪音维,它们均与分类信息无关。后两组为预测维,参与预测分类,其中第三组特征之间相互独立而第四组特征之间树状相关。这种分组方式能够极大的简化计算,并完整的覆盖各种数据模式。根据贝叶斯定理,本文推导了多组图贝叶斯分类框架的各种性质,证明了该框架不需要进行数据预处理,就能够自动过滤噪音和冗余属性并同时完成回归或分类预测。其次,基于多组图贝叶斯分类框架,以多项式分布和狄利克雷分布为基础假设,由该分类框架派生出了一种新的组图贝叶斯分类模型(Multi-Grouped Graph Bayesian Classi?er,MGGB),结合原始框架的预测流程和基本属性推导了该模型各个分组的似然函数和基本性质,建立并证明了模型结构学习和推理的理论体系,并针对缺失数据探讨了处理策略及对应的定理公式变形。再次,根据组图贝叶斯分类模型的特殊性质,通过四个原子操作构建了六个基本的采样操作,并设计了一种特殊的采样步骤,从理论上证明了通过11个操作序列能够保证算法收敛至理论解。最后,我们通过仿真实验和真实数据测试了组图贝叶斯分类模型的性能。其中,对于符合组图模型假设的仿真数据,组图模型能够在50步采样内快速收敛,对于网状特征数据以及无结构数据或异构数据,组图模型均能够在80步采样内收敛,且对于任何一类数据,组图模型的预测准确率均高于其他13种经典分类算法,特别是当数据参杂众多噪音和冗余维时,这种优势更加明显。在11组真实数据的测试里,组图贝叶斯分类模型在其中7个数据集中具有最高的准确度,显示了优秀的分类预测性能。除此之外,通过在民用和军用两个方面的应用,展示了组图贝叶斯分类模型既能够作为预处理模型实现降维,也能够作为预测模型做出最终的分类,而且其独特的分组结构能够直接反映各个维度之间的相互关系,非常适合辅助人们更加深刻的理解当前数据,具有广阔的应用前景。
其他文献
本文研究了我国的财政政策设计中存在的一些问题。主要表现在:一,由于未将满足经济发展和经济稳定的政府支出分开,结果造成财政政策力度难以衡量;二,由于政策目标定为经济增长,结果
本文着眼于我国当前实际,分别从合人民性、合规范性、合价值性的视角,通过确立“以人为本”的绩效观、塑造法理型权威、保持意识形态“与时俱进”,建构当代中国共产党执政合法性
基于BFRP筋的性能特点和混凝土结构塑性理论,提出了BFRP筋的名义屈服强度概念,确定了混凝土与BFRP筋的屈服条件,建立了中置集中荷载作用下BFRP筋混凝土双向板的破坏机构,应用
互联网小额信贷作为一种新兴的信贷手段,拥有广阔的舞台和得天独厚的优势,其不仅提高了人们的消费力度,而且改变了人们的消费习惯,将线下消费向线上消费转移,冲击了传统的信
为了认知初级视皮层(V1区)的朝向编码机制,提出一种基于贝叶斯估计理论综合大鼠V1区神经元发放率和发放时间间隔(Inter-Spike-Interval,ISI)特性的复合编码方法.设计不同朝向的光