论文部分内容阅读
随着信息技术的不断发展,我们已然步入了大数据时代,便捷和多样的数据收集途径为人们更好地规避风险、理解自然规律带来了机遇和挑战。往往在数据采集阶段,人们很难对研究问题有着很清楚的认识,加之某些问题本身的复杂性,导致我们常常面对具有大量噪音的高维数据。一方面,这些维度之间存在错综复杂的关联关系,任何一个维度上的噪音都会因这种复杂的关系而传播放大,同时维度间的关联关系往往并非一成不变,这使得数据本身混杂了大量噪音且显现出明显的异构性。另一方面,数据存在大量冗余或相关性较低的维度,甚至部分维度本身就是数据采集过程中产生的噪音,从而进一步遮蔽了问题本身的内在规律,对分类算法和统计决策提出了更高要求。针对这些问题,本文首先基于完全贝叶斯估计,提出了多组图贝叶斯分类框架(Multi-Grouped Graph Bayesian Framework,MGGBF),根据高维数据的特殊性,将特征分为四组,前两组为冗余和噪音维,它们均与分类信息无关。后两组为预测维,参与预测分类,其中第三组特征之间相互独立而第四组特征之间树状相关。这种分组方式能够极大的简化计算,并完整的覆盖各种数据模式。根据贝叶斯定理,本文推导了多组图贝叶斯分类框架的各种性质,证明了该框架不需要进行数据预处理,就能够自动过滤噪音和冗余属性并同时完成回归或分类预测。其次,基于多组图贝叶斯分类框架,以多项式分布和狄利克雷分布为基础假设,由该分类框架派生出了一种新的组图贝叶斯分类模型(Multi-Grouped Graph Bayesian Classi?er,MGGB),结合原始框架的预测流程和基本属性推导了该模型各个分组的似然函数和基本性质,建立并证明了模型结构学习和推理的理论体系,并针对缺失数据探讨了处理策略及对应的定理公式变形。再次,根据组图贝叶斯分类模型的特殊性质,通过四个原子操作构建了六个基本的采样操作,并设计了一种特殊的采样步骤,从理论上证明了通过11个操作序列能够保证算法收敛至理论解。最后,我们通过仿真实验和真实数据测试了组图贝叶斯分类模型的性能。其中,对于符合组图模型假设的仿真数据,组图模型能够在50步采样内快速收敛,对于网状特征数据以及无结构数据或异构数据,组图模型均能够在80步采样内收敛,且对于任何一类数据,组图模型的预测准确率均高于其他13种经典分类算法,特别是当数据参杂众多噪音和冗余维时,这种优势更加明显。在11组真实数据的测试里,组图贝叶斯分类模型在其中7个数据集中具有最高的准确度,显示了优秀的分类预测性能。除此之外,通过在民用和军用两个方面的应用,展示了组图贝叶斯分类模型既能够作为预处理模型实现降维,也能够作为预测模型做出最终的分类,而且其独特的分组结构能够直接反映各个维度之间的相互关系,非常适合辅助人们更加深刻的理解当前数据,具有广阔的应用前景。