论文部分内容阅读
近年来,线性非高斯无环模型(LiNGAM)在没有任何先验知识的情况下能够从观察数据中完整的识别因果网络而得到越来越多的关注,并在神经科学,经济学,基因组学等领域得到了广泛的应用.Direct LiNGAM(Direct Method for Learning a Linear Non-Gaussian Structural Equation Model)框架是其中一个经典解法,但其存在当维度达到25维度以上时,外生变量识别率低的问题,从而产生级联效应,使得整个网络的估计误差随着层数增大越来越大,并且计算复杂度达到了维度的三次方.针对以上问题,本文从三个不同的角度来研究外生变量的识别问题:(1)从局部选择的角度出发,把变量的非高斯性作为外生变量选择的标准,用负熵来度量变量的非高斯,选择负熵最大的k个变量存入局部目标变量集合Lv中,在集合Lv中进一步去寻找外生变量,从而提高了外生变量的识别率.(2)从独立性的角度出发,通过引入自适应的独立性判定参数,根据此参数来找出与其余所有变量回归得到的残差都独立的变量,即为外生变量.该算法不仅避免了传统算法对独立性值差异敏感而导致识别率低的问题,而且也避免了不同数据集对固定独立性参数敏感而导致无法识别的缺陷.(3)从估计方式的角度出发,通过引入峭度的度量标准,我们发现当干扰变量服从独立同分布时,外生变量是具有最大的峭度值,基于此特征我们提出了一种直接识别外生变量的方法,该算法不仅是一种直接量化的关系,并且计算复杂度仅仅为维度的二次方.本文的研究成果不仅丰富了LiNGAM模型的研究,而且在一定程度上为外生变量识别提供了新的方法支持。