论文部分内容阅读
随着信息技术的迅速发展,网络在社会生活中发挥着越来越重要的作用,也由此产生了大量与网络紧密相关的数据。与传统的时域信号不同,来源于网络的数据往往具有隐含的空间结构。图作为对网络的数学抽象,可以很自然地表示通信网络、交通网络、社交网络等各种类型网络的拓扑结构,也因此成为表示网络数据隐含结构的重要工具,这些有着图结构的网络数据被称为图信号。现有的图信号处理技术多数是基于已知的图结构对信号进行分析和处理,但是在某些应用场景中,网络拓扑有可能无法直接获得,此时就需要从图信号中推断网络拓扑结构。网络拓扑推断对于了解网络整体结构以及刻画网络节点之间的交互作用有着重要意义,同时也为后续对图信号的分析和处理做铺垫。但是,实际中的应用往往会面临数据缺失问题,即观测到的数据集是不完整的,数据缺失问题给现有的网络拓扑推断方法带来了巨大挑战,对于缺失数据的估计误差将会严重影响网络拓扑推断准确性。因此,基于非完备图信号对网络拓扑进行推断是一个重要的研究方向,极具理论和实际意义。鉴于此,本文针对两种不同的数据缺失形式,即观测数据随机缺失的情况和存在隐藏节点的情况,致力于研究基于非完备图信号的网络拓扑推断方法。本文的具体研究内容如下:1、基于非完备图信号的网络拓扑单独推断方法研究面对实际应用场景中观测数据缺失所带来的挑战,我们在第二章中研究了在单个网络中基于非完备图信号的网络拓扑推断方法。首先,通过建立合适的图信号模型,即高斯概率图模型,将网络拓扑推断转化为对图拉普拉斯矩阵的估计,进而转换为节点数据之间偏相关性的分析。其次,考虑两种典型的数据缺失形式,对于第一种观测数据随机缺失的情况,通过构造图信号协方差矩阵的无偏估计量,利用最大似然估计的方法,并考虑对高斯概率图模型中精度矩阵的拉普拉斯约束,对网络拓扑进行推断。实验结果表明,网络拓扑推断准确度随着样本数目的增多或者缺失数据比例的减小而升高,然而该方法的局限性体现在当样本数目较少或者缺失数据比例较大时,网络拓扑推断准确度迅速下降;对于第二种存在隐藏节点的情况,通过将精度矩阵分解为稀疏矩阵和低秩矩阵之差,剔除隐藏节点对被观测节点之间关系的影响,类似地,利用最大似然估计的方法,同时考虑对精度矩阵的拉普拉斯约束,从而实现对网络局部拓扑的推断。实验结果表明,局部拓扑推断准确度随着样本数目的增多或者隐藏节点数目的减小而升高,但是该方法的局限性在于无法实现对网络全局拓扑的准确推断。2、针对观测数据随机缺失情况的网络拓扑联合推断方法研究面对网络拓扑单独推断方法在处理观测数据随机缺失情况时的局限性,我们在第三章提出了一种网络拓扑联合推断方法,该方法依赖于来自多个相关网络的异构数据,可以使各个网络彼此之间提供辅助信息,解决当样本数目较少或者缺失数据比例较大时,单个网络拓扑推断准确度下降的问题。考虑高斯概率图模型,分别构造各个网络中图信号协方差矩阵的无偏估计量,利用最大似然估计的方法,结合多个相关网络拓扑之间的相似性,对拓扑对应的图拉普拉斯矩阵进行联合估计。我们基于交替方向乘子算法框架,设计了一种分布式的网络拓扑联合推断算法,此外,我们提供了对该联合推断方法的理论分析,证明了对图拉普拉斯矩阵的估计的一致性,并分析了样本数目、缺失数据比例、相关网络数目等关键因素对估计误差的影响。在此基础上,我们进一步提出了一种自适应的网络拓扑联合推断方法,该方法通过自适应地调整对拓扑中边的权重的惩罚因子,提高网络拓扑边结构的推断准确度。最后,我们分别在合成数据集和真实数据集上验证了所提方法的性能,实验结果验证了在观测数据随机缺失情况下多个网络拓扑联合推断方法的优越性。3、针对存在隐藏节点情况的网络拓扑联合推断方法研究面对网络拓扑单独推断方法在处理隐藏节点情况时的局限性,我们在第四章提出了一种两步式的网络拓扑联合推断方法,该方法依赖于来自时变网络的异构数据,可有效减轻隐藏节点带来的影响,最终实现对网络全局拓扑的推断。考虑高斯概率图模型,对于每个时刻的网络,假设有一部分节点没有被观测到,即存在隐藏节点,而在实际应用场景中,不同时刻网络中的隐藏节点集合可能是不同的,这使得相邻时刻的网络之间依然可以提供辅助信息。根据这一假设,首先对不同时刻网络中被观测节点构成的局部拓扑进行联合推断,在此过程中,我们利用了相邻时刻网络中局部拓扑之间的相似性,在完成了对网络局部拓扑的推断之后,我们进一步对网络完整拓扑进行联合推断,该方法的两个步骤均借助交替乘子算法框架实现。最后,实验结果表明,在隐藏节点存在的情况下,我们所提出的这种两步式的网络拓扑联合推断方法为网络全局拓扑推断提供了可能性,并且网络拓扑推断准确度随着样本数目的增多以及隐藏节点数目的减少而升高。