论文部分内容阅读
二十一世纪已迎来了大数据时代,数据包含的变量个数越来越多但同时冗余的信息也越来越多.统计学习或者机器学习从这些数据中学习越来越困难,因此在建立模型前进行变量选择非常必要.多变量函数的梯度每个分量是函数关于这个位置变量的偏导数,范数大小相应的代表了对应位置变量发生变化时因变量发生变化的程度.梯度估计在变量选择问题中起着重要的作用,因此本文主要研究从样本点学习梯度. 本文提出了一种基于系数正则化的高维空间梯度估计算法.与传统梯度估计算法相比,该算法无需对变量所在的区域进行剖分,可以有效的用于高维空间.并且我们的算法直接对梯度进行估计,而不是先对从样本点学习函数到求导得到梯度估计.因此该算法更加的直接有效.我们给出了该算法的表示定理,将复杂的优化问题转化为简单的线性方程组问题求解.此外,借助于奇异值分解,我们还讨论了如何有效地降低表示定理中矩阵的规模.并给出了降维后的误差分析和降维算法.使得算法能够更快速的求解.在本文最后的部分,我们通过两个数值例子来验证基于系数正则化的梯度估计算法的有效性.第一个例子是模拟数据,验证我们的算法可有效用于变量选择和变量相关性研究.同时,第二个数值例子选取空气质量监测数据,算法得到的结果符合我们日常的认知,进一步说明我们的算法是有效可行的.