论文部分内容阅读
变量选择方法常用于线性回归中,已经有很多学者对其进行了研究.在现实生活中,存在的模型往往偏复杂化,大多变量间表现的是非线性关系,此时运用简单的线性统计模型不够灵活,并且进行研究时,会存在较大偏差.随着数据记载技术的不断发展,数据的积累越来越容易,高维数据就随之产生.如何快速从海量的数据中找到有参考价值的变量,是值得研究的问题,也已经受到了许多学者的关注.复杂的数据往往会存在交织错杂的关联关系,变量间的冗余性也比较明显,处理起来不仅难取舍,还消耗大量的计算时间,为了解决这些问题,本文在研究高维数据时,引入了 split-and-conquer方法,该方法可以通过将数据进行分块化处理,在每一块数据上进行变量选择,可以更好地降低数据间的冗余性,而且还可以有效的减少计算机运算时间.在实际生活中,数据间大多存在非线性关系,为了更好的在海量高维的数据中,选择出不仅仅是线性关系的重要变量.为此,引入一种非参数可加模型进行变量选择,该方法的无偏性和有效性已经在理论和实践中得到验证,非参数可加模型在处理非线性数据时,具有的优良性.因此,将其与split-and-conquer方法进行结合,一方面,解决耗时长的问题,另一方面,保证了在非线性模型中进行变量选择的有效性.大数据时代的到来,对高维海量数据处理方法的要求越来越高,不仅要求模型适用于线性模型,而且要求适用于非线性模型,更主要的是要保证时间的有效性,这已经成为了当前研究的一大热点话题.就此,本文做了以下工作:首先,将split-and-conquer方法引入到变量选择方法中.经典的方法大都没有考虑到耗时过长的问题,在运算时不断地迭代计算消耗大量时间.本文引入split-and-conquer方法,通过运用实例验证的方法说明改进的方法在时间运行方面的优良作用.其次,针对非线性模型的非参数可加模型,将该模型直接引入到高维模型中,通过数值模拟与实例验证的形式表明该方法在高维非线性的数据中是有效的.最后,对全文进行了总结,指出以后需要进一步改进的地方和未来的研究方向.