基于改进的线性和非线性变量选择方法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:icetqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
变量选择方法常用于线性回归中,已经有很多学者对其进行了研究.在现实生活中,存在的模型往往偏复杂化,大多变量间表现的是非线性关系,此时运用简单的线性统计模型不够灵活,并且进行研究时,会存在较大偏差.随着数据记载技术的不断发展,数据的积累越来越容易,高维数据就随之产生.如何快速从海量的数据中找到有参考价值的变量,是值得研究的问题,也已经受到了许多学者的关注.复杂的数据往往会存在交织错杂的关联关系,变量间的冗余性也比较明显,处理起来不仅难取舍,还消耗大量的计算时间,为了解决这些问题,本文在研究高维数据时,引入了 split-and-conquer方法,该方法可以通过将数据进行分块化处理,在每一块数据上进行变量选择,可以更好地降低数据间的冗余性,而且还可以有效的减少计算机运算时间.在实际生活中,数据间大多存在非线性关系,为了更好的在海量高维的数据中,选择出不仅仅是线性关系的重要变量.为此,引入一种非参数可加模型进行变量选择,该方法的无偏性和有效性已经在理论和实践中得到验证,非参数可加模型在处理非线性数据时,具有的优良性.因此,将其与split-and-conquer方法进行结合,一方面,解决耗时长的问题,另一方面,保证了在非线性模型中进行变量选择的有效性.大数据时代的到来,对高维海量数据处理方法的要求越来越高,不仅要求模型适用于线性模型,而且要求适用于非线性模型,更主要的是要保证时间的有效性,这已经成为了当前研究的一大热点话题.就此,本文做了以下工作:首先,将split-and-conquer方法引入到变量选择方法中.经典的方法大都没有考虑到耗时过长的问题,在运算时不断地迭代计算消耗大量时间.本文引入split-and-conquer方法,通过运用实例验证的方法说明改进的方法在时间运行方面的优良作用.其次,针对非线性模型的非参数可加模型,将该模型直接引入到高维模型中,通过数值模拟与实例验证的形式表明该方法在高维非线性的数据中是有效的.最后,对全文进行了总结,指出以后需要进一步改进的地方和未来的研究方向.
其他文献
进入21世纪以来,随着我国经济的不断发展,港口作为交通运输的重要枢纽,其战略地位日益突出,在经济发展中起到至关重要的作用。港口是地区与外界贸易之间的联系,港口的发展会
在32℃条件下,采用微量热仪得到了不同浓度姜黄素作用下粟酒裂殖酵母细胞生长的产热功率-时间(P-t)曲线,计算得到其生长速率常数k、传代时间tG、抑制率,等热动力学参数,并探讨了热
函证程序是七大审计程序之一,可以在审计活动中提供证明力度较强的审计证据,如果能够较好的执行这一程序,审计效果会比较好,审计效率也能得到进一步提高。据统计,2010年以来,证监会对会计师事务所和注册会计师作出的行政处罚一共有26次,其中,函证缺失有12例、替代测试缺失11例、回函异常未关注6例、发函控制缺失7例。由此可见,函证程序并没有得到较好的执行,在审计失败中扮演着“重要”的角色,也往往被财务舞
智慧城市已成为城市创新性发展的全新理念及模式,将先进的信息技术充分融入到城市的生活、管理以及生产当中,极大程度地提高了城市的整体生产效率、管理水平及服务质量,逐渐
癌症的发生发展是对人类健康和生命的主要威胁之一。根据有关国家权威癌症数据机构的报导,全球将近四分之一到三分之一的每年新增恶性癌症患者和每年新增的死亡癌症患者均发生中国,且其所患者占的癌症死亡比率仍在不断增加和上升。因此,癌症的早期治疗目标靶点、治疗方法手段以及抗癌药物的发现和应用已成为了我国肿瘤科学家的重要努力和研究方向。运用手术治疗、化学药物疗法和放射疗法都是现如今我国临床上最常使用的三种治疗癌
期刊
当前铁路安全部门把控机车的安全运行,主要依靠对列车运行控制记录装置(以下简称LKJ)的数据分析为主,以机车车载安全防护系统装置(以下简称6A)视频信息、录音数据的分析为辅
加入 WTO,将为山东进出口贸易展示更为优越的贸易环境、更为开阔的出口空间、更为公正的贸易争端解决通道 ,同时也对山东出口产品结构、进出口贸易主体及外贸管理体制等提出