基于数据预处理和回归分析技术的数据挖掘算法及其应用研究

被引量 : 17次 | 上传用户:hexingjie1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前科技飞速发展的形势下,随之而来的是数据的急速增长。这也吸引了国内外越来越多的专家学者们的目光,引发了研究海量数据的热潮。新兴起的数据挖掘技术目前已成为人们研究的热点之一。所谓数据挖掘是从庞大的数据中提取有价值的或人们感兴趣的知识的过程。本文在“西北黄土地区高速铁路客运专线桥梁健康监测若干问题研究”这个项目的背景下对海量数据的挖掘技术及算法进行研究,并将其应用到桥梁健康监测预测中。本文着重研究关于时间序列海量数据的挖掘算法以及它的实际应用。由于实际监测的数据有不完整性、含有噪声、含有空值、异地存储以及数量较大的特点,因此,若要对这些数据进行挖掘首先应当对其进行数据的预处理,而后使用行之有效的方法或算法对其处理,其结果才具有一定的可信度。本文主要的研究内容有:(1)阐述了数据挖掘的基础理论和相关流程,并对在数据挖掘中常用的聚类分析、关联规则以及分类和回归分析方法进行了探讨。在数据挖掘中对时间序列的数值进行预测时常用到回归分析方法,而BP算法是该方法中预测效果较好的一种算法,因此,本文着重分析了BP算法以及对其改进的一些常用方法及原理。(2)将邻域粗糙集理论引入数据预处理阶段,首先分析邻域粗糙集属性约简的原理,而后利用UCI数据集对其性能进行研究,并在与传统的Pearson方法进行对比分析的基础上,重点研究邻域粗糙集算法在属性约简中的应用。(3)为了将算法更好的应用在数据挖掘中,借助软件仿真,首先,深入分析几种常用改进后的BP神经网络算法的性能;其次,选择两个算法性能相对较好的改进函数,并在此基础上提出4种基于遗传算法优化的BP神经网络算法的模型;再次,确定了一种较有效的GA-BP模型算法;最后,经查阅相关文献得知遗传算法的参数选择范围后,采用固定两个变量改变其中一个变量的方法确定出该模型性能最佳时的参数。(4)将上述提出的数据预处理方法(数据的集成、数据的属性约简、数据的降噪、数据的归一化)以及GA-BP算法应用在桥梁健康监测系统的斜拉桥斜拉索的索力预测上,经过实验分析,验证了其应用的有效性。
其他文献
背景与初衷职业对于绝大多数人来说具有非常重大的意义,一份合适的职业不仅是谋生的手段,更体现了存在的价值,是自我实现和人生幸福的源泉。职业指导师就是那个帮助求职者找
美林投资时钟理论是美林证券公司2004年所发布的研究报告中,一种将宏观经济周期演变与各类资产收益率表现和各类行业收益率表现联系起来的投资分析理论。美林证券公司以二十
一、赣鄱饮食特点赣鄱饮食,具有“两概括、一综合”的特点。所谓两概括,即吴楚饮食文化的概括,南北饮食的概括;一综合,即俗家饮食与佛道宗教文化的综合。赣属吴头楚昆,部分地
<正>很多企业在人力资源管理过程中,人才流失状况较为严重,尤其在一些营销类行业中较为普遍,常被戏称为"铁打的营盘流水的兵"。在笔者曾就职的一家广告公司中,因当时正值公司
新中国成立65年以来,从历代的领导人的军事思想可以看出,党和国家非常重视国防教育的发展。国防教育是公民教育的其中之一,它主要是指国家组织公民,领导公民对学习国防知识,对培养
我国民办高校通过近三十多年的不懈发展,无论是从教学质量上规模上还是社会影响力上,都取得了不俗的成绩。民办高校队伍中也不乏一些享誉全国的民办强校,如:三江学院、树人学
建立了2,4-二硝基苯肼固相吸附-高效液相色谱同时测定塑料电器产品中15种醛酮类化合物的方法。研究了固相吸附采样和前处理方法,优化了实验条件,并进行了线性关系、回收率、
采用超音速等离子喷涂技术在Q235钢基体表面制备了WC10Co4Cr涂层。通过扫描电子显微镜和能谱仪分别对WC10Co4Cr涂层的显微组织和元素成分进行了分析,并利用维氏硬度仪对涂层
肝衰竭是指多种因素引起的严重肝脏损害,导致其合成、解毒、排泄和生物转化等功能发生严重障碍或失代偿,出现以凝血机制障碍和黄疸、肝性脑病、腹水等为主要表现的一组临床症
目前,地铁已经成为一种新型的、倍受城市出行者欢迎的交通方式,具有便利快捷,不堵车,不延时等各种优势,使得越来越多的城市开始建设地铁,也有越来越多的出行者选择将地铁作为自己的