论文部分内容阅读
本文以第七届"泰迪杯"数据挖掘挑战赛C题所提供的数据集为基础,针对如何建立行车安全评价模型进行研究,对驾驶员的驾驶行为做出安全评估。经过初步探索数据与一系列数据预处理后,运用百度API绘制行车路线图并结合数据分析出驾驶员的行车习惯,通过R型聚类分析得到安全评价指标体系,同时基于模糊层次分析法(FAHP)采集到的样本分别用偏最小二乘回归模型、PSO-BP神经网络模型与GA-BP神经网络模型得到评价结果,选择评价效果最好的模型对行车安全做出评价。首先对数据集进行初步探索,分析数据集的质量。之后进行数据规约与数据清洗,同时求出相邻经纬度之间实际距离与对应速度的一阶差商,采用K-Means算法与箱线图识别异常点,初步用平均插值法填补异常点,用百度API绘制出行车路线图后,发现行车路线存在大量漂移过程,接着用db3小波分析对数据进行奇异点检测和剔除,但去噪的同时也丢失了原本的有效信息,得到的行车路线图仍不理想。将原始数据与经纬度时序图对比分析后发现异常数据是成段出现的,采用三次样方插值拟合模型对数据进行整段拟合修复,最终得到了理想的行车路线图。对于行车安全评价模型,首先设计算法从处理后的数据集中识别出超速行驶、疲劳驾驶、急加速、急减速等8个安全评价指标,通过R型聚类分析对8个指标中存在较强相关性的指标进行取舍,最终得到6个评价指标。构建FAHP模型对指标进行赋权,求得6个指标的权值向量,由此来计算全部驾驶员的评价结果,并对其基于留出法进行划分。根据所采集的样本,建立偏最小二乘回归模型、PSO-BP神经网络模型与GA-BP神经网络模型对行车安全进行评价。利用测试集进行多次试验,并由最大似然估计得到均方根差、平均绝对值误差、平均绝对偏差百分比等指标的无偏估计值对三个模型的评价结果进行比较,得出GA-BP神经网络模型的评价精度优于其他两个模型,之后通过K-Means算法划分安全等级,使安全评价更有依据,最后给出了模型的不足之处。