论文部分内容阅读
近年来,随着我国居民收入水平的快速提高,居民消费能力明显增强,汽车保有量逐年增加,而且汽车更新换代的频率也越来越快,二手车交易市场日益活跃。对于许多买车或者卖车的人来说,二手车的保值率都是他们十分看重的因素。对新车购买者而言,选择高保值率的新车,可以保证自己的车在开了几年之后可以卖个好价钱,因此了解某款车的保值率可作为新车购买的一个重要的参考依据;对二手车买卖者而言,获得保值率可了解对应车型的基准价格,保证在二手车交易中立于不败之地;对于汽车制造厂家而言,了解车型的保值率有助于二手车回购等新业务的顺利开展。在大数据之前,个人二手车交易、银行抵押贷款等都有自己的二手车估值算法,如年限比率法、综合分析法等。这些算法一方面考察的因素较为单一,另一方面人的经验在其中作用相对较大,因此这些算法估值的误差相对来说比较大。基于此,本文从大数据的角度出发,利用大量的二手车交易数据,来确定二手车保值率的影响因素。首先,本文以北京瓜子二手车直卖网上的在售车辆为研究对象,将全部样本数据按照4:1划分为训练集和测试集,然后利用训练集样本对二手车保值率建立多元线性回归模型以及随机森林回归模型,通过多元回归模型得到对二手车保值率具有显著影响的因素,通过随机森林的回归模型得到了各个因素对于二手车保值率影响的重要程度,其中最重要的影响因素是上牌时间。最后,本文利用测试集样本对两个回归模型的预测效果进行了比较。结果发现,两个模型对于二手车保值率的预测效果均比较理想,并且随机森林回归模型的预测效果略优于多元线性回归模型。