论文部分内容阅读
员工离职,尤其是核心员工的离职,是当前许多组织或者企业面临的主要问题之一。这个问题对于企业的正常运转来说十分重要,因为它不仅影响了其他员工工作的可持续性,还会影响到企业的规划以及企业文化的传承。因此,企业的人力资源部门越来越重视员工离职以及之后所带来的一系列连锁反应,希望可以通过有效的手段获取影响员工离职的深层次原因,以便迅速做出反应,把损失降到最低。针对这一需求,论文提出了一种新的基于加权随机森林的离职预测模型,旨在提高员工离职预测的能力,具体的工作如下:(1)分析并研究了影响员工离职的主要原因,以及影响员工离职的直接因素和间接因素。(2)归纳总结了几种比较常见的员工离职预测算法,并分析了它们的优缺点。在此基础上,重点介绍了随机森林算法。随机森林具有优秀的泛化性能,在处理高维不平衡数据方面表现良好。(3)提出基于随机森林的特征选择算法,对所有可能离职相关的员工特征的重要性进行计算并排序,筛选出关键特征子集,降低员工特征集维度。(4)提出基于加权二次随机森林的离职预测模型。其核心思想是通过F1值来增加子分类器在投票过程中的话语权。算法先通过训练样本构建基本的随机森林模型,再利用验证样本来为随机森林中的决策树分配权重。最后通过调用加权二次随机森林模型来对测试样本进行分类,评估模型的泛化性能。(5)通过在收集到的真实数据集及虚拟数据集上进行的仿真实验,可以看出与随机森林、C4.5、逻辑回归、BP等算法相比,论文提出的加权二次随机森林算法在各项分类评价指标中都有比较明显的提升。同时,该模型也可以在对企业的员工离职进行预测的同时,发现影响该企业员工离职的核心因素,比如月收入、加班、年龄、通勤距离、在公司工作的年限、工资增长百分比等。本研究为人力资源部门更准确地预测员工离职提供了一种新的分析方法,实验结果也可以较为有效地指导企业降低员工离职倾向。