论文部分内容阅读
毕业生求职竞争越来越激烈,找到一份满意的工作总是充满挑战。与有工作经历的人不同,毕业生缺乏工作经验和社会人际关系网络的支持,他们必须从数百家公司或机构中筛选一些感兴趣的工作。工作申请过程是非常耗时的,尤其是准备和参加笔试和面试。如果毕业生不清楚自己的职业选择,他们必须投入大量的时间和精力去准备每一个可能被聘用的潜在招聘单位。这样的求职策略很容易导致就业不满意或就业失败。因此,为毕业生推荐一些适合他们的就业单位是很有价值的,对提高就业成功率和满意度都有帮助。目前,高校就业中心主要通过问卷收集学生求职意向,然后分析问卷数据为学生提供就业帮助。其中一种毕业生就业推荐是计算学生求职简历中描述的专业技能与招聘单位所要求的专业技能之间相似性,然后根据相似性高低为学生推荐最相似的就业单位。这样的策略都不可靠,因为问卷调查和学生简历都是自我评估的结果,不具备真实性。协同过滤方法(CF)是目前最常用且效果最好的推荐方法,所以本研究也希望使用CF方法来实现毕业生就业推荐。然而,CF技术是基于用户过去大量的行为或记录来预测用户将来的项目选择,而绝大多数毕业生是第一次申请工作,他们没有历史就业记录。因此,CF方法不能直接用于毕业生就业推荐。此外,用户的个人偏好在项目选择时起着至关重要的作用。同理,学生对就业单位的个人偏好也会影响学生的就业选择。因此,如何分析与确定学生对就业单位的偏好也是本研究面临的挑战之一。为解决这些挑战,本文做了以下几个方面的工作和改进:(1)本文使用学生校园数据来评估学生各项指标与能力,该数据更客观、更准确,因为它记录的是学生在学校生活、学习等真实行为。为发掘学生对就业单位的个人偏好,本文使用多种统计及可视化方法从多种角度、多种维度分析了学生就业模式。发现女生选择事业单位、银行等类型的就业单位更多,选择计算机开发岗的更少,且选择熟悉度高的地区的就业单位的人更多。96%的学业表现好的学生会选择继续深造;而学业表现不好的学生几乎全部选择就业,并且往往会选择在熟悉度高的地方工作。家庭条件好的学生出国留学的比例最大,并且就业单位所在地的经济发达度和区域熟悉度往往偏高;家庭条件不好的学生就业私有企业的比例最大,因为这类企业往往薪资较高。(2)本文提出了毕业生个性化偏好就业推荐算法(P2CF)。该算法是一个具有层次结构的推荐算法,考虑了学生群体和个人的就业选择。主要由两个部分构成:毕业生群体划分和毕业生就业推荐。毕业生群体划分部分根据学生学业能力和家庭经济条件使用聚类算法将毕业生划分为不同的学生群体。将一个群体视为一个有历史记录的用户,于是可以在群体基础上使用CF方法,解决了CF方法不能直接用于毕业生就业推荐的问题。毕业生就业推荐部分目的是计算学生对就业单位的评分,然后根据评分高低为学生推荐就业单位。主要由三个部分构成:群体就业单位选择、学生对就业单位属性偏好和对就业单位所在地偏好。将学生对就业单位属性偏好纳入BPR算法的求解目标,构造新的优化目标函数,求解融合了就业单位属性偏好偏置的群体就业单位选择。然后,使用二元高斯分布来拟合学生对就业单位所在地偏好。最后计算毕业生对就业单位的评分,该评分是毕业生所属群体对就业单位的评分与学生对就业单位所在地偏好评分之和。最后,实验结果表明,本文提出的毕业生就业推荐算法表现最优,在K=50时,HR达到了44.37%,大约是基于内容的推荐方法的2倍,比基于邻域的CF方法高了约20个百分点;MRR达到了17.14%,大约是基于内容的推荐方法的7倍,比基于邻域的CF方法高了约3个百分点。相比贝叶斯个性化排序算法(BPR),引入毕业生对就业单位属性偏好和就业单位所在地偏好后,对结果提升明显,命中率提高了约2个百分点。