论文部分内容阅读
互联网的迅猛发展打破了传统地域的限制,企业招聘由线下转移到了互联网上来,涌现了一批大型的在线求职平台,如智联招聘、拉勾网、前程无忧等。但是由于非结构化招聘信息不统一,缺乏一站式采集、提取和清洗方案,求职者难以在杂乱无章的招聘信息中找到合适的信息。对非结构化招聘信息的采集、提取和清洗,形成统一结构化的数据集,已成为一个亟需研究的课题。本文的研究方向是针对IT行业的非结构化招聘信息,进行数据的采集、提取和清洗。论文主要如下安排:(1)非结构化数据采集:简单介绍爬虫技术的发展以及Scrapy框架爬取数据的基本原理,然后利用基于Scrapy框架采集非结构化招聘信息,将该数据存储到Mongo Db数据库。(2)数据提取:利用Aho-Corasiek算法对采集完成的非结构化数据进行关键字的提取,达到将非结构化数据转变成结构化数据,然后将数据重新存储到MongoDb数据库。(3)数据清洗:首先利用SQL语句对结构化数据进行预处理,接着进行清洗。由于现有的基本Skyline算法清洗数据效率低,故本文在基本Skyline算法上进行了改进,先利用改进的Skyline算法对数据进行清洗,最后将清洗过后的招聘信息生成各种二维统计图。系统集成了数据采集、关键字提取和数据清洗三个功能模块,前台展示招聘信息的各种二维统计图,后台完成数据的实时解析与采集、关键字提取、数据清洗以及扩展数据接口等功能。