论文部分内容阅读
推荐系统,是一种能够从海量的信息中,依据使用者的历史信息或者使用者的自身特征,向使用者提供符合其自身需求或者使用者所喜欢的信息或者物品。它能够依据使用企业的历史业务记录或者企业自身的特点,从海量的信息中筛选出使用企业可用于业务进行的有用信息,从而节省时间与人力成本,推动传统企业向信息化转型。基于这个切实的需求,本文设计并且实现一个基于深度学习的企业推荐系统,该系统由分布式数据采集系统,基于深度神经网络的企业分类算法与基于内容的企业推荐算法组成。在分布式数据收集方面,本文采用Python下的Scrapy框架,根据Redis内存数据库的特点,采用Mysql数据库作为数据的持久化存储,完成了Scrapy-Redis分布式爬虫系统。针对基于深度学习的企业分类算法,因为从网络中抓取的原始数据不包含企业的类别信息,企业的类别信息这一属性在推荐中至关重要。在这部分本文在有限的数据集下情况下,完成了三种神经网络,前馈神经网络、卷积神经网络以及Ngram神经网络。这三种神经网络在验证集上的准确率分别为86.28%、86.16%和86.16%。在实现企业分类的工作中采用了前馈神经网络。针对基于内容的企业的推荐算法,本文从企业业务实际出发,制定了企业相似度计算方法。分别指定了企业属性的描述方法,定义了三种不同字段的计算方法。即列表类字段、文本类字段以及数字类型字段。对于最重要的文本类字段的计算方法本文实现了LSI模型与Word Embedding方法,并将最后的计算结果与Baidu AI进行对比。其中LSI模型、Word Embedding模型与Baidu AI的两两皮尔森相似度为0.3979、0.1984与0.6451。最后依据企业业务选择LSI模型进行文本类字段分类。在最后在推荐企业结果上,根据最后企业的反馈,根据推荐系统进行业务与不根据进行业务相对比业务成功率提升约7.5%。