论文部分内容阅读
互联网的兴起和发展,而后又带动了电子商务的飞速发展。电子商务将大量的数据带到了我们的面前。面对这些数据,用户却无法从中快速的获取有效的信息,这就形成了信息超载的问题。搜索引擎在解决这个问题上取得了一定的成功,例如美国的谷歌和国内的百度都是搜索引擎,当用户在搜索引擎中输入关键词时,搜索引擎就会在数据库中寻找用户可能需要的信息。然而,互联网的数据浩瀚如海,并非每一个用户都能够明确的知道自己的需求。相比之下,推荐系统则能更好的解决信息超载的问题,也显得更加的智能和主动。推荐系统不需要用户输入关键词,就能够在海量的数据信息中进行快速的搜索。另一方面,它会将用户可能感兴趣的信息主动呈现给用户,也会根据不同用户的不同兴趣为用户提供个性化推荐服务。因此,在很多领域中,都能够看到推荐系统熟悉的身影。尤其在电子商务网站中有越来越好的发展前景。推荐算法有多种,但目前主流的并且使用率最高的三个推荐算法分别是基于内容、基于协同过滤和基于关联规则的。其中,使用人数最多、市场占有率最高的推荐算法是第二种算法。然而随着互联网的快速发展,网站中用户数量和产品数量也在迅速的增长,基于协同过滤的推荐算法其也暴露出来越来越多亟待解决的问题。其中,最受关注的问题是数据稀疏性和冷启动。如何解决这些问题一直是研究者们的难题,为了使基于协同过滤的推荐算法有更加良好的推荐效果,本论文提出了利用组合算法来弥补这些缺陷。另外,当电子商务推荐系统中积累了很多数据时,单机处理这些数据受到了一定的影响,从而也会对推荐的准确度和效率产生影响。因此,对这些数据采用分布式处理,使用Hadoop技术实现推荐系统中大量数据的计算,提高计算的效率,将更加准确的商品推荐给用户,使用户越来越依赖电子商务推荐系统,也使得电子商务网站获得经济效益。本论文主要研究了以下几个方面:1)对几种常见的推荐算法做了详细的介绍,并描述了各种算法的思想和实现步骤,同时了解了各种推荐算法的缺点,尤其是协同过滤推荐系统的不足。2)使用组合算法来解决数据稀疏性和冷启动的问题。根据不同的条件,选用不同的推荐算法。3)使用Hadoop中的MapReduce框架实现推荐系统海量数据的分布式计算,使推荐系统有更好的性能。