论文部分内容阅读
随着Internet迅速普及,如何从浩如烟海的互联网数据中迅速找到相关信息,是互联网用户面临的重要问题,也是互联网技术研究的重点之一。目前,搜索引擎和信息过滤是解决该问题最常用到的两种主要技术。个性化推荐是一种新兴的信息过滤技术。它从用户的历史行为数据中发现用户的兴趣偏好,采用“推送”的方式,将用户感兴趣的信息从大量数据中过滤出来,并根据用户对信息“感兴趣”的程度,按一定的方式将相关信息呈现在用户面前。对于电子商务平台而言,使用个性化推荐技术,有助于提升平台的“长尾”优势,增加利益攸关方的收益。本文将个性化推荐相关技术引入“搜房网”垂直搜索引擎升级的设计中,分析历史用户的操作行为,提取其的兴趣模型,使用基于用户协同的过滤方式,发现当前用户兴趣,在项目库中找出当前用户可能感兴趣的信息并将之推荐给当前用户,缓解垂直搜索引擎面临的“过度筛选”问题。本文主要工作如下:概述了个性化推荐领域的经典算法、理论、研究热点及相关技术,比较了基于规则发现、基于内容过滤和基于协同过滤等相关算法和理论的优缺点,并阐述了它们各自的应用场景。同时还简要介绍了隐马尔可夫模型的相关理论。基于“搜房网”搜索引擎的用户行为特点,分析了搜索引擎系统的用户搜索行为日志,从而给出了用户行为、用户行为序列的相关定义。设计了一个序列融合算法,提取日志中的用户行为序列,同时,提出了一种计算用户行为序列相似度的方法。根据用户行为序列对用户进行了建模,并基于隐马尔可夫模型理论,设计了预测用户行为序列的模型及模型参数的估计方法。进而设计了一套基于用户行为序列分析,综合考虑了用户协同、用户行为序列相似性、项目时效性等因素的项目推荐算法。此外,还制定了相关的“冷启动”策略。最后,结合“搜房网”的实际需求,设计并实现了一个房屋信息个性化推荐系统。设计相关实验,在真实的数据集上,验证了系统的用户行为预测效果,结合隐马尔可夫模型特点,分析了系统关于用户行为预测设计上的一些局限性。并结合系统特性,讨论了评价推荐项目相关性和推荐列表排序正确性的相关指标。设计实验,评估系统在推荐列表排序、推荐项目相关性等方面的实际效果,并在此基础上分析了系统设计的不足,对系统的下一步工作进行了展望。