基于推荐技术的个性化搜索引擎方案的设计与实现

被引量 : 0次 | 上传用户:tjunu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的爆炸性增长,搜索引擎用户对信息获取的质量提出了更高要求。为了帮助用户更快更好的找到所需,搜索引擎需要深入分析用户行为数据,挖掘行为模式,改善检索相关性。本文研究内容源于某公司核心部门一项目小组,该项目组致力于挖掘用户行为数据,以提升用户的搜索体验。本文通过数据挖掘技术,在海量的用户行为数据中挖掘有用的用户行为模式,借助于全文检索引擎Lucene,设计并实现了个性化搜索,并与未实现个性化搜索的系统作对比,结果表明个性化搜索给出的结果更能满足用户需求。为达成目标,本文首先深入分析信息检索的相关理论,完整描述了搜索引擎各模块组成及其功能,着重指出了搜索引擎测评的重要意义;并详细叙述了数据挖掘的基础理论,以及建立在其之上的推荐技术的基本工作原理。其次,本文从Query个性化、排序个性化以及产品个性化三个维度对个性化搜索的需求做了深入探讨,并构建了个性化搜索的模型以及评估体系,对个性化搜索的潜在风险亦作了简要分析。在这些工作的基础上,提出了实现个性化搜索的总体规划。再次,为了表明用户行为数据可用于个性化搜索,本文从基础数据的角度出发,提出了五个基本假设,并从统计学的角度充分论证了用户行为数据对对个性化搜索的理论支持。为了保存海量的用户行为数据,本文还设计了数据仓库系统,以支撑后端的推荐技术系统。最后,本文提出三种实现个性化搜索的详细方案以及流程图,并对核心的推荐系统以及线下挖掘模块给出了详细架构:第一种方案通过修改相关性排序算法,以加入个性化因子;第二种方案不需要修改现有搜索引擎的核心算法,仅需要在现有检索结果的基础上进行个性化排序;第三中方案根据用户的个性化需求,对用户检索的Query进行改写,这种方案不需要修改原有排序算法。综合考虑成本以及对现有系统的耦合度,本文抛弃第一种方案,借助于全文检索引擎Lucene的,集成第二、第三种方案,实现了个性化搜索,并通过“个性化环境”和“对比环境”的搜索结果对比,证实了个性化搜索更能满足用户需求。
其他文献
<正> 自然环境南昆山位于北纬23°37,东经111°38,横垮增城、从化、龙门三个县,山地面积达30多万亩,龙门境内24万亩,其中南昆山林场18.5万亩。南昆山平均海拔500米,最高海拔
目的探讨分析阴道分泌物常规检查和妇科病变的相关性。方法该研究中主要方便选取该院2015年1月—2016年1月期间所收治的100例妇科患者进行了分析研究。当中阴道炎患者为40例,
当前,我国高校辅导员考核的现实困境与理论瓶颈并存,应用胜任力理论与方法进行辅导员考核具备鲜明的特点和优势,有助于摆脱这些困境。进一步探索基于胜任力模型的辅导员考核
目的观察西酞普兰治疗脑卒中后抑郁伴焦虑的效果。方法将北京军区总医院263临床部神经内科2010年1月—2012年1月收治的200例脑卒中后抑郁伴焦虑患者随机分为研究组和对照组,
期刊
<正>文本解读《七颗钻石》是俄国作家列夫·托尔斯泰的一篇童话。故事讲述地球上发生了一次大旱灾,许多人和动物焦渴而死。一个小姑娘抱着水罐出门为生病的母亲找水,爱心使水
<正> 词是按调而填的一种诗歌别体,它“调有定格,字有定数,韵有定声”(吴师曾《文体明辨》),词牌不同则调异,虽一字之差调亦迥别,如《木兰花》与《木兰花慢》,《金人捧露盘》
随着全球经济的发展,国际贸易越来越频繁。然而,贸易过程中,商业冲突和矛盾是不可避免的。因此,商务索赔信在国际贸易中发挥着重要作用。人们普遍认为,商务信函语言应该是精