基于用户兴趣模型的个性化搜索算法研究

被引量 : 0次 | 上传用户:nathon_zhwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上的信息量迅速增长,人们为了搜索到与自己相关的信息,开发了搜索引擎,这是查询资源发展过程中的一次重大里程碑。但是随着人们的需求不断提高,传统搜索引擎的检索精确度低、重复网页多等缺点逐渐显露,以至于已经不能满足用户的需求。为了能更好地满足用户的需求,个性化、智能化成为了搜索引擎发展的趋势。本文对搜索引擎的个性化作了比较深入的研究,主要研究内容如下:首先,通过对现有的用户兴趣模型的研究,提出了一种新的用户兴趣模型构建算法。即在不同粒度上多次使用奇异值分解和k-means聚类算法,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,进而创建两棵加权兴趣树:文档类树和词类树。其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度。实验结果表明本文提出的用户兴趣模型在计算页面兴趣分类的准确率上有较大的提高。其次,针对向量空间模型的不足,提出了一种改进方法。即采用奇异值分解技术对其进行降维处理,由此得到的文档-词类矩阵能很好地解决向量空间模型的高维性、稀疏性以及同义词和多义词现象等问题。实验结果表明本文提出的改进的向量空间模型在计算页面分类的准确率上比传统的向量空间模型有较大提高。最后,针对现有的搜索引擎排序算法的不足,提出了一个新的排序算法。即在本文提出的用户兴趣模型的基础上,利用朴素贝叶斯分类器对传统搜索引擎检索得到的文档进行文档分类和词分类,并根据分类结果进行文档评分,最后将文档根据文档得分降序排列。实验结果表明本文提出的个性化排序算法在相同条件下比基于概率模型的个性化搜索算法的精确度更高,能更好地满足用户的个性化需求。
其他文献
当前我国最突出的民生问题在于农民工市民化进程发展缓慢,实现农民工市民化具有极其重要的现实意义和深远的历史意义。新生代农民工市民化应以推进人的城镇化作为发展标准。本
杭州西湖的植物配置是中国园林的精华和典范,环湖景区多数公园经历了30年以上的建设,植物群落稳定。同时,西湖综合保护工程又进行了大规模改造提升,使植物景观的内涵有了新的
木素磺酸钠是常用的有机膨胀剂。使用木素磺酸钠作为负极板膨胀剂的在化成时,经常有AGM隔板变色现象。利用SEM/XPS等分析方法对变黄物质进行了表征,结果表明,该黄色物质应该是木
本文以武汉为案例地区,从地理学的空间结构视角研究武汉市的乡村旅游空间布局、乡村旅游点的分布规律和旅游产品空间结构。同时,通过对武汉市乡村旅游市场需求特征进行调查分
【正】 "陈老总要来游山了!"这喜讯就象长了翅膀的鸟儿,飞上了"秀甲天下"的四川峨眉山。山上几十座寺庙里的人心都沸腾了,觉得又有中央首长来,又可给峨眉山增辉添彩了。但在
本研究依托电视相亲节目《非诚勿扰》男嘉宾第一段VCR中自我介绍的语料,在语用学的视域下,探究节目中男嘉宾在自我介绍中的身份构建过程。通过探究男嘉宾的身份构建策略,包括
面对全球变暖与能源枯竭等问题,西方发达国家提出发展低碳经济战略,并把它作为新一轮国际竞争的关键。低碳经济的迅速发展催生出如碳排放权交易等与之相关的金融产品,这一机制充
[目的]目前,有关心理韧性的研究在心理保健和健康管理中广泛开展和应用。本研究采用方便抽样法对空巢老人心理韧性进行横断面调查,以了解其心理韧性水平现状,并对其影响因素
布鲁氏菌病(Brucellosis,简称布病)是由布鲁氏菌引起的以家畜为主要传染源的人畜共患传染病。目前,人畜布病存在很多国家,2000年以后,我国人畜布鲁氏菌病有逐年上升的趋势,畜间也有
由于环境污染、资源紧缺等问题的日益突出,可持续发展理念越来越受到人们的关注。作为主要能耗产业之一,建筑业发展所带来的占用资源、污染环境的问题越来越突出。“绿色建筑