基于Web日志挖掘的原型系统研究与实现

被引量 : 0次 | 上传用户:wind1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet信息大爆炸的年代,用户大量地借助搜索引擎获取所需信息。然而现有的信息检索系统基本对不同用户键入同一查询词返回同样的结果集,忽视了用户自身的知识领域背景和兴趣趋向,使用户陷入了信息资源迷航状态。为此,信息检索领域拓展开了一个新兴的研究方向----个性化检索研究。提供个性化检索的前提条件是要能准确地识别用户并合理的建立其知识兴趣背景。Web日志中含有大量的用户记录信息,通过对相关信息的挖掘可以识别出单一用户,通过分析用户的浏览行为信息可以抽取用户特性信息,从而构建出用户知识兴趣背景。结合用户知识兴趣背景,对不同用户键入同一查询词进行用户识别,分析其领域知识、兴趣偏好、喜好趋势等信息,从而返回相对不同用户意图需求的结果集,实现个性化检索,提高查全率、查准率以及用户的满意度。本文重点研究通过Web日志挖掘技术建立用户知识兴趣背景,实现个性化检索原型系统。主要研究内容如下:探讨了针对Web日志数据预处理阶段的数据清理技术,同时对数据预处理主要几个步骤进行了详细分析、阐述。针对基于词频的TF/IDF算法忽略了用户知识兴趣与文档相关性问题,结合对Web日志中用户浏览行为和查询日志中用户隐式反馈信息的分析,提出了页面相关性权重计算方法;针对TF计算中忽视了词条与文档结构的问题,提出了词条的重要度影响因子Eiv;最后将页面相关性权重、词条重要度影响因子与基于词频的TF/IDF算法相结合,提出了一种偏加权TF/IDF算法用于用户特征信息抽取,并在此基础上运用向量空间模型构建用户知识兴趣背景,把Rocchio反馈算法进行了相应衍化以应用于对用户知识兴趣背景的实时分析和更新,最后实现了个性化检索原型系统----易搜。最后,对当前论文的工作进行总结,展望了个性化检索的进一步发展。
其他文献
目的观察针刺太溪穴配合耳尖放血治疗小儿高热惊厥的临床疗效。方法采用针刺太溪穴配合耳尖放血治疗26例小儿高热惊厥患者,观察治疗效果。结果 26例患者经治疗1次后,全部治愈
综述2008~2012年冬青属药用植物中化学成分和药理作用研究进展。冬青属植物的化学成分主要有三萜及其苷类、黄酮及多元酚类、苯丙素类等,具有抗病原微生物、抗炎、抗肿瘤、保
<正>在各个旅游城市汹涌的旅游大军中,有一股力量不可小窥,它就是外国旅游者。他们是商家尤其想满足的客户,因为满足了他们,就意味着将获得更多的商业利润。但是,很少有人去
慢行交通是城市居民最基本、最重要且健康和低碳的交通方式,无论过去,现在还是将来始终如此。但随着城市机动化的快速发展,城市交通规划往往以机动车为战略重点,忽略了慢行交
小剧场歌剧《再别康桥》由陈蔚(笔名水儿)编剧,首都师范大学音乐学院教授周雪石作曲,是国内第一部且是唯一一部公演了的小剧场歌剧。《再别康桥》的上演,在继承传统和借鉴外
黔西北赫章亮岩Pb-Zn矿床位于川滇黔Pb-Zn成矿带,勘查表明该矿床具有中型以上找矿潜力. 本文对亮岩铅锌矿床的地质特征、围岩蚀变特征进行了深入分析. 矿区坑道编录及室内研究
汽车车身在整车质量中占有较大比重,通过车身轻量化设计来实现整车的轻量化效果显著。特别对于纯电动车而言,轻质车身结构可以弥补纯电动车续驶里程低,动力性不足的的缺点。
随着我国汽车行业竞争形势日趋激烈,市场不确定性的不断增强,汽车制造企业纷纷采取各种手段降低成本、提高服务水平以增加企业的竞争力。物流作为“第三利润源”得到了众多企
当前无人机已经发展成一门综合性现代化信息采集技术,具有结构简单、起降灵活、操控便捷、应急性强,更具有高效率、低成本、低损耗、风险小、易保养、可重复使用等诸多优势。
伴随着移动终端功能的增强和技术的发展,字体设计早已不单单局限在纸质媒介上。文字作为信息传播的载体,从最初的手写体到印刷体再发展到现在信息技术环境下的屏幕文字,应当