论文部分内容阅读
计算机技术的发展,尤其是Internet和网络技术的发展,极大的推动着万维网(World Wide Web)的普及。WWW深刻地改变着人们的生活和思维方式,Internet已经成为人们不可缺少的信息来源。然而Internet信息资源的高度无序性和不可管理性却给信息的使用者带来了极大的困难。由于现今的搜索引擎具有通用的性质,因此很难满足不同背景、不同目的和不同时期用户的查询请求。 用户的信息需求都具有个性化的特征,这些信息需求是相对稳定的、时间相对长久的,然而会随着时间的变化而不断变化的。自然而然,用户期待着能够适应个性化信息需求的信息服务软件的出现。 针对用户个性化信息服务这个特定的需求,本文目标就是开发出一种能够更加准确地获取WWW上的信息资源的工具。本文主要思路是利用用户兴趣模型、用户背景知识对信息(该信息来自于目前比较流行的搜索引擎)进行过滤,然后把过滤后的信息提交给用户,再根据用户的相关反馈对用户兴趣模型进行修正以改进信息提供的满意度。本文的主要工作有:①合作实现了一个原型系统;②采用最大概率算法,实现对中文文本的切词;③提出了一种描述用户兴趣类的描述模式:把用户的兴趣描述为一个n元组:C=(C1,C2,…,Cn);其中每个Ci表示用户的一个兴趣方向,Ci=(Ip,In,Iq),其中Ip={(t1,w1),…,(tn,wn)}In={(t1,w1),…,(tn,wn)}分别为用户兴趣方向中相关网页集和不相关网页集的特征向量,我们分别称之为吸引因子和排斥因了;Iq={(t1,w1),…,(tk,wk)}为用户的兴趣方向关键字向量,我们称之为查询。④利用向量空间模型(Vector Space Model)进行网页文档表示,然后利用线性过滤器对网页文档进行过滤。⑤建立用户的相关反馈,对用户兴趣模型进行动态的修改和更新。 本文的创新点:主要提出了一种描述用户兴趣的描述模式,并在该基础上利用相关反馈对其进行了修正和更新。进一步的研究工作有:第一,对于吸引因子、排斥因子(Ip,In)的选取方法还可以尝试其它的一些方法,这样有可能提高网页的过滤精度;第二,用户兴趣修正模型中的参数α,β,γ作为用户兴趣学习率,还有待于进一步的进行实验,使其更加的适应用户的兴趣变化曲线。