基于Web的个性化服务中用户兴趣模型研究

来源 :桂林工学院 桂林理工大学 | 被引量 : 0次 | 上传用户:songweiwc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,Internet上的数据量大量增加,同时人们对信息的需求也越来越专业化。个性化服务技术的出现在一定程度上解决了信息的多样化与用户需求的专一化之间的矛盾。用户兴趣建模技术则是个性化服务的核心问题,用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务的质量。 本文对当前主要的web挖掘技术和用户兴趣建模技术进行了分析,提出了把用户浏览内容分析和浏览行为分析相结合的用户兴趣挖掘模型。对本文中所涉及的技术做了初步的介绍和研究,并简单介绍了本文所采用的方法。 首先介绍了用户数据的收集。数据收集工作,在用户兴趣模型建设中是一项基础而重要的工作,主要任务是收集用户浏览页面的集合和用户在页面上的行为记录,并进行整理和组织。经过实验分析,收集的浏览内容数据只需文章的标题、首段和末段三部分,而浏览行为数据可归结为两类行为数据:用户浏览网页的时间和拉动滚动条的次数。 重点探讨了基于浏览内容的用户兴趣度分析和基于浏览行为的用户兴趣度分析。在对浏览内容的分析中,首先利用中文分词技术来进行特征向量的抽取。本地分词词典由多个单字词表组成,由这种方法建立的分词词典能很方便的添加未登录词,并且便于查找。特征词权值的计算采用改进的TF-IDF公式。对用户行为与网页兴趣度的关系计算时,则是采用建立用户行为回归方程式,根据回归方程计算出用户对所浏览页面的兴趣度。把计算出的基于页面内容的特征词权值和用户浏览行为对页面的兴趣度合成一个完整的页面特征矩阵。再采用提出的层次聚类和k-means聚类相结合的聚类方法进行聚类,得到用户的兴趣分类树模型。 通过实验来验证所提出的用户兴趣模型,与传统的用户兴趣模型进行比较,在页面兴趣分类和相似度的准确性上都有较大的提高。
其他文献
防火墙作为信息安全保障的重要措施已经应用在众多组织机构的网络中。从防火墙技术诞生近20年来,防火墙产品的功能得到了不断的加强。但由于新的黑客攻击手段层出不穷,基于静
随着现代化社会的日新月异,计算机网络、数据库技术等信息技术的高速发展,使得企业在高速发展的同时,所面临的竞争也同益激烈。政府和企业如何能在复杂多变的市场环境中适应市场
全文检索技术已经在企业信息门户等领域有了广泛的应用。然而,目前大部分全文检索系统是面向静态数据库或半动态数据库的,即信息一旦录入就不能更新,或者只能在预先设置的时
图像分割是图像处理领域中的一个热点研究问题。传统的图像分割算法主要包括阈值法、边缘检测法、基于区域的方法以及聚类方法等。随着群智能算法的不断发展,蚁群聚类算法已
Thomas.Bayes在他的论文“关于几率性求解问题的评论”(1764)中首先提出了贝叶斯概率观点。1988年Pearl出版了关于贝叶斯网络(Bayesian Networks, BNs)的第一本书籍。近年来,
由于软件再工程时代的到来,既存软件的再利用成为不可超越的课题。但是多数既存文档基本上都没有保持与程序的一致性。即便是一次开发也不能保证没有设计变更,而设计变更后的文
人工蜂群算法是群体智能领域新兴的智能优化技术,其灵感来源于自然界中蜂群的觅食行为。与其它群体智能算法相比,该算法采用了角色转换和多引领选择策略,具有参数简单、收敛速度
眼下,机器学习、数据挖掘等技术已经普遍运用于医疗、生命科学、经济学等社会各行各业。  本文的主要内容是机器学习方法在生物数据上的一个应用,使用DNA微阵列数据作为主要
随着企业信息系统集成与企业电子商务系统建设的兴起,基于Internet的数据共享、格式化、个性化及传输日益成为业界研究的热点。报表作为一种重要的信息载体在系统中有着极其重
XML作为W3C数据描述和交换的标准格式语言,已经得到了广泛的应用,不论是Semantic Web还是Web Services都采用XML作为其数据表示和数据交换的标准格式, XML业已发展成为信息应