基于历史上下文挖掘的“科技论文在线”用户行为研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:jeaceinter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“中国科技论文在线”是由教育部科技发展中心主办,以“阐述学术观点、保护知识产权、思想交流创新、论文快捷共享”为宗旨,为科研人员提供一个方便、快捷的交流的学术平台,以此平台为基础实现新成果的及时推广,科研创新思想的及时交流。作为一个信息获取类的网站,在它快捷、方便地带来大量信息的同时,也带来了许多难题:如何能使用户快速、准确地获得所需要的科研信息;如何理解已有的用户历史数据并用于预测用户未来的行为等。对于“科技论文在线”用户行为的研究可以有效地解决这些问题。在分析历史上下文信息与web信息各自的优缺点后,将历史上下文信息与web日志进行融合,融合后数据来源更为广泛,能较全面的体现用户访问页面时的环境状况,较准确的反映用户当时的情绪、心理状态,行为特征。在此两类数据基础上进行挖掘分析,可以较准确地得出用户的访问模式和访问特点。本文主要研究了历史上下文信息挖掘过程中的数据获取、融合及预处理的各阶段的算法并进行了部分改进和创新,然后利用改进的聚类分析算法DICA分析预处理得到的会话集,并根据聚类分析结果得出推荐集来实现网站站点结构改善和向用户提供推荐服务。本论文的工作主要集中在四个方面:(1)数据预处理:首先在较为全面的分析了历史上下文信息以及web日志的数据特点后,将多种历史上下文信息和服务器端的web日志进行去噪融合。然后通过会话划分算法将融合后的信息整理为会话集,在此基础上,利用用户访问轨迹重现算法模拟用户当时的访问轨迹,并以此再次细化会话集。最后利用历史上下文信息中的终端环境上下文信息,修正用户每个页面的浏览时间。(2)页面兴趣度计算:对于得到的会话集,采用基于多特征的页面兴趣度计算方法为每个页面赋权重值。针对以往权重计算算法中,不能体现用户浏览页面顺序的问题,本文提出了将会话中页面的序号作为一个特征加入页面权重的计算,有效地区分了多个用户采用不同的顺序访问某些特定页面的情况。(3)聚类分析用户行为:在对会话集中的页面赋值权重后,本文提出改进的k-means算法DICA。算法的自动获取最优聚类个数和初始聚类中心的特点有效的避免了k-means算法中需要依据经验设定初始聚类个数和随机设定初始聚类中心的缺陷。(4)生成推荐集:对带权重的会话集进行DICA算法聚类分析后得到基于群体用户的推荐集和基于个体用户的推荐集,并将这两个推荐集融合,以此来改善网站站点结构和向用户提供推荐服务。本文的研究工作得到教育部项目“基于上下文感知的“中国科技论文在线”用户行为研究”(项目编号:20121140004)的资助。
其他文献
随着移动定位技术的发展以及便携式设备的普及,基于位置的地理信息服务(Location-Based Services)变得越来越受欢迎,空间文本查询能同时兼顾用户的位置信息和文本描述,相比于传
自动人脸识别是一个跨计算机视觉、模式识别、人工智能、心理学等多个学科的研究问题,基于人脸的自动身份认证技术在安全、娱乐等领域具有广泛的应用前景。因此,进行自动人脸识
运用信息技术辅助教学过程是实现我国教育现代化宏伟目标的重要手段,也是未来教育的发展趋势。实践表明,教育技术与具体学科的深度整合是推进教育信息化的一个重要途径。在数
随着网络基础设施的不断完善和网络应用的越来越丰富,网络应用所具有的便捷高效使人们将更多的学习、生活和工作建立在网络之上,比如企业管理、电子商务等。大量的数据需要得
Ad hoc网络是一种没有基础设施支持,具有动态网络拓扑结构的无线自组织网络。因其灵活机动、组网迅速等优点,在军事和民用通信领域有广阔的应用前景。Ad hoc网络采用分布式管理
随着社会经济发展,人们对于居住体验的要求越来越高,而人们对于家居的智能化需求日趋强烈。尤其是进入新的世纪,在互联网革命之后,随着物联网技术的不断推广应用,基于物联网
近些年,智能移动操作系统兴起,智能移动终端设备发展迅速。安卓操作系统作为一款开源的操作系统得到了广泛的使用。智能移动设备的发展极大地改变了人们阅读、书写的方式,使得随
WEB应用程序是通过互联网连接的应用软件,它创造了人们方便而丰富多彩的生活。然而WEB应用的安全问题也越来越显著,不安全的WEB活动会给本人乃至与之相关其他人的生活带来麻烦
近年来,作为移动计算技术的重要分支以及基于位置的服务的支撑技术之一,移动对象数据库正受到越来越多的重视,众多学者与机构开始投入大量精力在这个领域进行研究。移动对象
隐超点是在一个测量区间内链接了一定数量的源IP(宿IP)的宿IP(源IP)。在实际网络中,对于隐超点的检测往往很困难,因为其夹杂在正常的流中,很容易避开检测系统。网络中的一些