基于聚类分析的用户访问模式挖掘算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:chenyongze
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web服务产生了大量的日志数据,这些数据记录了用户的行为信息。如何从海量的日志数据中自动、智能地抽取隐藏于其中的知识,这是Web使用挖掘要研究的问题。Web使用挖掘的研究对象是Web日志数据。Web日志数据记录了用户对Web站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问习惯,可帮助实现网页的预存取和缓存;对于页面重组、优化网站的结构等方面都具有十分重要的意义。  本文对Web使用挖掘的聚类分析算法进行了研究,目的是通过对Web使用挖掘数据的事务数据进行挖掘操作来分析用户访问事务的模式特征,为网站管理者对Web站点的结构改进、网站个性化服务、网站电子商务的策划等方面提供决策支持信息。本文以Web服务器日志数据作为研究对象,网页内容数据、站点结构数据以及网站用户注册信息等数据作为参考信息,从数据采集、数据预处理、模式发现四个阶段来实现了用户事务的挖掘,最后得到具有用户访问特征的事务聚类结果。  本文为了获取更加具有用户访问特征的事务数据聚类结果,在数据预处理的用户识别阶段只采用能完全确定用户的用户注册信息和Web日志上的客户端IP来获取用户信息,放弃了采集不稳定的cookie用户信息。在数据预处理的事务识别阶段,综合使用了最大前向序列法和时间窗口法来进行事务识别操作。在模式发现阶段的聚类操作中,改进了基于相似性计算的聚类算法,突出了单个事务和事务分组之间的相似性计算,使得聚类结果之间差异性更大,聚类结果内部事务之间的相似性更强。最后,本文使用模拟站点数据对整个Web使用挖掘过程进行了验证分析。
其他文献
学校特色发展是学校内涵发展的必然要求,课程建设可将学校特色发展与学校核心工作高度融合,体现学校核心价值观,让学生经历有价值的学习,形成核心素养.
目的:建立测定青海产18种菊科植物中总黄酮醇苷含量的方法.方法:Reprosil C18-AQ色谱柱(4.6mm× 250 mm,5μm),流动相甲醇-0.2%甲酸溶液(48:52),检测波长360 nm,流速1.0 mL/mi
随着新课标理念的深入发展,社会和时代对学生的培养越来越多样化,要求学生能够全面、综合的发展.在小学语文课堂中,教师也要认识到,除了引导学生掌握大纲所要求的语文知识,还
摘要:新课程体现素质教育观念,以学生的发展为本,强调的是培养学生的基础知识和基本技能,让学生积极主动地参与教学,重视个性的发展。教师是课堂教学活动的组织者和指导者,教师要因材施教,给学生创造一个自主发展的空间,使他们的个性得到充分自由的发展。通过课堂内互动,让不同思维在合作中碰撞,让他们发现问题,激励他们去探索、去创新。要落实学生学习主体性原则,必须在“我要学习”——“我能学习”——“我会学习”几
公共档案馆是公众利用档案信息资源的重要场所,随着档案信息资源开放度的提高,公众对档案信息资源的需求日益增加。公共档案馆为了满足社会的需求,不断改进档案信息资源开放形式
河北省秦皇岛市是中国唯一一个因帝王尊号而得名的城市,全市辖6区3县,75个乡镇,耕地面积286万亩,农业人口155万人,人均耕地面积1.8亩.近年来,秦皇岛市把推动农民合作社高质量
期刊
随着数字图书馆建设的不断推进,数字图书馆在资源建设、服务水平以及技术进步等方面都取得了快速的发展。但是,由于数字图书馆对用户信息需求缺乏正确的认识与探索,目前数字图书
米兰·昆德拉与卡尔维诺都是后现代小说的代表作家,两人在自觉进行小说创作实践的同时,又注重建构各自的小说诗学.两人在小说诗学观上有诸多相似之处:注重在小说叙述节奏快与