基于网络用户行为分析的用户推荐反馈系统的设计

来源 :北京化工大学 | 被引量 : 5次 | 上传用户:lingfangzhi12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,IT和互联网技术的蓬勃发展给人们带来了无限机遇和财富,但与此同时,其每时每刻也都在产生着数以亿万计的数据量。如果没有一个好的办法发掘出其中潜在的信息,就无法为用户提供更加优质的服务。从海量数据中提取特定网络用户与互联网的交互行为数据并进行分析和研究就是一个比较好的办法,也是学习和发掘用户兴趣和需求的有效手段;推荐系统是按照特定用户的兴趣和需求,以互联网为平台为他们提供“个性化”服务的系统。本文所做研究包括:(1)研究了基于内容的推荐系统。本文首先对.Pcap文件和数据包的结构进行了研究;之后通过对HTTP和TCP协议通信原理的研究,提取到了网页文本的URL等关键数据;然后分析了特征提取和特征降维的相关算法,得到了由特征词和对应权重构成的特征向量,并构造了向量空间模型(VSM);研究了文本聚类的相关理论和可用算法,并结合向量空间模型、BWP指标、k-means聚类算法、余弦度量和平方误差准则等建立了第一次文本分类模型;在推荐环节中研究了基于内容的推荐系统,确定了推荐方法,完成了基于网络用户行为分析的用户推荐系统的设计。(2)提出了基于信息熵的二次聚类改进推荐算法。通过对信息熵相关理论的研究,明确了信息熵可以作为精确推荐的一种衡量标准和定量度量,并以此为二次聚类推荐模型建立了理论基础;提出并利用了最邻近熵差、最邻近熵差阈值、平均熵值逼近等信息熵相关概念和公式对初始聚类簇数、簇心以及最终推荐内容进行了判断和计算;然后结合向量空间模型、最邻近熵差阈值、平均熵值逼近、连续型随机变量的均匀分布以及确定了初始聚类簇数和簇心的k-means聚类算法建立了第二次文本分类模型;之后通过对对数函数的拟合以及同时结合距离和信息熵值度量的方式得出推荐结果的个数和内容,完成了基于信息熵的二次聚类推荐模型的构造。(3)设计了相关实验对基于网络用户行为分析的用户推荐反馈系统和基于信息熵的二次聚类改进推荐算法性能进行了验证。实验结果显示,本课题设计的基于网络用户行为分析的用户推荐反馈系统能够成功实现对特定用户的相关推荐,并提供了与用户兴趣和需求高度相近的推荐结果;通过比较基于信息熵的二次聚类改进推荐算法和传统算法的精确度、召回率以及F-measure系数,发现前者在这三个参数中均占有较明显优势,证明基于信息熵的二次聚类改进推荐算法相比于传统算法提高了推荐的准确程度。
其他文献
学位
随着社会经济和internet技术的飞速发展,物流成为人们生活中不可缺少的一部份,作为一种新兴且先进的技术,它越来越显示出其在社会经济发展中的重要作用。物流过程是一个企业
高校信息系统是一个分布式的计算环境。随着数字化校园网建设的深入和网络业务的日渐丰富,高校信息系统建设面临着诸多问题。首先,部门系统缺乏整体规划,形成了多种异构的应用系
本文完成了以高性能处理器S3C44B0X和嵌入式μC/OS-Ⅱ实时操作系统为核心的高压开关测试系统的设计与实现。在硬件方面,围绕S3C44B0X设计了存储器扩展、液晶显示、USB传输等
随着计算机技术日新月异的发展,网络技术已成为现代教育技术的主流。在计算机、互联网和通信技术高速发展的同时,普适计算系统的应用范围也在急剧扩大。基于新型网络的远程教
随着现代工业和科学技术的发展,传统的测量方法如卡尺测量等,无法满足高精度、高速度和非接触式几何尺寸测量要求。基于电荷耦合器件(CCD)的图像测量技术是近期在测量领域形成的
Web服务技术以其良好的封装性、松耦合性以及其开发与调用简单的特点得到了各大IT巨头的大力推广,目前已经成为分布式计算的主流技术。UDDI是指Web服务的描述、发现和集成,它
随着高校招生规模逐年扩大,高校的财务数据体量也在不断增长,为使高校的财务管理更为科学、合理,可以考虑将商业智能、数据仓库、数据挖掘技术、决策支持系统等技术应用于高
学位
延迟容忍网络(Delay Tolerant Network, DTN)是一种间歇性连接的无线网络。在这类网络中,主机节点分布稀疏,状态很不稳定,网络拓扑变化频繁,从而导致数据包传输的延迟和丢包