K-medoids聚类算法及在社会标签系统中的应用研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wuheman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术的日益盛行,随之而来的便是更加丰富的新型数据和大量网络用户。如何利用标签特性,结合数据挖掘的相关技术,挖掘用户的兴趣信息,从而更好地理解用户、发现用户的行为规律,据此提供针对不同用户的个性化服务具有重要的理论和现实意义。本文将对社会化标签环境下的用户进行分析,具体包括以下几个方面:   1、深入分析研究K-medoids算法,针对传统K-medoids算法所存在的初始中心点选择敏感、大数据集聚类应用中性能低下等问题,提出从初始中心和运行效率上对其进行改进,改进策略为:首先使用簇内微调的方式对初始中心进行优化处理并划分后,再采取逐步扩展中心候选集的方式来降低中心替换的时间复杂度。分别从理论和UCI数据集上的实验进行了验证,实验结果表明改进的算法取得了更好的聚类质量,且在运行效率上有了很大的提高。   2、K-medoids聚类在标签用户特征分析中的应用。首先,对于个体用户,先对标签系统中个性化用户建模技术进行研究,针对现有模型构建方法中所存在的问题,设计了一种新的建模方法一基于标签与标签组相结合的用户建模方法(Tag Combined with Tag-Pair,简称TCTP法):该方法将自然法与共现法相结合,综合他们各自的优势,既考虑了能体现用户兴趣特点的单个标签,又将经常联合使用的标签对加进来,Bibsonomy数据集实验验证了该方法较自然法和共现法取得了更好的结果;其次,对由TCTP法构建的用户兴趣模型进行了分析,了解个体用户的特征;最后,把K-medoids及其改进算法应用到标签系统中,对用户进行聚类,以验证该算法在Web2.0应用环境下的有效性,并对群体用户的特征进行了分析。
其他文献
数字图像恢复技术作为数字图像处理中的重要分支,被认为是适应数字化时代的一个有力支撑,并成为数字图像领域的一个研究热点。数字图像恢复技术是指在针对退化降质的图像,通过框
经过近五十年的发展,人脸识别技术已有了长足的进步,并成功应用到许多领域。但当一些如光照、表情、姿态等外界条件不理想时,算法性能下降较快。因此,如何降低这些干扰因素对
CRM (Customer Relationship Management,客户关系管理)可以泛指企业获得和维持可带来业务收益的用户群的各种技术平台,在国外已相当成熟,而在国内CRM行业还处于成长时期,随
手写体汉字识别在残疾人无障碍阅读、文献自动翻译、文献自动录入、金融单据的处理、快递包裹和信件的分拣等领域有着广阔的应用前景,帮助使用者自动录入文字,节省劳动力成本
随着社会的发展和科技的进步,人们的生活朝着数字化、智能化的方向发展,为满足人们日益增长的对现代科技成果的需求,智能小区随之兴起。但是在其发展过程中,设备和平台多样性
软件测试是软件工程学科的重要组成部分,在实际的软件开发过程中,软件测试所发挥的重要作用已得到软件开发人员的广泛认同。软件测试以发现软件中潜藏的缺陷和错误为目的,确
医学图像三维可视化是计算机可视化领域的一个重要研究分支,是当前研究的一个热点。医学图像三维可视化技术提供更多的诊断信息,辅助医生进行病情诊断和手术指导,提高了医疗
可重构计算是具备设计后芯片定制能力和能在很大程度上实现软件算法到硬件计算设备空间映射特点的计算机组织结构。作为一种新型的数字电路设计概念,可重构计算兼容了硬件计算
不确定数据广泛存在于文本分析、信息检索、传感器网络和射频识别等领域中。随着数据采集手段的发展,客观世界中普遍存在的数据不确定性已经逐渐被人们所认识。不确定数据查
对象存储系统采用了一种新的接口——对象接口,有效综合了块接口的快速直接访问、存储设备可扩展的交换结构与文件接口的安全性、跨平台数据共享等优点,同时对象接口能够提供比