论文部分内容阅读
计算机处理的数据一般来说基本抽象于客观世界,由于客观世界中事物的复杂性,导致数据结构极其复杂,数据维度极高,这无疑增加了计算机处理数据的难度。Folksonomy是通过用户自定义标签发展而来的新型分类方法,包括参与用户、被描述的资源以及标识符这三个重要组成部分。由于Folksonomy兼备用户性和自由性等特点,实现了更高程度上的资源共享’,但同时也使得基于Folksonomy的系统经常含有垃圾标签。Folksonomy系统过于依赖用户行为,一旦部分用户出现反常行为在系统中投放垃圾信息,生成相应垃圾标签,将会严重威胁整个系统的运行。为了减小系统的风险,完全有必要对垃圾标签进行检测。本文首先通过支持向量机的理论构建垃圾标签检测模型,原理就是利用支持向量机对用户行为进行检测并分类,判断用户是否为垃圾标签投放者,通过限制垃圾标签投放用户的破坏行为来减少垃圾标签。而后又在核主成成分分析法的启发下,将数据降维思想引入数据预处理阶段进行数据集的约减,通过降维获取原始数据的低维表示,构建出了基于KPCA-SVM方法的垃圾标签检测模型。在此基础上,利用核K-means聚类算法再次对KPCA-SVM垃圾标签检测模型进行优化。最终形成了基于KK-SVM的垃圾标签检测模型。其中,前一个“K”表示核K-means聚类算法,在处理数据集时主要是基于数据行的约减,后一个“K”表示KPCA降维算法,主要是基于数据列的约减。本文将降维思想引入垃圾标签检测模型的数据约减阶段,提出了用KPCA-SVM检测垃圾标签的方法,这是本文的一个理论创新点。再将模型实例化以后,通过核K-means聚类算法和降维算法的有机结合,生成了效果更优的数据约减方法,最后形成了基于KK-SVM的垃圾标签检测模型。将该模型首次实际运用到Folksonomy系统中,通过实验论证,基于KK-SVM的垃圾标签检测模型比传统同类检测模型检测效果更好。这是本文的一个应用创新点。