论文部分内容阅读
以微博为主的在线社交网络在成为信息传播扩散主流平台的同时,也面临着僵尸粉泛滥、微博盗号猖獗、谣言泛滥等一系列的问题,严重威胁了微博生态系统的良性发展。本文研究在线社交网络异常账户的检测技术,旨在快速而有效地发现僵尸粉等异常账户,从根源上阻断垃圾消息、恶意营销及不实言论的传播,净化互联网的环境。首先,本文总结分析了以微博为主的在线社交网络中异常账户的恶意行为给微博用户、微博服务提供商、微博生态环境所带来的威胁。从虚假账户的检测和被入侵账户的检测两个方面总结国内外已有研究方案中所涉及到的检测特征和检测方法,并分析现有社交网络中异常账户检测方案的不足。其次,提出了在线社交网络异常账户检测模型。模型通过无监督的学习方法得到带标记的训练集,摆脱人工标注花费时间大、主观因素强等干扰,以此降低样本数量和质量对检测结果的影响;然后,通过聚类及方差分析对检测特征进行归约,在降低特征维度的同时提取更有效的特征用于异常账户的检测;最后,结合NB、C4.5、SVM三种有监督机器学习的检测算法对数据中的异常账户进行检测分类,验证模型的有效性。该检测模型将聚类和分类方法有机结合,不需要提前对样本进行标识,在加快检测模型生成的同时有效避免了单一使用一种学习方法的局限性。然后,针对已有在线社交网络异常账户检测技术中的检测范围有限,检测特征不全面,无法适应异常账户的演化以及检测方法单一等不足,提出了在线社交网络异常账户检测特征体系,包含个人属性、行为属性、内容属性以及关系属性4个方面的特征信息,并对特征的差异性和相关性做了实证分析,所提出的检测特征能更全面、更充分的反映社交网络异常账户的状态及活动特点。最后,在验证模型有效性的基础上,基于Hadoop平台对检测过程中分类最优的SVM算法进行并行优化设计和实现。在并行SVM算法的训练过程中,采用基于聚类的有放回随机抽样的数据划分方法,有效的保证划分到各个子节点上的训练集的类分布覆盖原始数据集的类分布,避免出现随机划分导致的单个子节点上正负类训练样本数据分布不均的极端情况,并利用遗传算法对改进后的并行SVM算法的核函数参数及惩罚因子的选择进行了进一步的优化。实验验证了本文改进的并行SVM算法及其参数优化的可行性与有效性。