在线社交网络异常账户检测技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:kensy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以微博为主的在线社交网络在成为信息传播扩散主流平台的同时,也面临着僵尸粉泛滥、微博盗号猖獗、谣言泛滥等一系列的问题,严重威胁了微博生态系统的良性发展。本文研究在线社交网络异常账户的检测技术,旨在快速而有效地发现僵尸粉等异常账户,从根源上阻断垃圾消息、恶意营销及不实言论的传播,净化互联网的环境。首先,本文总结分析了以微博为主的在线社交网络中异常账户的恶意行为给微博用户、微博服务提供商、微博生态环境所带来的威胁。从虚假账户的检测和被入侵账户的检测两个方面总结国内外已有研究方案中所涉及到的检测特征和检测方法,并分析现有社交网络中异常账户检测方案的不足。其次,提出了在线社交网络异常账户检测模型。模型通过无监督的学习方法得到带标记的训练集,摆脱人工标注花费时间大、主观因素强等干扰,以此降低样本数量和质量对检测结果的影响;然后,通过聚类及方差分析对检测特征进行归约,在降低特征维度的同时提取更有效的特征用于异常账户的检测;最后,结合NB、C4.5、SVM三种有监督机器学习的检测算法对数据中的异常账户进行检测分类,验证模型的有效性。该检测模型将聚类和分类方法有机结合,不需要提前对样本进行标识,在加快检测模型生成的同时有效避免了单一使用一种学习方法的局限性。然后,针对已有在线社交网络异常账户检测技术中的检测范围有限,检测特征不全面,无法适应异常账户的演化以及检测方法单一等不足,提出了在线社交网络异常账户检测特征体系,包含个人属性、行为属性、内容属性以及关系属性4个方面的特征信息,并对特征的差异性和相关性做了实证分析,所提出的检测特征能更全面、更充分的反映社交网络异常账户的状态及活动特点。最后,在验证模型有效性的基础上,基于Hadoop平台对检测过程中分类最优的SVM算法进行并行优化设计和实现。在并行SVM算法的训练过程中,采用基于聚类的有放回随机抽样的数据划分方法,有效的保证划分到各个子节点上的训练集的类分布覆盖原始数据集的类分布,避免出现随机划分导致的单个子节点上正负类训练样本数据分布不均的极端情况,并利用遗传算法对改进后的并行SVM算法的核函数参数及惩罚因子的选择进行了进一步的优化。实验验证了本文改进的并行SVM算法及其参数优化的可行性与有效性。
其他文献
汽车驾驶员善于休息,恢复体力,振作精神,对开好安全车很有帮助。
【摘要】在加纳这样一个经济和社会发展极其滞后的国家, 这种源于西方发达国家的量化标准若套用加纳, 是不现实的。就加纳的现状而言, 其高等教育发展正面临质量下降的潜在风险。目前加纳正面临着缺乏质量文化,影响教师服务热情以及缺乏战略规划,影响质量保证制度化的挑战。面对此类挑战,加纳政府应该从提高质量文化水平和建立保障体制机构等方面积极采取应对措施,从而提高加纳高等教育质量。  【关键词】加纳高等教育
你到过平定吗?你可曾,领略过太行犄角之异彩?欣赏过血色红岩之奇葩?
【摘 要】在初中历史学科课堂教学中中渗透创业教育,就是在历史学科教学中,传授好历史学科知识的同时,积极对学生进行创新意识、创业精神、创造能力的培养。利用历史学科的特点及其反映世界的不同角度,来培养学生创业的意识;利用历史学科的作业训练内容、不同的教学方法指导培养学生的创业能力。  【关键词】初中历史;创业教育;创造能力  【中图分类号】G633.5【文献标识码】A  【文章编号】2095-3089
【摘要】中职学校部分学生通过“3+证书”高职高考、 “自主招生”等方式进到高职院校继续学习,其良好发展的背后,存在如课程不连贯、学习内容重复等问题。本文将从计算机网络技术专业在中高等职业教育中表现出来的异同,中高职教育衔接的现状出发,客观分析问题产生的根源,并提出整改措施和方案。  【关键词】计算机专业 中高职教学 有效衔接  【中图分类号】TP3-4 【文献标识码】A 【文章编号】2095-30
【摘 要】新一轮教育改革即将全面展开,普通高中信息技术课程以全面提升学生的信息素养为根本任务,从信息技术基础常识教育转向面向学科核心素养的教育,目前信息技术课堂中常用的探究式学习,项目式教学等教学模式是否适应新课改中提出的学科“核心素养”的培养,认真研读学科核心素养利于教学方法的使用与改进,同时选择适合的教学方法和形式也可促进学科“核心素养”的达成。  【关键词】核心素养;探究式教学;合作学习;项