论文部分内容阅读
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署至钓鱼/欺诈网站之中,用户个人信息被窃取的风险会大大增加,会造成个人财产的损失以及相关企业信誉度的下降。现阶段流氓证书主要是凭借人工来进行识别的,实现流氓证书自动识别是十分必要的。针对流氓证书难以识别,以及暂时缺乏有效的流氓证书数据集的现状,本文以流氓证书为研究对象,主要完成以下三方面的工作:(1)合作研究并构建流氓证书原始数据集:以构建流氓证书数据集为目标,结合网络测量获得的真实数字证书数据和Frankencert工具生成的流氓证书仿真数据,通过小组探讨对数字证书的字段以及流氓证书的特点进行调研分析,以数字证书的字段和流氓证书特点为基础来确定流氓证书的特征字段,通过去除异常证书等预处理工作,结合基本指标构建了37维的原始流氓证书数据集(73万样本量)。(2)改进特征提取算法并构建新的指标模型:根据传统Isomap算法不足,提出了改进后的算法MM-Isomap;算法着重增加对样本点类别的考量问题,即通过缩小类内距离,扩大类间距离的方法来提升分类的效果。论文通过准确度与流氓证书识别的精准度、召回率以及F值作为评估指标,进行了算法最优参数选择和算法效果评估。通过应用于流氓证书原始数据集的,得到特征提取后18维的流氓证书指标属性模型。(3)验证指标属性模型的有效性并合作构建开放数据集:验证有效性方面进行了两部分实验,一是应用向量机(SVM)、J4.8决策树以及BP神经网络三种分类算法对流氓证书原始数据集的有效性进行了评估;二是评估了特征提取后新指标模型的有效性。同时结合小组另一名同学特征选择的工作,一同构建了“特征选择(22维)+特征提取(18维)“后的流氓证书开放数据集,这为进一步展开流氓证书的研究,提供基础数据集支撑。