基于特征提取的网络测量数据集构建方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:yanghao_711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署至钓鱼/欺诈网站之中,用户个人信息被窃取的风险会大大增加,会造成个人财产的损失以及相关企业信誉度的下降。现阶段流氓证书主要是凭借人工来进行识别的,实现流氓证书自动识别是十分必要的。针对流氓证书难以识别,以及暂时缺乏有效的流氓证书数据集的现状,本文以流氓证书为研究对象,主要完成以下三方面的工作:(1)合作研究并构建流氓证书原始数据集:以构建流氓证书数据集为目标,结合网络测量获得的真实数字证书数据和Frankencert工具生成的流氓证书仿真数据,通过小组探讨对数字证书的字段以及流氓证书的特点进行调研分析,以数字证书的字段和流氓证书特点为基础来确定流氓证书的特征字段,通过去除异常证书等预处理工作,结合基本指标构建了37维的原始流氓证书数据集(73万样本量)。(2)改进特征提取算法并构建新的指标模型:根据传统Isomap算法不足,提出了改进后的算法MM-Isomap;算法着重增加对样本点类别的考量问题,即通过缩小类内距离,扩大类间距离的方法来提升分类的效果。论文通过准确度与流氓证书识别的精准度、召回率以及F值作为评估指标,进行了算法最优参数选择和算法效果评估。通过应用于流氓证书原始数据集的,得到特征提取后18维的流氓证书指标属性模型。(3)验证指标属性模型的有效性并合作构建开放数据集:验证有效性方面进行了两部分实验,一是应用向量机(SVM)、J4.8决策树以及BP神经网络三种分类算法对流氓证书原始数据集的有效性进行了评估;二是评估了特征提取后新指标模型的有效性。同时结合小组另一名同学特征选择的工作,一同构建了“特征选择(22维)+特征提取(18维)“后的流氓证书开放数据集,这为进一步展开流氓证书的研究,提供基础数据集支撑。
其他文献
建筑物的毁伤效果模拟属于虚拟场景生成的范畴,在游戏娱乐、军事训练、广告与电影制作、旅游等各个领域有着巨大的应用前景。传统的虚拟场景生成方法往往需要对场景进行三维重
统一建模语言(UML)是在多种面向对象建模方法联合的基础上形成的建模语言。它以支持面向对象、可视化建模和强大的表达能力等优点已经被人们广泛的用于多种类型的系统建模。
统计数据表明,我国的餐饮业正处于高速发展时期,与此同时,消费者对餐饮业的服务要求也越来越高,餐饮行业也面临着物价上涨和人力资源成本快速增加的压力。如何提高效率,减少
对业务流程建模是将业务流程计算机化的必要手段,同时工作流建模属于工作流管理系统的三大主要功能,目前已经成为工作流技术的研究热点之一。论文选择在形式化描述和直观图形
随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据以前所未有的速度增长,越来越丰富的图像资源使用户难以在浩如烟海的数据中找到自己真正需要的信息。因此,对图像数
RFID(Radio Frequency Identification)技术是自动识别和数据采集技术的一种,为了在提高产量的同时降低成本,在商业信息化中RFID技术日益兴起,已逐渐深入到各个领域,如供应链
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分的方法,在数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等领域有着广泛的应用。聚类算法可以分为基
机器学习是研究让机器具有学习的能力,集成学习是机器学习的一大研究热点,是将多个不同的单个个体模型组合成一个最终模型,这些模型就是我们所要生成的分类器。生成这些模型
数字半色调是一种使用黑白二值的像素点来表现连续灰度图像的技术。在数字半色调处理的各种技术中,误差扩散算法以其较好的半色调图像质量和较快的算法运行速度,得到了非常广
对于网络安全态势的研究是近年来一个新兴的网络安全研究课题,也是目前信息安全的研究热点之一。网络安全态势是对网络安全状况的一个整体反映,对于提高整个网络系统的应急响