【摘 要】
:
随着工业互联网的发展,带来终端传感设备数量激增,传输与存储的数据呈现爆炸式增长,企业、机构通过数据挖掘能够进行一系列的分析、预测,但传感数据普遍存在数据质量高低不齐的现象,若直接使用,将造成信息的误判,经济、时间等损失。因此应找到一种合适的数据质量评估方法,对数据质量进行评估,让后续的分析、预测等操作有一个良好的数据质量保障。本文研究了数据质量评估的主流方法,重点分析了基于机器学习的数据质量评估法
论文部分内容阅读
随着工业互联网的发展,带来终端传感设备数量激增,传输与存储的数据呈现爆炸式增长,企业、机构通过数据挖掘能够进行一系列的分析、预测,但传感数据普遍存在数据质量高低不齐的现象,若直接使用,将造成信息的误判,经济、时间等损失。因此应找到一种合适的数据质量评估方法,对数据质量进行评估,让后续的分析、预测等操作有一个良好的数据质量保障。本文研究了数据质量评估的主流方法,重点分析了基于机器学习的数据质量评估法的优越性及其关键步骤。根据工业环境下传感数据质量普遍不平衡的特点,选用机器学习中的不平衡数据分类算法来进行质量评估。对传统分类算法在数据层面以及算法层面进行改进,将其运用到评估流程中,实现了对传感数据质量评估的优化,搭建了自动化数据质量评估平台,本文主要工作内容有:(1)针对数据集不平衡的问题,在数据层面和算法层面,对分类算法改进,提出 WSMOTE-CBoost(Weighted-SMOTE-Cost sensitive-Boosting)算法。在数据层面基于距离加权,对 SMOTE 算法改进,提出WSMOTE算法,利用欧式距离和、AdaBoost权值综合确定少数类样本抽样的数量,使抽样时偏向类别中心、边界以及分类错误的样本;在算法层面基于代价敏感思想,对AdaBoost算法进行改进,提出了 CBoost算法,根据正、负类样本的错分代价不同,在样本权值迭代时引入代价函数,增加对错分少数类的关注程度。选取平台真实接入的传感器数据以及典型的不平衡数据集进行仿真实验,验证了本文提出的算法在F1值和AUC值两个无偏指标上得到了较好的提升。(2)基于以上理论研究对数据质量评估平台进行需求分析,设计并实现了系统管理模块、模型管理模块、数据交互模块,并将WSMOTE-CBoost算法应用于质量评估模块,最终实现了数据质量评估平台,对数据质量进行自动化评估,进一步验证了算法的可行性。
其他文献
随着深度学习的不断发展和语言模型研究的不断成熟,对话系统提供了一种比视窗界面操作更符合普通人习惯的新型人机交互方式,但在现有对话系统中,仍然存在多轮对话中无法联系上下文、无法处理专有名词后面的复杂信息,只能进行日常闲聊无法进行更有价值和意义的聊天。为了使得对话系统能够联系对话历史上下文以及理解专有名词的背景信息。本文主要研究内容如下:(1)提出了一种模型压缩方法,采用预训练参数初始化任务和模块对齐
随着5G网络、物联网的普及应用,无人机、无人驾驶车等新设备的出现,促进了定位技术的广泛研究。其中,基于视距场景下时延与距离线性关系的无线定位技术以其精度高、计算复杂度低、方便部署等优点而被广泛应用。但实际环境中多径和NLOS(non line-of-sight)误差的广泛存在,为时延估计和定位算法都带来了挑战。为了解决多径干扰以及传统时延估计方法精度受限于采样率的问题,针对最大似然时延估计法,本文
随着社会的高速发展,物联网、大数据等技术的不断升级,信息化得到越来越多企业的高度重视,然而在信息量呈指数增长的同时,基础数据的统一、完善显得尤为重要,因此越来越多的企业开始进行主数据治理和主数据系统项目。论文以X公司主数据系统项目为研究背景,结合项目风险管理的理论体系,在国内外风险管理研究的基础上,进行主数据系统项目的风险管理研究,主要内容有:一、简述论文研究的实际项目,即X公司主数据系统项目的项
如今正是互联网高速发展的时代,各项互联网技术层出不穷。物联网技术建立物体与互联网的联系,AI技术促进生活的智能化,大数据技术挖掘数据更深层次的价值。这些技术也标志着未来是“互联网+”的时代[1-2]。因此,新时代下信息的传递显得尤为重要,需要建立在一个稳定可靠的通信系统上。而光纤通信系统无疑能够很好地适用于这些场景。得益于光通信频带宽、损耗低、抗电磁干扰等特点,未来的通信网络发展方向必定是大容量、
网络异常流量检测是抵御恶意攻击、保护网络可用性和隐私安全的重要手段,对于维护网络安全有着至关重要的作用;而基于流量分类的方法是网络异常流量检测任务中的重要方法之一。近年来,基于表征学习的流量分类方法由于无需人为提取特征、检测速度快且在特定环境下表现优异,因此受到了研究者的广泛关注。但是在部署基于表征学习的异常流量监测模型时,单一网络域内面临着数据不足、标注能力不够、难以检测未见过的异常流量、且原始
随着当代互联网技术的不断革新,越来越多的单位使用互联网软件传输机密数据。互联网应用的不断深入和扩展,也为计算机网络带来越来越多的安全隐患。本系统旨在设计并实现匿名、安全的文件传输管理系统,为用户提供好友管理、群组管理、匿名聊天、文件传输等功能。在Tor(The Onion Router,洋葱路由器)网络中,用户借助匿名通信技术,多层加密通信数据,让流量监控无法嗅探到用户数据和用户身份信息,维护文件
相较于传统的在远端云中心进行数据处理的方式,移动边缘计算(Mobile Edge Computing,MEC)通过将计算和存储能力下沉到网络边缘,提供了高带宽低时延的网络环境,从而能够提高时延敏感业务的服务质量。作为MEC的关键使能技术之一,网络功能虚拟化(Network Function Virtualization,NFV)支持将网络功能与底层硬件资源解耦,在统一的物理基础架构之上配置虚拟网络
由于无线通信设备的增长和网络技术的发展,对频率的需求不断增长。为了在有限的频率资源环境中有效地共享频率,应该进行研究以开发频谱共享技术。传统的频谱共享研究依靠中央机构来验证每个频谱共享交易的真实性,缺少安全的频谱共享机制,这容易受到众多的安全威胁。其次,通过频谱感知,或频谱数据库进行的传统频谱共享机制使用效率并不是很高。最后,由于同频道干扰和其他干扰,自私且理性的频谱所有者不愿在没有适当经济补偿的
近年来,互联网技术快速发展,各类信息剧增,互联网上每天有海量信息在生成、传播和存储。作为人的标识之一的人名,在互联网检索中有非常重要的意义。但由于人口巨多,人名数量巨大,使得进行人物相关文章的搜索时,重名现象严重,搜索引擎不能达到预期的效果,返回的内容中包含大量噪声信息,需要用户去进一步的识别、筛选,这就使用户检索信息的难度大大增加。因此如何设计一个系统,能高效识别人物,消除人名歧义,节省用户搜索