多源数据融合下的数据质量评估研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:lm20090910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,越来越多的应用场景不再使用单一来源的数据进行刻画,而是采用多源数据融合的方式进行研究分析,以提高研究结果的全面性和准确性。多源数据融合下的数据质量评估将为多个领域提供高质量的数据。传统数据质量评估普遍基于单源数据,导致多源数据融合下的质量评估缺乏一个统一的评估体系。目前,非结构化数据快速增长,蕴含着巨大价值,重要性得到人们普遍认可。而对于不同应用场景,非结构化数据分析技术各异且存在难点,因此,如何评估多源非结构化数据融合下的数据质量成为了一个挑战。结合当下大数据背景,多源数据融合下的质量评估是数据质量评估领域中的一个重要研究课题。本文研究了多源数据融合场景下的数据质量评估的关键技术。首先,分析了多源数据融合下的数据质量问题,根据数据融合场景下的实际需求,构建了一个质量评估框架,包括各个质量维度、评估指标以及各个指标的评估模型。其次,针对非结构化数据质量评估,设计了主题相关性评估指标,并提出了一个新颖的质量评估方法。该方法借助基于深度学习的图像描述生成模型,采用自然语言处理技术,设计了文本相似度算法,实现了多源非结构化数据间的相关性评估工作。最后,由于本文提出了一个多维度、多指标的评估体系,因此,设计了基于熵权法和1~9标度法的整体指标评估方法。本文实验采用了昆明市的多源位置POI数据集(结构化数据),多平台(百度、新浪、微信)热榜数据集、推特公开的情感分析数据集(非结构化数据),针对不同数据集自身特性,灵活选取评估框架中的不同评价指标进行实例分析,验证本文评估框架的可行性。实验结果不仅给出具体数据质量得分,还直观反映出数据质量状况,表明本文研究可为舆情监控、城市热点挖掘等多源数据融合场景下的数据质量评估提供解决方案,且研究成果可为多源非结构化数据间的相关性挖掘提供实践支持。
其他文献
信息与网络传播技术的快速发展使得数据的分享日益频繁,也使得个人隐私数据的泄漏风险大大增加,因此人们对自己隐私信息的保护越来越重视。在数据挖掘领域,传统的决策树分类方法并没有对数据进行保护,它只专注于提取数据集中有价值的信息和提高分类的准确率,而差分隐私对数据保护的强度很大,所以将差分隐私应用到决策树分类方法中就会有很大的意义。本文主要对基于差分隐私的决策树分类方法进行了研究,包括噪声分配、连续数据
随着社会的不断发展,互联网已经逐渐渗透到生活的各个方面,人们对网络安全也越来越关注。近年来网络安全相关事件不断出现,对我们的生活产生了巨大影响,使人们意识到了网络安全已经成为当今社会稳定的一个重要因素,任何的网络安全问题都可能造成灾难性的后果。入侵检测是保证网络安全的一项重要手段,是一项有效的防御技术,在网络安全中具有重要的作用。随着大数据时代的到来,传统的基于规则匹配、统计学等方法实现的入侵检测
具核梭杆菌(Fusobacterium nucleatum,F.nucleatum)为革兰氏阴性厌氧杆菌,属条件性致病菌。F.nucleatum主要通过形成炎症环境、免疫抑制、免疫逃避等多种路径促进结直肠癌(CRC)的发生。近年来,科学家将其作为结直肠癌的标志物之一,目前,关于具核梭杆菌的检测常用PCR、环等温扩增等,这些方法存在灵敏度低、操作繁琐的局限性,因此,需要研究建立方便快捷、准确性高的检
Brinson模型最早由Brinson、Hood和Beebower提出,故又称BHB模型或者Brinson模型,该模型从自上而下的角度将组合相对于基准的超额收益分解为资产配置效应、标的选择效应以及交互效应三部分;Ibbotson和Kaplan根据问题的需要,把Brinson模型进行了简化,他们将总收益率分解成政策收益率及积极管理收益率,也就是把Brinson模型中择时贡献、选股贡献和择时选股交互影
工程专业潜水员在海洋油气资源开发设备的检修和维护,以及船舶海难事故的救援和打捞中起着重要的作用,研制仿潜水员机器人替代工程专业潜水员是非常有必要的。本文针对仿潜水员机器人的总体结构和水下运动性能进行研究,为仿潜水员机器人的发展奠定了基础。本文完成的具体工作如下:首先,根据潜水员水下运动的分析完成了仿潜水员机器人总体结构的研究:通过对潜水员游动机理的研究,设定了仿潜水员机器人自主游动姿态和腿部摆动规
2009年,钙钛矿材料被应用到了电池领域并取得了一定的光电转化效率后,致使众多研究者致力于钙钛矿太阳能电池的研究。钙钛矿太阳能电池经历了十多年的发展,其光电转化效率取得了质的飞跃,已经达到了25.2%。目前钙钛矿太阳电池应用最广的制备方法是旋涂法,但是旋涂法不利于钙钛矿薄膜大面积旋涂均匀,从而影响大面积电池的效率。而且钙钛矿太阳能电池光电转换效率也需要进一步继续提高。为了解决稳定性和效率存在的问题
众所周知,水是人类赖以生存的基本物质,是人类社会可持续发展的制约因素。随着我国经济的蓬勃发展,对水资源的需求也越来越大,但同时所面临的水体污染问题也越来越突出,水体酸碱度和重金属离子对水体的污染对人类和生物体的生命安全有着深远的影响。传统的检测方式因为其造价昂贵、操作复杂、体型较大等缺点无法满足对不同条件下水体的及时检测,研究简单、快捷检测水体酸碱度及重金属离子的方法已经成为了人们关注的焦点。近年
随着深度学习日益发展,人工智能领域迎来发展热潮。无论在计算机视觉,还是自然语言处理、语音处理等领域,深度学习都取得了突破性的进展。近年来,同时涉及计算机视觉和自然语言处理的多模态学习任务受到越来越多研究人员的关注,视觉问答正是一种涉及多模态任务的交叉研究领域。视觉问答任务旨在让机器根据图片内容对提出的问题自动地生成自然语言的回答,涉及多模态信息输入(即图片信息和问题信息)。视觉问答任务关键在于对计
疾病标志物是一种客观评价疾病发展状态的参数,对于这些物质的检测可以判断人体是否处于正常的生理状态。但是,它们常常以非常低的浓度与其它复杂成分混合存在于人体中,这就使得疾病标志物的检测变得非常困难。因此,建立灵敏度高,抗干扰能力强的检测方法对于疾病的诊断和治疗有着重要的意义。电化学传感器是一类将目标物的检测信号转换为电信号的装置,也是应用最广泛,研究最早的一种传感器。它具有灵敏度高、使用简单方便和响
从控制系统理论研究发展进程来看,非线性系统控制一直受到广大研究学者的青睐,并取得了丰硕的成果。由于在生产生活中出现的大多数控制系统都属于非线性系统,因此非线性系统性能稳定性控制的研究在控制领域和工程实践的应用中显得尤为重要。系统本身存在不确定因素和未知干扰较多,这明显使控制器的设计难度加大。基于此,为提升非线性系统的控制性能,本文研究了以下内容:首先,传统的有限时间稳定控制虽能确保系统在有限时间内