基于统计特征参数估计的真值发现算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:luxi0194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,某一个实体的相关信息往往由多个不同的数据源同时提供。但是,因为数据源的可靠度不尽相同,不同的数据源对同一实体提供的信息并不是完全一致的,因此数据冲突是不可避免的。同时,少数可信度较低或者恶意的数据源,甚至会提供远远偏离实际数据的观测值,使用户做出错误的决策。因此,为了从多个可靠度未知的数据源中找到值得信赖的数据,提升数据的可用性,真值发现技术应运而生。近年来,真值发现受到了产业界和学术界的广泛关注。但已有的真值发现算法往往是面向局部的,缺乏对输入数据的全局统计描述,这导致真值发现算法在使用时出现了如下问题:首先是输入数据的适应性问题。已有的真值发现方法因为并不关心输入数据的整体统计分布,而是通过数据驱动,对特定的非可靠数据源进行特征挖掘式的排除。因此已有的真值发现方法的性能会随着输入数据集的变化而产生剧烈的变动。其次是输入噪声的单一模型问题。因为不考虑输入数据的统计特性,已有的真值发现方法往往采用均值为0,方差未知的正态分布对非可靠数据源的噪声进行建模。但这在现实应用中是不合理的,比如:气象观测中,由于采集数据的传感器故障等原因导致该传感器的误差分布往往是非0均值的。因此,本文尝试从对输入数据的统计特征参数的估计出发,研究性能更稳定,更符合特定应用场景的真值发现算法。主要的工作以及创新点归纳如下:1、针对输入数据的适应性问题,提出基于均值与中位数估计误差的真值发现算法。该算法能够从多源观测值集合中去除由不可靠来源给出的错误观测值,提升数据的可用性。我们在理论上分析了方法的可行性,并且在三个不同的数据集上进行了实验,实验结果证明了方法的有效性。2、针对输入噪声的非0均值问题,提出了基于置信区间估计的真值发现方法。该方法对实体总体均值的置信区间给出了新颖的表示,通过给定的置信区间可以识别出潜在的不可靠数据源,通过去除识别出的不可靠数据源提供的错误观测值,我们可以获得实体总体均值的更可靠估计。我们通过理论分析证明了方法的可行性,同时在多个数据集上进行的实验显示了我们方法的有效性。
其他文献
中文文本纠错是实现语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,其应用前景十分广阔。如在搜索引擎中,对于用户输入的文本常存在错字、缺词、多词的情况,通过分析输入文本,可自动纠正文本错误并反馈用户,所得搜索结果将更符合用户的需求;在汉语教学系统中,自动化文本纠错技术实现对文本进行自动批改的基本功能;在手语识别系统中,可利用文本纠错技术对连续手语识别的文本结果进行
在互联网技术高速发达的今天,人们的生活已经逐渐趋近网络化。而网络中信息的保存和传递大多都要以云服务器为中间节点,用户的隐私信息可能会泄露。于是,信息存储的保密性和传递的安全性得到很高的关注。近几年,量子计算机技术发展之速度令人惊叹,其高速的计算能力使得一些经典加密方法不再安全。为了寻求更安全的加密方法,量子密码学应运而生。量子密码学是基于量子力学原理来完成相应密码任务的学科。而量子同态加密是量子密
开关电源在科学研究、电力建设、国防设施等各个领域上都有重要的应用价值,因此设计与制作高性能、低体积的开关电源尤为重要。在开关电源的核心组成部件中,磁性元件是具有特殊作用的一种,它具备储能、能量转换及隔离等重要功能。其中饱和特性是磁性元件的特有性质,在许多实际应用场合中,电源发热甚至烧毁电路的主要因素就是磁性元件过饱和。但磁性元件设计由于开关电源设计人员认知能力有限,对自身能力与发展认知不足,同时对
随着数字技术、区块链、人工智能、虚拟技术、物联网以及云计算等信息技术的迅猛发展,民营高科技型企业的发展面临着巨大冲击。随着知识型员工在企业发展中的地位不断提高,越来越多的科技型企业正在着力构建长期薪酬机制以期激发技术人员的工作热情、提高员工的工作满意度和忠诚度,进而帮助企业在动荡、复杂、不确定性程度高的外部环境中生存。为此,本文以TCXY科技公司为例,介绍TCXY科技公司概况和现阶段薪酬体系的基本
本文结合网络关注度数据和统计数据,运用社会网络分析方法,以Ucinet 6.0对入境和国内旅游流网络进行个体网络特征和整体网络特征分析及比较,并探究各因素对入境和国内旅游流网络结构是否有影响及其影响程度,结果发现:(1)陕西、四川等5个省、市(区)是入境旅游流网络中的重要节点和传输媒介,作为占据最多结构洞的节点,拥有入境旅游网络中的大部分资源,处于相对有利的位置。西藏、贵州等6个省、市(区)在入境
从基因表达数据中推断基因调控网络有助于深入了解各种生物过程,促进药物的设计以及药物靶点的发现。随着海量组学数据的产生,如何精准地从基因表达数据推断基因调控网络已经成为生物信息领域的一个重要难题。目前许多基于计算的调控网络推测方法被提出,然而,由于基因表达数据“高维度,小样本”的特性使得大多数方法在推测网络结构时面临挑战。为了应对这一挑战,基于特征选择的基因调控网络构建方法成为研究的热门。本文针对现
安全多方量子计算作为近二十年来最热门的量子密码学研究方向之一,具有很多经典安全多方计算难以匹敌的优势。它通过在经典安全多方计算协议中引入量子信息技术可以使两个或两个以上的参与方在保证各自输入数据安全的情况下合作计算一个联合函数。为了使协议适用于某个特定的场景,安全多方量子计算演化出许多专用协议。量子私有比较协议作为一类重要的专用协议,由于适用性广,易于移植到其他复杂安全多方量子计算协议等原因,近年
互联网多媒体信息与社会的发展休戚相关,它包括文本、图像、音频等。相较于文本信息,图像、音频信息能携带更多的信息量,而且信息的表达方式比文本更生动形象。但是在能携带更多信息量的同时,图像、音频文件会比文本文件更大,需要更多的内存。传统的加密算法已经不大适合于对这些信息的加密,如RSA、DES、AES等算法。因此,针对这种大数据量信息,设计一种有效的加密方案很有必要,基于混沌系统的复杂网络加密对于实现
企业的运行效果与发展目标和战略紧密相关,因而制定科学合理的发展战略对企业来说就显得特别重要。现如今,国际市场环境动荡不安,各个企业需要结合自身的运行状况、运行机制、发展方向和市场环境变化等,设计具有针对性的企业战略,分析在自身发展中具有哪些缺陷和明显不足,并进一步优化战略举措,以“变”应“变”。HG食品股份有限公司的主营业务为家畜家禽的饲养和繁殖、购买和销售、粮食的购买和销售、家畜产品的生产、加工
学位