众包数据的数据库模式映射方案和近似多字符串匹配研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tang790330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着众包模式作为一种新型的经济模式,国内外不同类型的众包平台也如同雨后春笋般的涌现。基于NoSQL数据库的轻量级众包平台是目前使用的最为广泛的众包模式,其高效的读写性能以及支持分布式存储的特点能应对大数据量下的存储问题。但是其弱结构化的存储方式,也带了通用性较差等和对数据本身的事物操作支持较弱等不足。因此,如何高效且能通过事物操作处理大数据量众包数据成为了目前研究的主要热点。基于NoSQL数据库对事物性操作的不敏感性,目前已经有大量的工作旨在通过研究数据结构之间的转换来优化该问题,但是系统的针对由NoSQL数据库向关系型数据库的模式映射方案的研究较少。另外,在某些众包数据的提取中存在着多字符串匹配的问题,目前国内外的主要研究是还未将字符串匹配技术应用到该领域,基于现有的算法无法实现对众包数据中的多个字符串进行匹配提取。本文以Recital众包平台及其数据为研究基础,主要对数据库间的模式映射和多字符串模糊匹配进行研究,具体的研究内容和研究结果如下:(1)首先分析了众包系统的设计原理,着重对轻量级众包平台所使用的MongoDB数据库与关系型数据库进行框架和数据结构上的对比分析,为模式映射方案做理论准备。(2)研究字符串比较的算法,详细介绍编辑距离(Edit Distance)与Needleman-Wunsch算法的基本原理,为多字符串的模糊匹配算法提供理论支持和对比研究。(3)针对MongoDB中数据向MySQL应用迁移需求,本文通过数据迁移与数据映射两模块提出对应的模式映射方案,根据不同环境下的数据类型与数据库结构间的差异比较完成了对MySQL的迁移方案。并使用伪代码的形式对映射过程进行详尽的解析。(4)针对多字符串的提取问题,提出了基于编辑距离的多字符串模糊匹配算法,使用卷积的思想,逐位使用编辑距离计算相似程度,并且根据相应输出准则进行匹配结果筛选。在输出的阈值参数选取中,阈值越高时匹配结果准确度越高,但是匹配耗时也随之增加,统筹考虑到匹配的准确率选取最佳阈值。实验表明,在多字符串的模糊匹配与单字符串的提取过程中,本文提出的基于编辑距离的算法都在准确率上优于Needleman-Wunsch算法并且耗时更短。
其他文献
随着我国经济社会的迅速发展,以及人们生活水平的逐步提高,人们对保险的需求也在不断的扩大,对我国的商业保险行业的发展起到了非常大的促进作用。随着我国保险行业的快速发展,保险代理市场也逐渐的成熟了起来,在保险代理市场的发展过程中,由于对客户资源的争夺越来越激烈,保险公司与各类保险代理机构之间的矛盾也越来越深,在为保险专业代理市场的发展带来巨大隐患的同时,也对保障客户的利益造成了非常大的危害,因此保险专
超分辨率重构是指从一幅或一系列低分辨率图像通过数字图像处理的方法重建出一幅高分辨率图像的技术,该技术不仅能够增加图像的高频信息,也可消除低分辨率成像过程中产生的退
目前,人工智能快速发展,深度学习亦随之崛起,尤其是在机器学习和模式识别等领域。卷积神经网络(Convolutional neural network,CNN)结构简单,鲁棒性好,适应性强,其优异的性能
在对实际系统建模的过程中,常存在多种不确定性,比如模型误差,测量误差等,通常将其称为未建模动态.它的存在严重影响着系统的动态性能,甚至会破坏系统稳定性.消除或抑制未建
近年来,由于控制科学、计算机科学、通信工程等领域交汇融合的发展,多智能体系统协调跟踪控制研究引起了学术界和工程界的不断关注,随着研究的不断深入,有关多智能体系统协调
在水污染日益严重的背景下,为实现科学准确地治理已污染水体以及保护未污染的水资源,必须进行有效的水质检测工作,从而全面掌握水污染状况,为水资源保护提供依据和指导。目前,用于指示水体有机污染程度的常规检测指标主要包括化学需氧量(COD)和生化需氧量(BOD)。本文在前人的研究基础之上探讨了一种COD和BOD的一体化测定技术。通过活性污泥曝气降解有机物污染物的方式考察了BOD测定过程,采用控制变量的单因
随着云计算技术的兴起,云平台上的计算资源和存储资源应用的越来越普及,基于这种新型系统架构,云计算提高了应用系统的可扩展性和高可用性;其业务模型能够满足企业降低成本、
在传统的数据分类中,通常需要挖掘区分能力较高的频繁序列作为分类依据,从而为用户提供潜在的高价值信息。近年来,随着不确定数据处理需求的快速增长,挖掘不确定数据集上的区
清末新式学生群体是由传统走向现代的第一批学生群体,也是五四新学生乃至当代学生的雏形。近代对中国影响较深的人才,究其源头,大都是由清末新式学生成长起来的。本文以湖南新式学生为切入点,从近代区域学生史、教育史的角度,对清末湖南新式学生群体的产生背景、发展概况、与社会变革的关系,进行了较为全面的论述。清末湖南新式学生群体是在民族危机加深、民族资本主义初步发展、新式教育改革的背景下诞生的,他们主要是一批接
随着互联网技术的逐渐普及,人们的社交方式也从传统模式逐步发展到线上平台交流,夜以继日的新用户增加使得各类线上社交平台产生出越来越多的社会网络数据。社会网络数据除了