面向元数据血缘关系的映射技术及实现

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:aniu88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代大型企业的大数据架构越来越复杂,大数据的采集、加工、使用以及废止链路环节明显增多,导致了企业对数据来源和影响的分析难度加大。一些企业开始尝试建立一套反映元数据间血缘关系的可视化地图,用来梳理数据的使用链路,以方便业务查询和开发管理。
  元数据是描述数据的数据,如数据库的配置、表编目信息等。元数据的血缘关系描述的是一种层次结构,即目标数据来源于哪些源数据,又生成了哪些子数据,例如数据A生成了数据B、C,数据B、C又分别生成了数据D、E和F、G等等以此类推。
  元数据的血缘关系通常从由对数据库进行操作的SQL文本中提取,解析文本中的血缘关系就需要解析相关的SQL语法。目前市面上提供的解决方案大致分为三类:第一类是大型企业服务软件,缺点是需要花高价购买,且不易维护;第二类是利用企业大数据框架提供的接口函数构建解析过程,缺点是需要从数据库底层读取数据,造成对数据库资源的占用并影响数据的安全性;第三类是使用开源的语法解析工具搭配自定义的解析规则进行解析,缺点是接触不到数据库数据,导致解析颗粒度只能达到表层级或者伪字段层级,并且需要制定一定程度的SQL写法标准,同时解析器的开源特性可能造成安全隐患。
  综合上述问题,本文基于目前应用广泛的大数据框架Hadoop中数据库使用的Hive SQL语言语法规则,利用了有穷状态自动机和上下文无关文法的基本原理,设计了一种面向元数据血缘关系的映射技术,它不依赖于开源的语法解析工具,从底层进行设计和开发,包括:(1)设计了一种基于Hive SQL语法的面向血缘关系的词法解析器;(2)设计了一种基于Hive SQL语法的面向血缘关系的语法解析器。具体情况如下:
  (1)所设计的词法解析器包含了三个模块,第一个模块完成了注释的过滤;第二个模块完成了单词的切分,并针对Hive SQL语言的特性,分别对连续性关键字、非连续性关键字、转义字符和括号进行了特殊处理;第三个模块对部分与血缘关系相关的复杂语法进行了拆分和重组,使之变为单一的语法结构。相较于普通的词法解析方法,本文设计的词法解析器的主要特点是:根据Hive SQL的实际生产环境下的使用习惯,对输入文本进行了一定程度的组合和改动,大大减轻了后期语法解析器的设计难度。
  (2)所设计的语法解析器对血缘关系相关的语法进行解析。一方面设计了顶层的解析架构,提取了生成类语法的血缘关系,删除了删除类语法的血缘关系,并对血缘关系进行了溯源整理;另一方面为了辅助血缘关系的提取,设计了多个小型且能复用的解析器,配合从数据库导出的表结构数据,实现了对‘目标表.目标字段’->‘源表.源字段’标准血缘关系结构的解析。相较于普通的语法解析方法,本文设计的语法解析器的主要特点是:不仅解析出了血缘关系的语法结构,而且设计了多个解析器对血缘关系的关键信息进行了提取、映射和补充,可以适用于生产环境下写法不规范、语法复杂的脚本,并在不占用数据库资源的情况下使解析的颗粒度达到了字段层级别。
  本文提出的面向元数据血缘关系的映射技术所实现的解析器,具有不占用数据库资源、适用复杂和不规范语法、解析颗粒度达到字段层级别三大特点。对某银行实际生产环境中的1000多个脚本进行了解析处理,生成了十万多条血缘关系。目前已将该解析器部署到某银行的元数据血缘关系可视化系统中,达到了系统的预期要求。
其他文献
图像超分辨重建是计算机视觉研究一个重要的方向,在现实生活中可以应用在许多领域。在实际工作或者日常生活中因为设备成本、技术限制、网络限制等因素常常不能得到足够清晰的图像。如果单纯的依靠提升硬件设备不仅成本耗费非常大,而且有些情况下会难以实施,比如人体医学成像中会受到人体组织的干扰。因此,对图像的超分辨处理在某些时候就显得尤为重要。图像超分辨重建的技术已经应用在很多领域,如医学成像、遥感成像及监控视频
在大数据时代,“信息过载”是困扰用户快速有效的从互联网获取有价值信息的主要问题。推荐系统作为解决这一问题的有效方法,已经成为学术界和工业界的关注热点并且得到了广泛的应用。然而,由于数据规模以及数据多样性的与日俱增,传统的推荐算法已经达到了性能瓶颈,同时,随着深度学习技术在图像、视频、语音等领域的广泛应用,基于深度学习的推荐算法目前成为研究热点。因此,本文提出了基于图卷积神经网络的推荐算法模型,并利
学位
随着人工智能技术的不断发展,知识图谱(Knowledge Graph)已成为结构化知识驱动智能应用的核心数据支撑。知识图谱本质是一种语义网络(Semantic Web),其节点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的语义关系(Relationship)。知识图谱包含大量结构化知识,形如三元组:,例如:;二元组:,例如:。知识图谱帮助机器理解知识语义信息,广泛应用在
学位
当今世界,任何一个国家都无法独立发展,各种文化之间的相互影响和渗透越来越大,甚至促进了人类社会的进步。因此,不同语言之间的翻译已成为各国经济、政治和文化交流过程中的关键点。随着全球化的不断深入,各类翻译活动更是如火如荼的开展起来。人们现在不仅需要高效快速的翻译,对翻译质量的要求也是越来越高,这就需要对翻译质量进行评价。过去对翻译质量的评价主要靠人工进行,主观性较强,没有确定的译文质量评价标准,并且
学位
传统金融学和现代行为金融学都认为股票市场的波动受到信息发布、传播、公众接受的影响。早期的股价预测研究主要是对股票历史交易数据进行分析处理,从中挖掘对股价走势判断有利的特征,随着人工智能、自然语言处理技术等技术的发展,从新闻媒体中提取能够反映宏观经济、基本面以及影响投资者情绪的信息变为可能,研究者开始将新闻文本数据与股票交易数据结合对股价进行预测。  利用新闻进行股价预测的关键之一是准确提取新闻中包
学位
在经济全球化的背景下,企业与企业之间逐渐建立了密不可分的关系。企业不仅仅会受到企业本身发展的直接影响,还会受到其合作伙伴支持和竞争对手的限制。在一家企业的全球化进程中,单兵作战往往会发展成为多家合作、交叉控股从而减少风险。对一家企业的评估不能只停留在企业本身的资产负债表和利润表,还要对与该企业相关联的公司进行风险评估。例如2016年乐视发生信用风险,一家大公司突然没落影响了多家相关企业和个人发生信
学位
现实世界中的网络往往并非是孤立运行的,不同的网络之间会存在着千丝万缕的关联,例如物理依附、逻辑依赖、能源或信息交换等,互相依赖、协同工作的网络情况更是现代社会普遍的现象。现实告诉我们,各类互相关联的网络共同服务于我们,能够大幅提高工作效率,缩短工作时间,但是与之对应的,所有网络之间都相互关联也存在着不小的风险。  近年来,不少学者根据现实世界的网络情况,抽象模拟出了多种具备不同特殊性质的网络模型,
学位
2008年,中本聪提出了比特币的概念,经过一段时间的发展,根据其概念应运而生的开源软件、对于比特币架构及其核心算法的研究形成了比特币的生态环境。  由于比特币早期具有易流通、交易成本低、易挖矿、去中心化的特点,比特币在早期发展速度很快。但是由于比特币体系匿名性的特点,这一点被不法分子利用用作金融犯罪活动,各国政府一度对比特币交易进行严格的管控,导致比特币价格出现了不稳定的情况。  经过这几年起起伏
学位
区块链技术是近十年来的新兴技术,具有去中心化、不可篡改、数据公开透明等优点,是分布式数据存储、P2P网络和公钥密码学等技术的新型应用模式。区块链技术的发展带动了互联网、金融、电信等各个领域的产业技术革新,一种新型产物——Dapp(Decentralizedapplication,去中心化应用)也应运而生,其广义定义为:运行于分布式网络,所有参与者信息受到安全保护,基于分布式网络进行去中心化操作的应
随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最主要的沟通和交流方式之一,语音中包含了大量的说话人的情绪信息,对于这些信息的充分获取和识别不仅推动了人类之间的交流,也对人机之间的交流效果有着很大的影响。近年来金融业、旅游业、远程教育和刑侦测谎等各个行业和领域中人机交互的繁荣使得利用人工智能