非结构化到结构化数据转换的研究与实现

被引量 : 0次 | 上传用户:chuengwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会基础技术不断发展,信息化程度不断加深,大量的数字化设备产生了海量数据,使得数据资源与日俱增。这些数据中,以电子文档、邮件、报表、音频、视频、图形图像为主要部分的非结构化数据增长极为迅速,而关系型数据库中的结构化数据则相对比较缓慢。这一现象导致的最为直接的问题便是大量非结构化数据的存储与管理问题。而解决这一问题的关键就是通过“非结构化数据—半结构化数据—结构化数据”实现数据内容从非结构化向结构化的转换,从而对非结构化数据进行统一有效的管理。论文分析了文本文件、Word文档、Excel文档等非结构化文件的结构类型特点,创建对应的文件模板,通过转换程序来读取这些非结构化文件的内容,使用不同的转换规则将其分别转换成为标准的XML文档,再分析XML文档与关系数据库的映射关系,按照一定的转换规则将XML文档转换成为关系数据库表,为传统的基于关系模型的数据库所支持。论文提出了一种非结构化到结构化数据转换模型,增加了元数据提取模块和模板创建及管理模块来获取非结构化文件转换过程中所需要的文件结构并对其进行管理,使转换过程成为一个整体,增加了文件格式定义模块来实现同类型多结构文件的数据转换,对系统进行了性能优化,研究并创新的提出了大数据XML文档解析方法和海量数据插入优化方法,支持大数据量非结构化文件的数据转换。综合文中提出的方法和实现的过程,本文成功地实现了“高速列车数字化仿真平台”项目中非结构化到结构化数据转换功能的研发。仿真平台实际运行中,各专业子系统产生的仿真输出文件、设计文件等能够转换为系统需要的Oracle数据库表,方便了对这些非结构化文件的数据管理及应用,特别是数据查找及数据提取方面的应用,保证了高速列车数字化仿真平台的顺利运行。
其他文献
随着商业社会和信息技术高速发展,企业面临的竞争环境也变得越来越激烈。企业成本分析系统作为保障企业安全高效运营、正确决策和快速响应的有效手段越来越受到人们的重视。
情感类真人秀节目在我国有一定市场,具有发展潜力,但是存在节目类型较为单一、娱乐元素种类稍显不足等问题。笔者认为,韩国情感类真人秀节目《我们结婚了》是一档娱乐元素较
我国目前的商业保险服务还存在诸多问题 ,与国外保险公司无法抗衡 ,需要端正服务动机 ,研究服务对象 ,完善服务内容 ,改进服务条件 ,强化服务措施 ,即以名优产品带动品牌战略
目的探讨中医情志干预对脑卒中患者不良情绪及生活质量的影响。 方法入选2016年2月—2017年7月在本院神经内科住院缺血性卒中患者126例,根据患者住院期间选择护理模式不同将所
目的:探索经尿道前列腺电汽化术在高龄、危重前列腺增生症患者中的安全性和疗效。方法:对98例高龄高危前列腺增生患者行经尿道前列腺电汽化术手术。总结术前准备注意事项、术
<正>莫言的小说通常给人一种紧凑的节奏感和巨大的信息量。进一步深入小说的故事情节,又能够让人感受到莫言的叙事伦理。莫言将残酷、痛苦、暴力、粗鄙等毫无保留地展示在读
乙型流行性感冒(流感)病毒是引起流感疾病发生和流行的主要病原之一,至今为止发现其只有一个亚型,宿主特异度较强,至今发现其只能感染人和海豹[1],一般不引起世界范围内的大
针对局部失焦模糊图像的模糊程度测量问题,提出一种基于BP神经网络的图像局部失焦模糊测量方法,该方法通过提取图像块频域和空域的多个特征组成特征向量,并为每个特征向量设
在大数据环境下,数据存储出现了许多新的需求,传统基于关系数据库的数据存储方式不能满足这些需求,许多应用系统逐渐倾向于使用NoSQL解决大数据存储问题。然而,NoSQL放弃了对
目的探讨和比较紫杉醇脂质体联合卡铂与紫杉醇联合卡铂治疗卵巢癌的疗效。方法选取2012年5月至2015年5月间收治的60例卵巢癌患者,按照随机数字表法分为研究组和对照组,每组30