【摘 要】
:
企业业务的发展造就了海量异构来源的结构化和非结构化数据的不断积累,随着数据获取手段和处理技术的改进,即使在信息系统建立之初进行了良好的设计,随着时间的推移和业务的变化也可能导致所存储的数据无法满足数据分析人员的要求。由于企业涵盖众多业务,而每种业务都会产生相应的带有特定结构的数据,不同业务间的数据结构不同而且存储方式多样,导致企业拥有多个来源的大数据,简称为多源大数据。企业对多源大数据进行数据挖掘
论文部分内容阅读
企业业务的发展造就了海量异构来源的结构化和非结构化数据的不断积累,随着数据获取手段和处理技术的改进,即使在信息系统建立之初进行了良好的设计,随着时间的推移和业务的变化也可能导致所存储的数据无法满足数据分析人员的要求。由于企业涵盖众多业务,而每种业务都会产生相应的带有特定结构的数据,不同业务间的数据结构不同而且存储方式多样,导致企业拥有多个来源的大数据,简称为多源大数据。企业对多源大数据进行数据挖掘等数据分析任务时,需要首先对数据进行预处理也即数据准备过程,但是数据准备非常耗时费力而且往往需要分析人员具备代码能力,已有数据准备流程难以再编辑、相似的数据准备流程间重用困难,这些问题显著增加了数据分析人员的工作量。本文设计并实现了面向多源大数据的数据准备平台,为用户提供接入不同大数据源、建立数据准备流程、数据准备结果展示保存的各种工具。与仅通过编码或手动执行数据清洗过程相比,平台通过友好的可视化界面,以用户可编辑设定的数据准备步骤来代替针对该步骤的手动数据清洗过程,用户通过在界面中编辑其自定义的数据准备流程,减少了用户手动编码或者手动操作数据的工作量,同时通过建立流程文件的方式提供用户再编辑和执行的功能,通过提出基于GBDT(Gradient Boosting Decision Tree)的数据清洗过程中缺失数据处理算法,提高时序型缺失数据填充的准确率。本文首先介绍了多源大数据和数据准备的概念和相关背景,面向多源大数据的数据准备平台提出的背景与意义,并对该平台实现过程中用到的相关技术进行了简要的介绍。然后基于主要应用场景,对平台的需求进行分析,明确了系统的功能性需求。接着对系统实现过程中需要解决的关键问题进行了分析并提出了相应的解决方法:为了解决面向多源大数据的问题,通过建立多源大数据的统一视图,采用基于混合本体的XML(Extensible Markup Language)方式建立数据源和视图的映射,得到数据准备流程的数据源;为了解决用户视图与流程模型的映射问题,通过建立组件结构模型,采用基于MVC(Model-View-Controller)结构的流程组件定义和数据准备流程映射建模,得到流程文件和流程模型;为了提高数据准备过程中时序型缺失数据处理的准确性,本文提出一种基于GBDT的缺失数据处理流程,通过结合GBDT回归分析预测填充、统计值填充等方式提高缺失数据处理的准确性。基于关键问题的解决方案,设计并实现了该面向多源大数据的数据准备平台原型系统,并对平台功能进行了测试。最后对论文工作进行了总结,指出了设计与实现过程中的不足及未来改进的方向。
其他文献
经济新常态下,企业间的竞争日益激烈,员工敬业度作为企业之间竞争的重要推动力,其地位与作用显得越发重要。一个敬业的员工在企业中可以充分发挥其创造力,展现其知识才干,可以为企业带来直接的经济效益,提升其核心竞争能力。而一个企业对人的管理是否成功,极为重要的一个判断标准就是员工的敬业程度。因此,一个企业如何加强对人的管理,如何管理好人,如何提升员工敬业度,进而提升员工工作绩效,越发成为企业竞争过程中亟需
高延性纤维增强水泥基复合材料(ECC)是高性能纤维增强水泥基复合材料的一种,在受拉时能够展现良好的准应变硬化和多缝开裂特性,在受压时的延性也优于混凝土,被广泛应用于桥面板、桥面连接板、建筑防震抗震构件、混凝土保护层等实际工程中。然而,目前尚无一种能够准确反映ECC力学行为的本构模型用于ECC结构构件的数值模拟,大型通用有限元程序(如Abaqus,Ansys等)中缺乏ECC本构模型,现有的ECC本构
协商民主是一种重要的民主政治形式,日益成为国内外学者研究的热点。我国对协商民主具有高度的政治价值定位,将协商民主从一种民主形式发展为制度形式。基层具备发展社会协商对话的充足空间,因而基层协商民主逐渐成为社会主义协商民主体系的重要部分。近年来,各地形成了多种基层协商民主实践的创新形式,具有一定的实践效果。然而,我们仍需看到基层协商民主并没有扩散为大规模的实践局面。基于此,论文重点论述了基层协商民主实
目的:观察温肾泻浊颗粒剂治疗慢性肾脏病3-4期的临床疗效和安全性,以期为进一步中药新药的开发提供依据。方法:本研究采用随机、双盲、安慰剂对照的方法,共纳入符合本课题入组条件的患者72例,依照随机数字对照表顺序进行分组,每组36例,分为治疗组和安慰剂组。治疗组方案为基础治疗联合温肾泻浊颗粒剂,对照组方案为基础治疗联合温肾泻浊颗粒安慰剂。治疗周期为12周,监测患者BUN、Scr、UA、K+、24h尿蛋
在互联网与大数据并存的时代,再加上各种新媒体技术的蓬勃发展,我们每天都在主动或被动地接收海量信息。过载信息、冲突信息、模糊信息也成为了消费者困惑主要的源头,给消费者购物决策造成了一定的困难。此外,科学技术的发展也带动了产品的更新换代,特别是电子产品,存在着模仿创新的市场现象。尤其当产品数量过多、属性过于相似或购物信息含糊不清时,容易造成消费者困惑,引起其购买回避,给新产品扩散造成一定的阻碍。特别是
茶马古道是世界上少有的且具有珍贵历史价值的线性遗产,其沿线区域也是南方丝绸之路经济带的重要组成部分。打造茶马古道旅游带能够促进沿线区域旅游经济和文化艺术的发展,进而带动社会经济的全面增长。在以往的茶马古道开发研究中,研究对象多为残破的古道遗址,忽视了众多具有重大历史价值的沿线古迹资源,使得茶马古道的开发存在基础薄弱和资源不足等问题。其次,研究重点主要是旅游开发框架的构建及文物保护措施的制定,其研究
质子交换膜燃料电池(PEMFC)是一种新型清洁无污染且效率极高的电化学装置,它具有安全可靠、能量转化率高、复合性好、便携性好等很多优点。而质子交换膜(PEMs)是质子交换膜燃料电池的非常重要的组成部分,它的作用不但可以阻止电子的通过,而且还可以构建离子通道起到传输质子的关键作用。目前,商用质子交换膜用的比较多的是美国的杜邦公司生产的Nafion系列膜,它是一种全氟化结构的固体聚合物电解质。这种Na
目的:猴耳环作为清热解毒类中药长期在临床上使用,本文在确定了猴耳环抗氧化和抗补体活性部位的基础上,进一步明确了猴耳环的小分子活性成分,并以体内模型验证了猴耳环活性部位对咪喹莫特诱导小鼠银屑病模型的干预作用,最后对猴耳环的提取工艺进行了优化研究,以期从抗炎和免疫调节的角度深入揭示猴耳环清热解毒的药效物质基础,为系统阐明猴耳环清热解毒的生物学本质、把握其性味归经的科学内涵提供实验药理学依据,为猴耳环药
中国在2001年加入WTO之后,美国决定给予中国最惠国待遇,使得双方的贸易不确定性迅速下降。本文利用贸易不确定性变化作为拟自然实验,从企业的微观层面,分析贸易不确定性下降
目前车身轻量化作为节能减排的重要手段,是汽车发展的主要趋势。由于车身零件繁多,在“合适的部位应用合适的材料”已经成为了车身轻量化的发展方向。钢与铝合金薄板混联结构