【摘 要】
:
随着大数据的迅速发展,大数据给人们带来巨大经济效益的同时,也为大数据分析和挖掘带来了技术上的挑战。大数据基础平台技术繁琐,特别是依托于X86系列处理平台的计算框架特性各异,接口种类繁多,这极大地提高了基于大数据计算平台的智能业务应用开发者的技术难度。如何提高智能业务应用开发的效率,使得基于大数据平台的应用创新能够根据实际业务需求形成可靠的软件及服务,是摆在各行各业大数据应用创新软件服务商面前的一个
论文部分内容阅读
随着大数据的迅速发展,大数据给人们带来巨大经济效益的同时,也为大数据分析和挖掘带来了技术上的挑战。大数据基础平台技术繁琐,特别是依托于X86系列处理平台的计算框架特性各异,接口种类繁多,这极大地提高了基于大数据计算平台的智能业务应用开发者的技术难度。如何提高智能业务应用开发的效率,使得基于大数据平台的应用创新能够根据实际业务需求形成可靠的软件及服务,是摆在各行各业大数据应用创新软件服务商面前的一个关键问题。除此之外,重复性的数据处理操作使大数据业务的开发周期过于冗长。本文研究了面向大数据智能业务自动化生成的关键技术,设计并实现了一款可视化的大数据智能业务自动化生成平台,具体工作包括:(1)针对大数据智能分析业务数据种类繁杂的问题,本文设计了基于元数据管理的数据格式描述方法,实现了业务逻辑元数据规范化描述及传播技术框架。将每个子作业定义为完整的数据流,并设计了多种组件连接线类型用于灵活的数据流处理。(2)针对大数据业务生成平台规范化开发及作业代码生成构建问题,本文设计并实现了可视化的作业开发及自动化代码生成技术。将一系列数据处理操作封装为通用化组件,通过拖拉拽的方式进行可视化业务流程开发。本文设计了标准作业和Spark框架作业两种作业模板以满足用户不同的使用场景需求,以及设计了基于JET的代码生成引擎用于作业流程的自动化代码生成。(3)本文通过实际应用案例,验证了业务生成平台的作业生成能力。针对电信客户流失预测分析的实际业务需求在平台中进行可视化流程开发,本文设计与实现了基于Cox比例风险模型的组件,并完成数据预处理、特征选择、模型训练、模型评估等一系列业务流程。
其他文献
传统数据管理方式是每个管理域独自管理自己管辖区内的数据,不利于如今大数据时代的信息共享,跨管理域数据共享变成一个迫切需求。传统的数据共享需要第三方的机构,统一管理数据、维护数据,这种模式存在一个问题,需要参与数据共享的数据提供方绝对的信任第三方数据管理机构是可靠的,遗憾的是,数据提供方并不能完全信任第三方机构,使得数据提供方缺少数据共享的主观能动性,阻碍了数据共享的进一步发展。为了解决上述传统数据
装修机器人的推广应用是房地产行业提质增效、解决人力资源短缺的重要手段,同时,3D点云是一种获取环境信息的重要数据形式,在机器人、自动驾驶等领域应用广泛。有效理解环境语义信息是装修机器人工作的基础,3D点云数据的语义分割方法研究具有重要的理论价值和现实意义。由于点云数据的非结构化特性以及获取成本高,传统点云处理技术的研究局限于单一领域,点云深度学习研究方兴未艾,现有方法通用性不强,难以实现装修机器人
行人重识别是计算机视觉领域中的研究热点之一,通过指导智能视频监控自动地从不同摄像头中匹配相同行人的图片,在帮助公安机关追踪犯罪分子轨迹、大型商超分析顾客购物意图等方面发挥着重要作用。但是,目前行人重识别还存在着诸多挑战,受到摄像头视角、人体姿态等因素的影响难以一次性查询到所有的正确结果,表现良好的模型迁移到新场景、新领域时准确率会严重降低。本文利用深度学习方法提取行人图像的深度特征,并且针对上述问
随着中国互联网的发展和普及,视频应用的需求得到爆发式的增长,手机直播、网络视频等成为重要的传播媒介和新的互联网经济增长点。无线视频传输是移动互联网时代视频传输的主要方式之一。然而,在无线传输的情景下,移动智能设备能源和无线传输信道都是非常紧缺的资源。现有的解决方案分别是从视频编码和传输协议设计来对无线视频的传输进行优化,但是,现在广泛应用的视频编码方案的帧内预测和帧间预测算法的计算代价过高,对于计
农田水利工程是当代农业发展的根本动力,关系着我国农业能否长远稳定发展,同时对农田水利建设稳定用水、实现水资源利用最大化具有十分重要的作用。然而,笔者在调查中发现,目前农田水利工程规划设计中存在工程规划设计前期没有实地勘察、设计与实际情况差异较大等一系列问题。基于此,笔者深入分析了农田水利工程规划设计中存在的问题,提出了加大施工前的实地考察力度、科学分析农田水利灌溉规划设计、强化农田水利工程的监管力
随着信息化社会的逐渐深入,云计算技术作为计算机领域的前沿技术之一,也在逐渐迈向成熟。在云计算模式中,为用户提供各种服务的通常为虚拟机集群,这些虚拟机是通过虚拟化技术切割物理机产生的。虚拟机集群由云平台统一管理,按需分配的模式不仅简化了管理人员的工作流程,也使资源得到了充分利用,更是推动了桌面云和应用云的普及。用户只需要在本地终端安装云客户端便可借助远程桌面协议轻松访问云端的应用资源和桌面资源。云客
随着知识图谱越来越受到大众的欢迎,各大公司都在争先恐后地把自己的数据存储到图数据库引擎上,与此同时,数据的分析与挖掘也慢慢变得重要了起来。然而对数据的挖掘需要使用大量不同类别的数据进行交叉分析,而不同类别的数据就涉及到了由不同团队负责维护的数据,通常情况下这些数据并不在同一台服务器上,甚至使用了不同的数据库来存储这些异构数据。如果对这些数据进行挖掘则要将这些数据整合起来进行分析。然而,很少有完善的
由于深度学习模型的准确率大大提升,近年来在很多领域发挥了重要的作用,保持高准确率的同时如何提升模型的鲁棒性成为了一个重要的课题。深度学习模型中训练不充分、过度线性化的特性会导致模型对某些样本分类错误,这种样本由攻击者添加了特殊的扰动,且人眼难以辨别,它的存在大大威胁了深度学习的广泛应用,这种样本被称为对抗样本。为了抵御这种对抗样本的攻击,研究者们主要采取了改动模型的网络结构、对抗样本检测和将对抗样
频率选择表面(Frequency Select Surface,FSS)是使用周期性的相同(或存在略微差异)金属结构均匀的排列在某种衬底上实现的周期性阵元,其经常被运用于频率选择器,空间滤波器,和雷达散射截面缩减的应用中,通过单元的周期性排列,可以实现对相位和频率信息的调控和重构。在一些特定的情况下,可以实现与相控阵表面相同的功能,并且相比相控阵天线较为复杂的功分器和馈电网络,加载的大量放大器,移
随着软件系统在现代社会中越来越普遍,如何避免软件缺陷所带来的影响从而保证软件系统的稳定运行也越来越重要。软件缺陷预测可以利用目标项目数据来预测软件系统中哪些部分可能存在缺陷,工程师在此基础上合理安排保证软件质量的有限资源就可以极大地减少缺陷对软件系统的影响。在目标项目可用数据不足的情况下,跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)已经成为了一种预测软