电子交易风控流数据的分布式轻量级服务技术的研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:yangyujie309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着支付宝、微信支付、电子银行的出现与快速发展,越来越多的电子交易数据以流的形式源源不断的进入风控平台,针对这类大规模实时数据流的快速存储和快速查询变得越来越重要。从风控平台的角度,处理海量流数据需要大规模集群,在满足高吞吐和低延迟的同时能向上为数据分析与模型建立提供分布式的轻量级数据服务已成为实时风控平台中一个亟待解决的问题。面对上述问题,本文主要做了如下几个工作:
  首先,针对大规模数据流的快速存储和快速查询问题,本文采用了数据摘要的思想,使用空间较小的数据摘要来存储大规模的流数据,通过摘要能够快速地得到非精确查询的结果。基于上述思想,本文提出了固定大小的滑动窗口算法,基于时间戳的滑动窗口算法以及窗口聚合算法。实验结果证明了固定大小的滑动窗口算法在插入时间和查询时间上都是高效的。实验结果也证明了该算法的正确性与可合并性。这两点也是该算法优于目前较好的SW-GK算法的地方。
  其次,针对大规模集群上的流数据服务的管理问题,本文使用Docker这类轻量级容器作为封装流数据相关服务的基础设施,向上为数据分析与模型建立提供分布式轻量级服务。服务的部署策略会间接地影响平台的性能、可靠性和资源消耗。所以,本文提出了一种基于镜像拉取成本、服务通信成本、负载均衡、节能等四个优化目标的改进的粒子群算法。该算法主要面对的是一批容器实例的部署问题。实验结果证明,该算法比Docker Swarm提供的三种调度算法(random, spread, binpack)能提供更好的部署方案,尤其是当机器资源远大于容器实例的要求时。同时,为了适应单一容器的部署场景,本文还提出了一种基于多目标优化的再调度算法。
  最后,针对目前风控平台所面临的技术挑战,本文首先简单地介绍了本课题组采用的风控平台的体系架构。该架构主要分为风控引擎,数据服务,数据计算,存储层四个部分。本文的工作重心主要侧重在数据服务这一层,主要结合了前面两项的研究内容,使用Docker作为封装流数据处理和查询服务的容器,将多个容器实例部署在集群上,进而能够提供流数据的轻量级分布式服务。同时本文也给出了基于Docker的服务的快速部署的具体方案,包括镜像的构建,将镜像提交到镜像仓库,将镜像实例化为容器部署到集群,再到集群、容器的监测与管理。与人工地去各个服务器上部署服务的方式相比,这套半自动化服务部署方案,大大降低了风控平台下各类服务的运维成本。
  综上所述,本文所做的工作即降低了大规模流数据的存储成本,还减少了流数据的查询时间,同时提供了分布式的轻量级服务,为上层实时数据分析与建模提供数据支撑。本文提供的部署方案,在降低运维成本的同时,能够保证平台的服务质量,增强平台的可靠性,降低平台的能耗。
其他文献
对称密码是密码科学的重点研究内容,被广泛应用于数字签名、电子支付等领域。近年来,随着无线技术的不断发展,物联网正在逐步深入到人们生活的各个领域中,但由于计算处理设备容量有限,传统的密码算法不能有效地保证其中的数据安全。轻量级对称密码正是因此应运而生,它通过改变算法中所使用的一些组件来保证数据安全,具有分组长度短、结构简单、资源消耗少等特点。然而,在实际应用中,轻量级对称密码算法的硬件载体可能会受到
随着科技和文化的发展,服装已不再是过去保暖的工具,它更是展现自我的方式。如今面对海量的服装数据,传统的服装推荐虽能达到良好的推荐效果,但由于过分依赖用户历史行为数据而经常出现冷启动和数据稀疏问题,同时因为忽略上下文环境,导致推荐结果达不到用户特定场景下的需求。因此,对服装个性化推荐的研究变得十分有意义。  知识图谱的本质是语义网络,它揭示了世间万物之间的关系。而服装本身自带了诸多属性和知识,但目前
学位
随着光伏发电提供的电量在世界总电量中的比重逐年增加,光伏发电在日常生活中所占的地位也越来越重要,这就要求光伏发电系统有更高的可靠性和安全性,同时,也对光伏发电系统中的主要电力设备——光伏逆变器的可靠性提出了更高的要求,一旦光伏逆变器发生故障而没有及时的诊断出来并将以处理,将会造成不可避免的重大损失。因而及时的故障诊断和定位是一个亟待解决的问题。基于对大量的运维数据的分析,可以发现实际运营中产生的光
糖尿病是一种常见的慢性病,据世卫组织发布的2016年公报统计,中国共有约1.1亿糖尿病患者和近4亿糖尿病前期人群。除了患者人数众多,糖尿病还是一种难以根治的终身性代谢性疾病,且其并发症很可能威胁到患者生命,所以需要尽早预防和及时控制。在糖尿病的临床治疗过程中,每名患者都需要不定期地多次去医院进行诊疗,治疗周期长、治愈较困难,导致了糖尿病专科领域的医生数量与患者数量严重失衡,因此,如果能够对糖尿病临
电子病历记录了患者在检查与治疗疾病过程中产生的重要临床数据,包含大量的医疗知识,通过挖掘和利用这些知识对于医疗健康事业的发展有重要作用。但是,目前大部分电子病历都以非结构化的文本形式存储,一是难以从这些杂乱、冗余及高复杂的文本数据直接获取规范并有价值的数据;二是无法直接应用人工智能算法去进一步挖掘分析。因此,电子病历的结构化问题成为人工智能时代研究的热点,在医疗领域中最重要的工作主要集中在实体识别
学位
在信息科技技术快速发展带动下,社交网络也在以前所未有的规模进行发展,对于社交网络使用的用户数量也在与日俱增。大量的用户信息给予了社交网络分析极大地便利,研究者对社交网络数据进行分析可以得到很多有用的信息。用户在使用社交网络技术的过程中,被动或者主动的将自己的个人隐私或与其他用户之间的关系等各种敏感信息公之于众。这些敏感信息的泄露对于用户造成很大的麻烦甚至是经济上的损失。因此对于社交网络中用户的隐私
学位
在当今大数据时代背景下,数据质量直接影响相关任务的有效性。数据质量专家估计,错误的数据可能会使企业损失其系统执行预算总额的10%到20%,并且一个项目的执行可能需要花费40%到50%的项目预算在数据清洗中。数据清洗是一个耗时,耗力和繁琐的过程。数据质量的好坏直接影响企业决策和科研结果的正确性和有效性,因此,研究者提出了多种数据清理的方法,以便(半)自动地识别错误,并在可能的情况下纠正它们。  在过
学位
传统的士兵格斗训练以实战对抗方式为主,这种模式容易对士兵造成伤害,带来不必要的风险。且人工评判难以保证计分的客观性,训练周期不可控。随着智能行为识别技术的发展,自动化分析系统得以广泛运用于军事、工业、医学等领域,辅助人工进行过程化控制。  本文研究的格斗评估系统基于立式人形搏击靶(下文简称搏击靶)平台,并配置了加速度和地磁传感器,实现对士兵格斗过程的监控与分析,对诸如拳击力量、方向、时间及攻击部位
学位
随着计算机视觉技术的不断发展,图像分类、图像检测和图像检索的研究成果也不断地被应用到现实生活中。深度学习中的卷积神经网络以其强大的特征提取方式和独特的学习方式,为计算机视觉领域带来了革命性的突破,如何将深度学习方法应用到图像领域已成为新的研究热点。  本文针对“以图搜衣”的传统解决方案不能满足用户高准确度需求的问题,设计了一种从商店时尚服装展示图片中检索街拍时尚服装的方法:首先运用深度学习方法对街
学位
随着互联网技术的飞速发展,各种社交网络平台尤其是移动社交网络平台持续增加,由此产生了海量的舆情信息。网络舆情具有明确的情感倾向性,并且其情感倾向极易传播与感染,甚至会影响事件的发展态势。因此,如何从庞杂的舆情信息中提取出热点话题,并分析各热点话题的情感倾向,对于发现公众关注焦点、提取舆情走势、把握舆论走向,并进一步引导正确的舆情传播方向、保障社会和谐稳定具有重要意义。  情感分析作为舆情分析最重要
学位