【摘 要】
:
随着互联网经济的发展,线上服务会产生巨量的业务数据。在传统单机模式下,对这些数据的储存、传输和使用十分困难,其主要难点在于单机处理速度难以进一步拓展和提升。对于数据挖掘任务,处理特征和训练模型也会因为受到硬件条件的限制而受到制约。为了应对这些问题,分布式存储和分布式计算框架被广泛使用。分布式计算很好的解决了计算能力拓展的问题,但是原有的机器学习算法和特征处理算法基本是为了单机环境设计的,没有考虑过
论文部分内容阅读
随着互联网经济的发展,线上服务会产生巨量的业务数据。在传统单机模式下,对这些数据的储存、传输和使用十分困难,其主要难点在于单机处理速度难以进一步拓展和提升。对于数据挖掘任务,处理特征和训练模型也会因为受到硬件条件的限制而受到制约。为了应对这些问题,分布式存储和分布式计算框架被广泛使用。分布式计算很好的解决了计算能力拓展的问题,但是原有的机器学习算法和特征处理算法基本是为了单机环境设计的,没有考虑过并发/分布式环境,所以原有的算法没有办法充分发挥分布式环境的性能优势。因此,本文将阐述四类特征处理算法在分布式计算环境中的设计思路、实现细节和应用。本文选择Spark平台作为实现并行算法的基础,Spark作为目前最受欢迎的分布式计算框架,在企业中被广泛使用。本项目将算法的分布式实现集成在一个分布式特征处理算法工具库中,为用户的数据处理任务提供支持。本文针对数据挖掘任务中遇到的特征处理困难,对一些经典的特征处理算法进行了分布式实现。需要解决的问题可以分为四大类:数据分布不平衡、连续特征的离散化、离散特征的互相关信息提取和高势集合特征编码。针对不同的问题,提出相应的解决方案。本项目由四部分组成:(1)过采样模块:设计并完成了 SMOTE及其改进版本Borderline算法的分布式实现,帮助用户解决数据不平衡的难题。(2)特征相关性提取模块:实现了三个不同的因子分解机分布式训练算法,帮助用户提取交叉组合特征信息,保证对稀疏特征学习的有效性。(3)特征离散化模块:完成了 ChiMerge算法的分布式实现,改进MDLP(minimum description length principal)算法,帮助用户完成最优特征离散化。(4)高势集特征编码模块:实现了从高势集离散特征到连续特征空间的映射,解决哑编码带来的维度灾难等问题。
其他文献
晶硅半导体材料是现代微电子技术和信息化社会的基础,而准一维硅纳米线(Silicon nanowires,SiNWs)结构凭借其独特的光电特性、量子限制和界面特性以及丰富的形貌特征和可调控性,有望成为研发新一代高性能硅基光电、微纳机电器件,以及新型的柔性可穿戴电子应用等提供理想的构建单元和关键的技术基础。然而,通过传统的“自上而下”刻蚀工艺,需要利用昂贵的电子束刻蚀(EBL)工艺,生产成本高且产量低
目的观察非透析慢性肾脏病(chronic kidney disease,CKD)患者体内维生素D水平以及维生素D缺乏与血管内皮细胞活化之间的关系,同时体外观察维生素D对肿瘤坏死因子-α(tumor necrosis factor-α,TNF-α)诱导的核因子κB(nuclear factor kappa B,NF-κB)信号通路活化的影响,以探讨其影响内皮细胞功能的可能机制。方法体内研究:选取病情
近年来,我国印染废水占工业废水的比重越来越大,印染废水造成的污染也越来越不容忽视。印染废水的水质波动大,污染物成分复杂,是处理难度较大的工业废水之一,尤其是有机物和重金属造成的复合污染问题,更是亟待解决的难题。仅凭借常规的处理工艺难以将印染废水处理完全,需要结合深度处理工艺对废水进行处理。吸附法凭借其便捷的操作和良好的处理效果,成为应用较多的深度处理工艺之一,但活性炭等传统吸附剂在重复再生时需要大
磷(P)是植物生长发育必需的一种大量营养元素,是核酸、磷脂、辅酶和ATP等重要化合物的构成成分。为适应外界多变的Pi环境,植物体进化出了一套精细的Pi稳态调控机制。含有SPX结构域的蛋白在植物Pi稳态调控中具有重要作用,拟南芥中含有SPX结构域的蛋白有4个家族:SPX-MFS、SPX-EXS、SPX-RING和SPX。本实验室前期研究揭示了 SPX-MFS家族一个定位于液泡膜上的Pi转运体SPX-
地下水反应运移模型是当前地下水数值模拟的发展趋势。受限于技术、预算、时间等因素,模型中的部分关键参数往往无法直接获得,需要获取观测值来求解反问题从而进行估计。因此,设计数据价值最大的监测方案对准确参数估计至关重要。本文基于贝叶斯方法开展试验设计和马尔可夫链-蒙特卡洛方法(MCMC)参数反演,从简单到复杂,依次设计了两个理想反应运移范例来验证该方法框架的有效性。首先以一个简单的氯代烃连续降解模型为例
随着国家不断加大对西藏地区的财政投入,内地发达省市的资金与产业向西藏地区转移,拉萨市城镇化速度加快以及川藏铁路、新318国道、藏木水电站等大型项目的修建等利好情况。拉萨这座千年古城,日益成为了青藏地区流动人员的重要聚集地。大量外来流动人员的涌入,不仅促进了拉萨市城市的发展与经济繁荣,促进了拉萨与内地省市在经济、文化等方面的交流,也刺激了拉萨脆弱的社会生态环境,给拉萨市流动人口管理带来了巨大的挑战。
移动自组织网络(Mobile Ad Hoc Network,MANET)不同于传统的无线网络,它无需固定基站节点就可以快速进行网络部署,从网络的规模上来说属于复杂的分布式局域自治网络。移动自组织网络具有无中心、自愈性、自组织、动态拓扑、多跳路由等特性,能够适应荒野灾区此类通信基础设施薄弱的环境,在军事、抗险救灾、紧急场合、科学数据采集、智能电网等领域发挥着愈加重要的作用。针对移动自组织网络应用范围
土壤-水稻系统中的重金属累积是一个重要的环境问题。对人为污染的土壤研究已有相当多的关注,但地质成因的重金属污染研究相对缺乏。全国土壤污染状况调查公报显示我国西南岩溶区土壤中金属元素通常超标严重,其重金属富集与地质作用有关。目前岩溶地质高背景区农田土壤重金属的富集特征以及高背景形成机制,污染生态风险,重金属生物有效性和迁移过程尚不清楚。全球碳酸盐岩的分布面积占据了 12%的陆地面积,我国是世界上岩溶