【摘 要】
:
随着互联网及通讯技术的发展,线上支付成为我国人民最常用的支付方式之一,每天发生的交易次数和交易金额达到上亿次。随着在线支付的流行,欺诈交易也时有发生。如何检测欺诈交易成为了支付服务提供商需要面对的难题之一。通常情况下,欺诈交易数据具有不平衡及维度较高的特点,给应用传统机器学习算法进行线上欺诈交易检测带来了极大的困难。为了解决上述问题,本文结合实际交易数据,研究了利用采样和降维技术实现线上欺诈交易探测的过程。本文的数据来源于Kaggle社区举办的数据挖掘比赛,训练数据一共206689条,其中欺诈交易占比为3
论文部分内容阅读
随着互联网及通讯技术的发展,线上支付成为我国人民最常用的支付方式之一,每天发生的交易次数和交易金额达到上亿次。随着在线支付的流行,欺诈交易也时有发生。如何检测欺诈交易成为了支付服务提供商需要面对的难题之一。通常情况下,欺诈交易数据具有不平衡及维度较高的特点,给应用传统机器学习算法进行线上欺诈交易检测带来了极大的困难。为了解决上述问题,本文结合实际交易数据,研究了利用采样和降维技术实现线上欺诈交易探测的过程。本文的数据来源于Kaggle社区举办的数据挖掘比赛,训练数据一共206689条,其中欺诈交易占比为3.5%。
本文首先介绍了相关的机器学习算法,包括KNN、决策树、神经网络等。然后分析了交易数据的特点,分别是数据极度不平衡、数据维度较高。数据不平衡是指交易数据当中欺诈交易相比非欺诈交易数据量十分稀少。不平衡数据在特征空间当中分布较为复杂,因此使得传统机器学习算法在处理不平衡问题时表现较差。欺诈交易数据的另一个特点,数据维度较高也给传统机器学习算法在交易数据上的应用带了了困难。高维空间之下在寻找近邻点的时候,会出现Datahub现象,从而使得一部分的点更容易成为其他样本点的近邻点。如此一来,便导致传统的基于距离寻找近邻从而合成新数据的算法在应用时性能表现不佳。
针对上述问题,本文结合数据采样技术以及降维技术来提升算法的性能。为了减少数据不平衡造成的影响,提出了降采样Badhub的处理方式,将Datahub当中那些与其近邻点标签不一致的点识别为Badhub,而这些Badhub很有可能使得算法受到误导,因此在建模时将这部分数据剔除。对于高维数据问题,本文采用降采样和Rfe降维结合的方法并将其应用于机器学习算法中。最终实验表明,二者结合使用可以使得随机森林算法在欺诈交易数据上的表现得以提升。本文的研究结果可以为相关研究者提和实践者提供参考。
其他文献
近年来互联网手段的不断更新发展和新零售业强势崛起使得大规模即时配送需求越来越多,单纯使用启发式算法求解大规模问题的时间会呈指数式增加。本文采用聚类-蚁群算法的两阶段方法,先降低问题规模后使用高效寻优算法,既降低了配送总成本,同时又提升了客户对时间的满意度,因此本研究具有现实意义和必要性。
本文首先介绍了国内外关于车辆路径问题的研究现状,分析了同城即时配送的模式和现阶段存在的主要问题;其次根据即时配送的特点和不同企业的运营模式,确定了两种基于聚类的即时配送区域划分方法以及对基础蚁群算法的改进策略;
在零售市场中,由于零售业商家产品价位差距小、消费者转换成本低等经营属性,传统零售商之间的促销竞争一直是十分激烈的。而随着网上购物平台的发展和互联网人群触及率的不断提升,网络直销渠道占领的市场份额也在不断增长,所以对于传统零售商来说,来自网络渠道的竞争也越来越不可忽视。
本文研究了三种情况下的零售商促销模型。第一,传统渠道单零售商优惠券促销模型;第二,制造商+零售商双渠道优惠券促销模型;第三,双零售商双渠道数量促销模型。首先,在传统渠道单零售商优惠券促销模型中,建立了需求随优惠券促销面值和促销强度
团南昌县委积极发挥团代表联络站作用,统筹县域工作资源,主动谋划,直面团员青年,急青年之所急,把服务做到青年心坎上。 分类化专项强机制。为保障团代表联络站高效有序运行,南昌县团代表联络站建立“一站两联”工作机制,构建起“委员-代表-团员青年”的扁平化联系沟通路径。建立乡镇(街道)、中学、县直单位、两新组织领域4个专项小组,根据工作需要开展各小组联合行动,搭建起了多维平台,形成了召集人联系组长、组长
对于短生命周期产品,产品设计必须在销售季节之前确定,这可能会导致库存短缺或供应过剩。为了避免这些问题,需求预测得到广泛应用。现阶段大数据和算法的飞速发展提高了需求预测的精度,成为当下需求预测最常用的方法。本文探究了大数据背景下,直接和间接两种销售渠道中,预测对产品质量、库存和决策者的期望利润的影响。
本文讨论了预测完全准确、不预测和预测不完全准确三种情况,得到了预测、产品质量、库存和决策者期望利润之间的关系。首先,直接渠道中,预测成本、生产成本弹性和产品质量共同影响制造商的预测决策;而间接渠道中
团寿宁县委通过建机制、强阵地、重引领、抓服务等多样措施强化代表联络站建设,以“我为青年做件事”活动为抓手,推动“两联”工作机制落地见效。强化阵地建设,“多途径”联系青少年 团寿宁县委深入把握“一站两联”建设的内在要求和运行特点,以代表作用发挥为牵动,构建“联络站-专项小组-团代表-团员青年”联络服务工作体系。 网格化分布。以团县委为中心,辐射全县14个乡镇,根据团代表人数、结构、地域、工作职能
电动汽车作为解决能源短缺、环境污染等问题的重要途经,其大力推广已成为国家战略。但是,中国目前电动汽车的发展情况不容乐观,因此,应主动地去满足消费者的需求,激发他们的购买欲望。了解消费者的偏好及支付意愿是了解消费者需求、制定合理决策的关键,因此,很有必要探究消费者对电动汽车各个属性的偏好特点以及支付意愿。基于此目标,本文采用选择实验为消费者构建模拟的购买情境,从而实现对电动汽车不同属性重要性的具体分析。首先,通过问卷调查的方式找出中国消费者最关注的电动汽车属性;然后,根据正交实验设计选择实验的问卷调查表;最
二十一世纪是一个高度信息化的时代。移动互联网的快速发展对我们生活的各个领域都产生了重大影响。如何正确高效地获取信息成为了当今智能信息时代重要的前提。知识图谱提供了一种从海量数据中抽取结构化知识的手段。现如今,知识图谱技术快速发展,已经跻身自然语言处理的热点研究方向之列,在智能搜索和智能问答等领域得到了广泛应用。随着生活质量的提高,互联网医疗科普搜索的需求急剧增加。问答系统作为信息化时代人工智能发展的必然产物,可以直接理解用户意图,根据用户不同的输入可以做出针对性的回答,为用户提供极大便利。因此,本文实现了
团泰兴市委将创新开展团代表、委员履职工作作为全市共青团改革的重要抓手,以团代表、委员作用发挥来加强团的基层功能延伸,真正把团代表联络站这一“联系纽带”越建越强。线下线上并举,创新联系服务平台 坚持规范化打造线下阵地。按照方便联系、共建共享的原则,团泰兴市委依托青创梦工场将团代表联络站与团属活动阵地统筹融合,为团代表直接联系青年、开展座谈交流、联动开展活动提供场地保障,做到资源整合、一站多用。同时
团南开区委围绕建好、管好、用好团代表联络站,深入探索“两联”机制,切实发挥好共青团作为党和政府联系青年群体的桥梁和纽带作用。 打造平台“建”好站。根据“有利于统一领导、有利于组织协调、有利于作用发挥”的原则,团南开区委明确功能定位、主要目标、具体作用、联系机制、工作体系,专人负责联络站日常工作。 探索“团代表-青联委员”专项小组模式。专项小组根据团代表工作职能及领域组建,将专项小组与青联各界别结
团景洪市委认真把握“一站兩联”建设内在要求和运行特点,通过一系列举措,切实打通联系服务青年“最后一公里”。 突出功能定位,强化组织体系建设。按照“有利于统一领导、有利于组织协调、有利于发挥作用”的原则,设置“团市委+团代表联络站+各专项小组”组织构架。联络站根据团代表所在领域、专业特长等将其编入2个专项小组,各专项小组根据团代表结构、工作职能及领域,围绕新兴领域、边疆少数民族地区脱贫攻坚、绿色生