基于集成学习的电商异常订单检测研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:rundahe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电商异常订单检测是近年来异常检测在电商供应链领域中最为热门的任务之一。早期的异常订单检测任务通常是采用个别算法构筑模型,并利用调参手段尽力逼近模型精度上限。但在实际情况中,异常订单的起因多种多样,尽管统一被标注为异常订单,但其样本特征与标签间的映射关联不同,也就是说,基于单一假设的单模型仅擅长识别符合假设的异常订单,而对背离假设的异常订单识别能力有所欠缺,造成单模型难以胜任检测任务。随着组织和个人对异常订单检测的要求越来越高,异常订单行为模式库日趋庞大,选择多种模型分摊检测任务以实现优势互补和协同输出,更符合现实情况的需求。因而基于多模型的电商异常订单检测任务成为近年来重要的研究方向之一,具有重要的研究价值和应用价值。近年来,集成学习算法在异常检测、推荐系统和网络安全等众多领域取得了耀眼的成绩。集成学习框架是一种训练并结合多个学习器来解决问题的模型集群,在异常订单检测任务中占据统治地位,其中尤以在多届Kaggle大赛中效果出众的Stacking集成框架最受瞩目。基于该框架构建的Stacking融合模型是多个异质学习器的结合,通过算法自动寻找融合基模型产出的最佳规则,因其综合了多个模型的优势故效果远胜单模型。但是传统Stacking融合模型未对组件分类器的强弱加以鉴别,同时其基模型的产出单一导致次级数据集维度过低,本文针对上述缺陷构建了改进后的Stacking融合模型。本文主要以基于改进Stacking的异常订单检测模型进行订单异常检测研究。分析电商订单异常检测任务的特点:(1)原始数据过于粗糙,亟须处理才能投入模型;(2)异常样本的标签与特征间存在多种假设,致使单模型分类效果不佳。基于此,本文建立处理电商订单数据集的特征工程流水线,并提出基于改进Stacking的电商异常订单检测模型框架:首先针对原始订单数据集安排诸如特征理解、特征增强、特征构建等一系列加工步骤,得到可用的高质量数据集,继而构建随机森林分类器、GBDT分类器、XGBoost分类器置于Stacking融合架构底层,并构建KNN元分类器收集基模型的产出加以汇总,组建基于改进Stacking的异常订单检测模型,最后将成熟数据集投入模型加以训练,并对比单模型、融合模型和改进融合模型的效果。实验结果显示,通过特征工程和改进Stacking模型,电商订单数据集的正负样本分类结果上有了进一步的提升,表明本文对数据所做的处理和对模型所做的改进切实有效,从而得出结论:基于改进Stacking集成的异常订单检测模型在模型性能方面优于单模型和传统Stacking模型。
其他文献
目前,我国经济正处于快速发展阶段,证券市场欣欣向荣,上市公司层出不穷,但相关审查机制和监管法规相对不够完善,导致上市公司财务舞弊行为频发,虽然目前采取的监管措施在一定程度上减少了财务舞弊的发生,但财务舞弊依然是近几年监管部门的心头大患。企业为了谋取自身利益从而通过某些不正当的手段进行财务舞弊不仅影响上市公司自身的发展,让公司时刻面临着停市的风险,还影响公司内外各利益相关者的权益,阻碍了我国资本市场
学位
环境细颗粒物(PM)对健康的影响已经被全球广泛研究了几十年,PM被列为全球导致人口死亡和残疾的第六大危险因素。PM2.5与PM10与各种短期和长期健康不良影响有关,可吸入颗粒物会被人体吸入并积累在人体中,沉积在呼吸道中,并进入肺泡等部位,引发多种疾病,对人体健康造成严重危害,长时间暴露于高浓度的环境细颗粒物中甚至会引起死亡,中国每年因为PM污染导致的过早死亡人数在165万至219万之间。近年来,环
学位
随着社会不断发展,人们对社交需求不断增加,类似商场、广场等公共场所的人流量也在不断增加,这对公共场所行人安全的要求变得越来越高。在公共场所发生突发事件时,由于相关管理人员没办法及时获取突发事件的预警消息,导致无法及时疏散人员,最终造成公共场所人员的生命损伤或者财产损失。针对这种需要长时间监控的情况,传统人工视频监控没办法高效地完成监控预警工作。如今监控视频技术不断更新和应用,使用智能化的视频来侦测
学位
随着日常生活中电子设备和社交媒体的广泛应用,新闻、商品评论等文本类型的数据大量增长,快速提取和分析文本信息的需求显著上升。主题分析可以帮助我们快速确定想要了解内容,自然语言处理中的主题模型能从大量的文档中提取出有意义的词语、能够有效的将多个文档表示为主题,因此研究主题模型是十分必要和有意义的。主题模型是自然语言处理任务中一种典型的无监督任务,缺乏有标注的监督数据。在单语言的情境下,其他任务上表现良
学位
风格迁移算法是当前计算机视觉领域的热点研究方向之一。当下神经风格迁移的技术路线可分为:基于图像迭代的风格迁移和基于模型迭代的风格迁移。其中,基于图像迭代的风格迁移算法,通过不断迭代噪声图像的像素来生成风格化图像,具有合成图像质量高、可控性好、易于调参、无需训练数据的优点。而基于模型迭代的风格迁移技术,借助生成对抗网络(GAN)强大的生成能力,通过预训练生成模型来实现快速风格化。该方法具有计算速度快
学位
共享这类现阶段较为普遍的消费模式,很早就出现在人们生活中,它被理解为按需相互输出但不过度追求输入的一类商品,通常发生在较为亲密的社会关系间。过去十年,社会经济不断发展、大众对于商品的期望值变高、商品归属权认知的变化等推动了共享经济行业的飞速发展,而其首要实践领域则为旅游及住宿行业,共享经济与其彼此融合,便成就了共享住宿。共享住宿平台Airbnb现已成为极受欢迎的住宿选择,预计会对酒店行业造成一定冲
学位
近年来,随着深度学习的飞速发展,视觉问答领域已经取得了重大进步。视觉问答作为计算机视觉与自然语言处理的交叉领域,其基本任务是观察图像并在此基础上回答文本问题。现有的方法大多是通过预训练的自上而下的注意力机制对图像特征进行表示,然后使用单层门控循环单元(GRU)对文本问题进行编码,最后联合这两种特征得到预测答案。目前,虽然视觉问答系统在准确率上体现出了强大的性能,但无法提供模型决策的过程以及理由,这
学位
数据市场是目前研究的热点话题,在提出数据要素化的政策之后,国内各类数据交易平台迅速发展起来,针对数据市场的研究也越来越多。在2021年,北京成立了国际大数据交易所,同年,上海大数据交易所也宣布成立,这更加激发了对数据交易市场的研究热潮,同时也标志着我国数据要素市场的正处于蓬勃发展阶段。在数据交易市场的相关领域中,对数据定价体系的研究更是重中之重。现有的研究大多是从传统商品的定价方案进行迁移,但是数
学位
在计算机相关技术飞速发展的时代下,计算机技术辅助教学成为热门趋势。在老师的教学和学生的学习过程中,收集习题都是一个必可不可少的工作。然而,手工摘抄习题非常费时费力。利用计算机视觉技术,对拍照获得的习题图像进行文本检测和识别,使得将纸质习题自动变成电子文档成为一种可能。另一方面,文本检测和识别技术一直以来都是计算机视觉研究的热点问题。现有的研究主要面向自然场景和印刷体识别,鲜有针对习题检测和识别的研
学位
研究目的和内容:9号染色体长臂的C-ABL基因移位至22号染色体上长臂断裂点集中区基因(BCR)产生致癌的BCR-ABL融合基因,有95%的慢性粒细胞性白血病(Chronic Myelogenous Leukemia,CML)患者被检测有此染色体易位,该融合基因编码的BCR-ABL融合蛋白(BCR-ABL fusion protein)具有很强的酪氨酸蛋白激酶活性,是CML发病的分子生物学基础。基
学位