基于四种分类器的stacking集成方法研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:bingqing1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,海量数据也随之涌现。语音、图像、文本等非结构化数据体量的增速远大于结构化数据。其中,产品描述等短文本蕴含了丰富的信息,如何提取这些信息在搜索引擎、新闻主题分类等领域具有重要的研究价值。在电商平台、实体店商品管理场景下,常常需要建立商品的三级品类分类体系用以深刻洞察消费者偏好。然而由于录入不规范等原因,实际商品品类错绑情况较为常见,因而有必要建立商品品类自动识别模型。目前对于长文本分类已经有比较成熟的解决方案,而商品标题分类的难点在于:标题分类是对极具概括性的超短文本进行分类,通常这个标题不超过20个字,往往具有语义模糊性和特征稀疏性。简单将长文本分类方法应用到标题分类上通常无法取得令人满意的结果。本文研究讨论了商品标题基于贝叶斯、近邻法、支持向量机三种传统分类算法和新兴文本分类算法Fast Text的集成方法,并且建立了有效组合四种基分类器的stacking集成模型。使得商品品类自动识别具有了可行性。首先,针对传统中文文本分词中存在的语料不平衡现象,引入4个淘宝关键词词典外部相关词库,在商品标题语料集上得到有效性验证后,使用混合模型,对商品标题文本进行训练,得到相应的词向量表示。其次,研究并优化了贝叶斯、近邻法、支持向量机、Fast Text四种算法模型,对于商品标题中作为品牌的特征词与其他特征词不具有类条件独立性的情况,本文将特征项集合做进一步划分,建立了双层贝叶斯分类模型。最后,对上述四种算法模型进行融合,即建立stacking集成模型。实验结果表明,集成后的算法模型在短文本(商品标题)分类领域的系统稳定性,分类准确度均高于优化后四种基分类器,从而验证了本文提出的stacking集成算法是一种更为有效、准确的超短文本分类算法。
其他文献
在国际贸易保护主义不断抬头的背景下,促进我国高质量技术进步是打破国外技术垄断,实现经济优质平稳发展的主要途径。技术进步具有偏向性,实现技能偏向型技术进步是实现国内高质量技术进步的重要路径,而技能偏向型技术进步主要表现为技能溢价与技能需求结构变迁。为此,探究贸易政策不确定性对技能偏向型技术进步的影响有重要的理论与现实意义。本文构建一国两部门模型,系统探讨了贸易政策不确定性对技能偏向型技术进步的影响机
面对百年未有之大变局,我国国有企业迎来了巨大的发展机遇,同时也经受着严峻的时代考验。国有企业是我国国民经济的支柱,国有企业性质决定了它必须坚持党的领导,必须服务于中国特色社会主义事业,抓好国有企业党的建设对于加强党的执政能力、巩固党的执政地位、完成党的执政使命具有重大意义。安徽省交通控股集团是安徽省国有企业的典型代表,如何加强和改善安徽交控集团党的建设,实现其高质量发展是本文写作目的。安徽交控集团
群G关于其不含单位元1的子集S的Cayley图Γ:=Cay(G,S)称为正规的,如果G的右正则表示R(G)正规于Aut(Γ);称图Γ为G的图正则表示(GRR),如果R(G)=Aut(Γ)且Γ是无向图.本文主要运用代数图论的一些研究方法和技巧,结合群论知识对二面体群上的小度数Cayley图的相关性质以及该群的CI性进行了研究.在本文第三章中,重点研究了32p阶二面体群G=<α,b | α16p
碳点(Carbon dots,CDs)于2004年首次被科学家发现,是一种优越的光致发光材料。尽管碳点受到越来越多的关注,但是面临的问题也很明显,其中:(1)多数碳点局限在短波长范围,荧光量子效率多数较低。(2)长波长发光碳点,尤其是红色发光碳点的欠缺,阻碍了碳点材料在生物成像和WLED、光电显示等领域的推广使用。(3)碳点的磷光现象近几年成为研究热点,但产率依旧偏低、余辉时间等无法调控。本论文通
本文通过跨学科研究,希望对货币的起源及本质给出一种“社会技术”角度的解释,进而以马克思主义理论为依托,对当下的货币权力维度批判做出初步的尝试。第一章简要地回顾了西方货币思想史和当代货币理论中信用货币的传统,从货币起源和货币运作机制两个层面分析了巴本、麦克伦德、克纳普、凯恩斯、雷、孙国峰等的观点。他们基本上都认为货币本身不具有内在价值,而是一种在交易时记录信用、清算债务的经济技术。货币之所以被接受并
积分视场单元(Integral Field Unit,IFU)可以通过单次曝光同时获得目标的三维光谱信息。具有视场大,空间分辨率高,传输效率高,体积小的优点,因此在天文观测中得到了广泛的应
随着互联网、云计算技术的发展以及各种应用和业务的增长,作为基础设施的网络系统日趋复杂,网络流量动态多变,使路由算法设计难度增大。传统路由算法依赖于研究人员对网络环境的建模,导致算法在复杂网络环境下的设计周期长,相关参数的设定和优化难度大,因此,如何根据网络环境特征设计最佳路由规则以均衡网络负载成为了重大挑战。基于强化学习的路由算法根据网络负载均衡状况自动探索最优路由策略,并利用深度神经网络拟合网络
数学的精髓是数学思想方法,而数学思想方法又是解决数学问题的关键。极限思想方法作为数学思想方法的重要组成部分,在数学中有着举足轻重的地位。诸多研究者撰写了大量有关中小学数学中所蕴含极限思想方法的文章,但观点各有迥异。其中对于中小学数学教科书中所蕴含的极限思想方法鲜少,并且研究的阶段性是分离的,缺乏系统性。因此对中小学教科书中蕴含极限思想方法的内容进行挖掘分析以及对极限思想方法的教学研究均有一定的实践
对于医药行业来说,政府指挥棒的方向不断在调整变化,每年都有大批新的政策出台,每年都可以说是“政策年”。尤其是随着新医改政策的不断推进,一致性评价、两票制、医药分家、医保限价、带量采购等政策暴风骤雨式落地,让行业面临新的机遇与挑战。本文基于敏捷能力视角,以HRS医药公司为案例研究对象,分析了案例企业在应对政策变动过程中实施的具体管理措施,提炼出其应对策略的五种能力,研究发现,认知、行动和制度化分别是
传统采用电场传感器实现电力安全距离预警的方法主要通过设定安全阈值来间接实现安全距离预警,但不同电压等级所对应的安全阈值不同,每次作业需要提前设定安全阈值,这样会给工作带来不便以及潜在的危险。因此,针对交流电场本文提出一种多电场传感器圆阵实现交流电场源定位的方法,并将此方法应用于电力安全预警领域,可直接计算出探测器与危险源的距离、仰角、方位角,且不受电压等级的影响。对定位原理、定位误差、传感器最优布