【摘 要】
:
对不平衡数据集进行正确地分类并且提高少类样本分类性能的问题被称作不平衡数据集分类问题,该问题在近年来引起了研究者们的注意。这个问题可以大致被描述为:被称作少数类的类别拥有比称作多数类的类别少的多的样本数。并且当前的有关算法主要将重点放在采样和构造分类器的任一阶段,几乎没有人去结合这两个阶段来进行综合研究。除此之外,数据的不平衡的问题也存在在当前的许多实际应用中,影响着工业生产和生活。针对以上问题本
论文部分内容阅读
对不平衡数据集进行正确地分类并且提高少类样本分类性能的问题被称作不平衡数据集分类问题,该问题在近年来引起了研究者们的注意。这个问题可以大致被描述为:被称作少数类的类别拥有比称作多数类的类别少的多的样本数。并且当前的有关算法主要将重点放在采样和构造分类器的任一阶段,几乎没有人去结合这两个阶段来进行综合研究。除此之外,数据的不平衡的问题也存在在当前的许多实际应用中,影响着工业生产和生活。针对以上问题本文提出了一种被称作“基于合成少数过采样技术的FORF-SMOTE(Focus Online Random Forest-SMOTE,聚焦在线随机森林)”的分类算法。该算法可被简称为FORF-S。并且将简单高效的合成少数过采样技术成功应用到司法项目中。为了提高不平衡数据的分类性能并且在实际项目中解决存在的不平衡数据问题,本文主要做了以下工作:(1)针对当前存在的不平衡数据集分类技术大多数只将重点放在采样阶段或分类模型训练阶段的局限性问题。本文提出了一种将两个阶段结合在一起的方法。提出了在采样阶段以少类样本为焦点进行少类样本的过采样以及对其周边多类样本进行筛选构造一个新样本集,然后利用新样本集和原始样本集分别构造在线随机森林,最终将两个在线随机森林结合起来进行预测。实验证明这种方法在多个数据集上和当前主流方法相比都呈现出了优越性。(2)针对当前司法项目中涉及到的涉诉信访分类问题,以及各案件类型中存在的信访案件比例和非信访案件比例不平衡的现象,利用了高效的合成过采样技术对信访数据进行过采样后再进行后续的分类算法的构建,并且通过实验对比证实该技术可有效应用在司法项目中并取得性能的显著提升。
其他文献
背景和目的肾癌是全世界发病率第七的恶性肿瘤,每年死亡人数超140000人,严重威胁人类的生命健康。目前,由于晚期肾癌传统化疗不明感性,针对于肾癌的药物治疗的靶向药物层出不穷,但对患者的生存改善仍然不足。在近20年来,对于晚期肾癌的治疗主要集中在对靶向治疗的研究上。LIFR作为作为白血病抑制因子的受体,参与了白细胞介素-6(IL-6)细胞因子家族的信号转导过程,在乳腺癌、肺癌、黑色素瘤等癌症研究中均
研究背景结核病(tuberculosis,TB)是目前年致死人数全球排名第一的感染性疾病,由结核分枝杆菌(Mycobacterium tuberculosis,MTB)感染引起,主要侵袭肺部。2016年,据世界卫生组织(World Health Organization,WHO)统计,结核致死人数高达167万,新增感染人数高达1040万。同时耐药结核菌的感染持续威胁着人类健康,2016年新出现的耐
阿尔茨海默症(Alzheimer’s Disease,AD)是一种引起老年人群痴呆最常见的渐进性不可逆性中枢神经系统退行性脑病,其典型临床症状为记忆、语言及影响一个人进行日常活动的认知功能的障碍。随着人们寿命的延长,痴呆患者数量正急剧增加,带来了极大的家庭及社会经济负担。目前AD的发病机制尚未明确,主要致病假说为:Aβ毒性假说、胆碱能缺乏假说、Tau蛋白代谢异常等。AD的病理特征包括神经元丢失、胞
目的:肝脏是一个功能复杂多样的器官,其功能的正常发挥对机体存活有着重要的作用,当肝脏因慢性损伤导致大量的肝细胞被破坏和肝细胞自身的增殖能力受到抑制时,肝卵圆细胞的增殖和分化功能在肝脏的再生修复过程中有着极其重要的作用。肝脏的慢性损伤还会导致肝纤维化的发生,肝纤维化又可能进展为肝硬化,甚至肝癌。课题组之前的实验表明,使用二乙基亚硝胺(DEN)诱导肝脏受损后,Tip30基因敲除小鼠肝脏的重量较野生型的