混合采样方法的研究及其在医疗问答系统中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:csliu08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习与数据挖掘领域的迅速发展,不平衡数据集分类已经成为当前的研究热点之一。在实际应用中经常遇到数据集不平衡问题,比如:医疗诊断、欺诈检测、地震预测等,如何提高正类样本的分类精度是研究的重点。大部分分类算法往往会偏向负类,而对正类识别率却很低。在深入分析了不平衡数据处理方法及医疗问答系统的基础上,本文在二分类不平衡数据集上,提出了基于样本细分的混合采样算法(Hybrid Sampling Algorithm Based On Sample Subdivision),简称SS-HSA算法,并研究了该算法在医疗问答系统中的应用。本文主要内容包括:(1)详细分析了ENN(Edited Nearest Neighbor)欠采样、Borderline-SMOTE过采样、Random-SMOTE+ENN混合采样、ISMOTE过采样算法,为本文提出的SS-HSA算法提供理论基础。(2)基于样本细分的混合采样算法,本文在数据层面提出的SS-HSA算法结合了Borderline-SMOTE、ISMOTE过采样算法以及ENN欠采样算法的优点,同时加入了样本细分的思想。一方面,对生成的样本数量精细控制,提高正类样本生成的合理性;另一方面有效删除数据集中边界样本,使边界更加清晰。通过实验对比发现,这种组合方法对整体数据集以及正类的分类效果均优于单纯的Borderline-SMOTE、ISMOTE以及Random-SMOTE+ENN采样算法。(3)在医疗问答系统中,采用本文提出的SS-HSA算法,对数据集采样处理,使正负类答案数量均衡,并在此基础上进行模型训练和分类排序。实验结果表明,将此混合采样方法应用到该系统中,有效提高了医疗问答系统的精准判断能力。
其他文献
本文采用灰色关联分析与聚类分析相结合的方法,对十个产地黄连所含的四种生物碱的含量进行分析,得到不同产地黄连药用价值的高低排名及其分类,为今后黄连药效研究和相关药用
海淘方式购买多肉植物为我国植物检疫带来了挑战。植物检疫与植物贸易的冲突日趋加剧。检疫工作难度日趋加大。在植物检疫方面,阻止工作和预防工作同样重要。正确认识植物、
城市公共交通作为政府公共事业最重要的组成部分,与居民的日常生活息息相关,也是城市基础设施建设的重要环节。公共交通将城市内在的、城市与城市之间的政治、经济与文化很好
序章准备开工这本书最初发想的地点,是在一个颇为奢华的场所。一天,《哈泼》杂志的编辑路易斯?拉方(LewisLapham)带我到一家法式乡村风餐厅,讨论我未来可以替他们写些什么文
期刊
初创企业与风险投资之间会存在双向道德风险问题,考虑到创新的外溢效应,本文从可转换优先股的角度分析了政府补贴对初创企业以及风险投资的微观激励影响,并且进一步从产业层
中国共产党人在新中国的外交实践中长期使用"人民外交"的提法。随着越来越多的国家与新中国正式建立官方外交关系,政府间外交成为发展和推动国家间关系的主要形式,"民间外交"开始
通过研究学生的情感特点,分析了运用运动心理和教育心理使学生的年C得到更好的锻炼和发展的方法。
流行音乐的理论研究近年来呈上升趋势。但是由于流行音乐的风格性、个性化较强等特点,使学界对其中的诸多理论问题产生了争论,甚至对一些争论性的问题开始回避。这也造成很多
<正>每到年终,各项经营工作进入冲刺阶段,我们常常从基层邮政管理者口中听到"员工执行力不强"这样的抱怨。在笔者看来,执行力缺乏的原因是团队的执行力不强。执行力包含完成
期刊
本论文研究目的是调查不同类型的篮球投篮(头顶、钩球、上篮、扣篮、投篮)的使用成功频率,统计技术中的一些细节使用。通过对视频片段的5个不同级别的竞技篮球(美国篮球协会(