论文部分内容阅读
多标签分类问题是数据挖掘领域的一个重要分支,因其应用领域的广泛被人们熟知,也是大数据时代的研究热点。传统中医症状-证型的辨证论治思想在中医界并未达成共识,各家仍以经验为主,主观性较强。为了科学化处理医师的诊断经验,将诊疗数据训练成一个客观的诊断模型,将多标签分类技术应用于中医失眠辨证分型研究当中。希望该方法能够帮到临床医者,凸显其价值。中医病案本身具有异质性、多样性、冗余性等特点,为了客观公正的描述患者病情症状,有必要对病案症状信息进行分级量化处理,并按照多标签数据规格记录整理,以备训练算法模型。算法模型采用改进KNN算法的多标签分类模型,并将多标签算法进行分类讨论,详细阐述各个算法的原理和步骤,并比较各算法之间的优缺点,为了验证该算法的适用数据集范围,将该算法运用到不同数据集领域当中,以证明该算法的普适性、高效性。针对传统的KNN算法学习的是周围相似数据分布情况,而贝叶斯方法学习的是数据的全局分布情况这一问题,将KNN与贝叶斯方法相结合,即多标签K近邻算法(ML-KNN),这样既很好的继承了二者的优点,又能克服因样本数据不均衡带来的影响。然而ML-KNN算法并没有考虑到:在样本空间中,随着近邻点到预测样本点距离的改变应该分配的权重也随之改变。针对这一缺陷,故提出对ML-KNN算法的改进,将其命名为RML-KNN算法。并将该算法运用到中医领域,取得了很好的效果,证明了由病例数据构建的算法模型可靠,将中医诊断失眠症过程向客观化、科学化道路推进一步。针对原失眠症数据集不均衡问题,我们所采用的解决方案是将每种证型一分为二,其一为主,另一为次,随之带来的问题就是部分次证样本数量太少,训练模型极其困难,也就无法完成数据的分类,故提出标签重组解决多标签不均衡的算法LRMI(Label Recombination to solve Multi-label Imbalance)。LRMI科学的运用信息熵来衡量数据集的不均衡程度,并且因子集中包含的标签个数不同而采用不同的标准,之后采用LRMI算法对原数据集进行拆分重组以构建均衡子集,这样才能适应多标签算法,最终得到实验结果。