离群检测及其优化算法研究

被引量 : 0次 | 上传用户:cnfjwbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据集中,离群点是指那些相对于大量常规数据异常孤立的数据模式。在很多情况下离群点被认为是噪声而抛弃,但在实际应用中我们发现一些包含重要信息的数据往往就是离群点。离群检测就是利用统计学,机器学习,智能计算,可视化等多种技术来发现数据集中的离群点,供用户进行分析和处理。由于离群点可能蕴含重要知识,离群检测在预防电信和信用卡欺诈,医疗保险,市场分析,气象预测等领域有广泛的应用,相关研究将具有重要的学术和现实意义。然而面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常行为是一个具有挑战性的问题。本文尝试将聚类与分类方法用于发现数据集中的异常对象,同时研究离群检测相关的优化算法。我们提出了基于谱聚类以及RBF人工神经网络的离群检测方法,针对高维数据集定义了关键离群属性子集的概念并实现了属性约简来优化离群检测。主要工作和成果如下:①对谱聚类基本原理和典型算法做了较为全面的分析和研究,利用谱聚类的特性实现了在复杂数据集上的聚类。提出了一种改进的基于随机行走的谱聚类算法,该算法引入了密度敏感的距离量度来更精确地计算对象之间的相似性,并且通过计算随机矩阵相关特征值来自动确定数据集的最优聚类数。利用该算法获得的稳定聚类,是有效完成离群检测的前提。②首次将谱聚类用于离群检测,并通过定义扩展的多路剪切和分段常数特征向量证明了其可行性。提出了一种基于谱聚类的离群检测算法,该算法首先对数据集进行聚类,然后计算所有聚类中对象的离群因子并根据该值来确定离群点。在谱聚类过程中,利用共享邻居的邻接矩阵构造方法来获得较为稀疏的邻接矩阵,其特征向量可以用Lanczos算法来快速求解。③利用RBF人工神经网络来构造离群检测模型,该模型使用减法聚类来有效选择隐节点中心,同时获得更快的训练速度。网络训练过程中,在传统误差函数中加入了一个调整项,旨在消除隐层节点的波动。为每个输入样本定义离群度,在网络输出结果确定的情况下,可以根据离群度判断那些实际输出严重偏离其期望的样本为离群点。④针对在大型高维数据集中发现离群点效率不高的问题,我们引入粗糙集相关概念并提出了基于属性约简的离群检测方法。如果在某属性子集上得出的离群划分与在全属性集上得出的离群划分足够相似,则对于这样的数据集,可以直接在这些属性子集(即关键离群属性子集)上进行离群检测。此外,提出了高效的关键离群属性子集的查找方法,并通过实验验证了其有效性。
其他文献
新一轮房地产宏观调控政策涉及面更广泛、操作性更强、政策组合程度更高,已经一定程度上改变了房地产市场的生态环境。相对于大型房地产企业,数量庞大的中小型房地产企业无论
随着信息时代的到来,社会用人单位对大学毕业生在计算机能力方面的要求与日俱增,在工作中能够较好地应用计算机的能力已成为大学毕业生择业的必备条件。国内外信息技术教育实
<正>自1981年人类免疫缺陷病毒1型(HIV-1)被发现以来,尽管科研工作者在HIV感染的阻断及AIDS病毒治疗方面都取得了一些成绩,但尚未从疫苗角度解决HIV感染的问题,其瓶颈是没有
随着我国交通运输业的迅速发展,隧道及地下工程建设的数量越来越多,施工安全已经成为隧道建设中越来越突出的问题。风险管理、预警管理与监控量测作为保障隧道施工安全、指导
在语文教学中,写作教学既是重点又是难点,找出科学的教学方法来指导学生进行写作刻不容缓。为了让学生有话可说,勇于表达出自己的感情,教师要着重引导学生感受生活。教师在作
新四军是中国共产党领导的抗日武装力量两大主力之一,是在中国共产党提出的抗日民族统一战线的大背景下诞生的。从1937年底组建到1945年8月中国抗日战争胜利,新四军的统战实
人民政协的民主监督是我国监督体系的重要组成部分。改革开放以来,人民政协的民主监督职能进一步得到了加强,在监督的形式、内容和规范化等方面有了一定的进展。由于政协的民
税收遵从成本是纳税人为了履行其纳税义务而付出的所有费用的总和,其越高给纳税人带来的税收额外负担就越重。税收遵从成本意味着对社会资源的额外消耗,直接影响到纳税人的收
在饶河东北黑蜂国家级自然保护区饲养东北黑蜂50余年,"分区管理"是我经过长期研究探索,发明的一种简便、易行、省时、省工、高效、高产、新型的养蜂模式,具有创造性、实用性
目的探讨采取中医养生学行为干预方式对社区高血压患者血压、血糖、血脂、血肌酐等指标的影响。方法采用U1000网站管理模式,对广州市番禺区市桥街东片社区桥福居委(干预组,n=