基于核的层次聚类算法研究

来源 :西安石油大学 | 被引量 : 0次 | 上传用户：sisi200713

【摘要】

：

聚类是数据挖掘和知识发现中的重要且有用的工具。由于层次聚类算法的运算速度快,输出结果容易解释,已在各种领域中广泛应用。本文针对层次聚类的不同使用场景(静态数据和流数据)对层次聚类算法提出优化改进方法。静态数据层次聚类方法中,应用最广泛是凝聚型层次聚类(AHC)。现有的基于距离度量的AHC方法存在一个关键问题:无论采用何种从树状图提取聚类结果的方法,都难以将具有不同密度的相邻簇分开。本文针对静态层次

【作者】

：

韩鑫

【机构】

：

西安石油大学

【出处】

：

西安石油大学

【发表日期】

：

2021年01期

【关键词】

：

层次聚类

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类是数据挖掘和知识发现中的重要且有用的工具。由于层次聚类算法的运算速度快，输出结果容易解释，已在各种领域中广泛应用。本文针对层次聚类的不同使用场景（静态数据和流数据）对层次聚类算法提出优化改进方法。
　　静态数据层次聚类方法中，应用最广泛是凝聚型层次聚类(AHC)。现有的基于距离度量的AHC方法存在一个关键问题：无论采用何种从树状图提取聚类结果的方法，都难以将具有不同密度的相邻簇分开。本文针对静态层次聚类确定了现有AHC方法产生上述问题的根本原因，并表明使用数据相关核函数（而不是距离度量）是解决此问题的有效方法；提出对现有的层次聚类算法（例如现有的传统AHC算法，HDBSCAN，GDL和PHA）使用孤立核这一数据相关核进行核化；在每种算法中，实验评估表明，与距离，高斯核和自适应高斯核相比，使用孤立核产生质量更高或更纯的聚类树。
　　在对流数据聚类时，现有的层次聚类算法通常会遇到诸如可扩展性低和无法克服刚性之类的问题而很难实时有效的处理大规模数据集。本文针对流数据层次聚类，首次在层次聚类中引入基于核函数的集合相似度，并进行了调整以使得提出的算法具有捕获新样本之间的动态相似性和检测密度不同的簇的能力；提出具有高效的层次结构更新机制（高效的新数据插入和旧数据删除算法）KERCH算法，可以在流数据场景下不断地实时维护高质量的层次聚类树；在多个基准数据集上的实验结果表明，KERCH比其他可扩展的层次聚类算法更准确，更快。

其他文献

基于双层图神经网络的miRNA-药物抗性关联预测研究

学位

基于生成对抗网络的无监督医学影像分割算法研究

学位

基于深度学习的智能合约漏洞检测方法研究

学位

基于区块链多种收费支付通道网络的路由框架

学位

基于BiLSTM和迁移学习的水质预测方法研究

学位

密度聚类算法在岩石图像中的研究与应用

随着人们生活质量和要求的不断提高,对石油和天然气的需求量也不断增加,易于开采和探明的油气藏早已探明或开发,因此需进一步探究蕴含在致密砂岩中的油气藏。苏里格气田处于鄂尔多斯盆地,其产气层主要为致密砂岩。由于地层岩石的微观结构决定着油气藏开采所呈现出的宏观性质,因此对致密砂岩宏观结构的了解和微观结构的研究对地质人员的后续开采气藏有着一定的帮助。本文的主要工作如下:为了将密度聚类算法更好的应用到岩石图像

学位

油气勘探

油井沉没度预测模型构建与曲线拟合求解算法研究

石油产业是国民经济的支柱产业,对我国经济和社会发展起着重要作用。在石油开采过程中,油井沉没度是衡量油井生产状况的重要指标,其高度直接影响抽油泵的工作效率。当抽油速度与沉没度不匹配时会降低油井生产效率,导致电能浪费。因此,实时掌握油井的沉没度状态,为制定合理的抽油方案提供理论依据,对提升我国油田国际竞争力及可持续发展能力具有重要意义。本文综合利用油井油层渗流特性等因素,构建了反映油层渗流状况的油井沉

学位

油气井

基于核的层次聚类算法研究

其他学术论文