论文部分内容阅读
随着大数据时代的到来,基于海量信息的数据挖掘技术研究的重要性日益提高。数据挖掘,本质上是从海量的数据中发现一些隐藏的、有意义的规律,从而挖掘出有价值的信息,为用户的决策提供支持。聚类是数据挖掘中的关键部分,属于静态数据分析的一门技术,与分类技术不同,在机器学习中,聚类是一种无指导学习,应用非常广泛。摘要提取问题在特征抽取后,经过文本向量化也可以转化为聚类问题。本课题将对各种聚类方法进行研究和改进,并将聚类问题扩展到摘要提取问题。论文的主要工作包括以下几个方面:对于聚类,目前主流的方法主要分为三类,基于层次的聚类算法,基于划分的聚类方法以及基于网格和密度的聚类算法。本课题对其中两类进行了改进。首先针对基于层次聚类时间复杂度高的问题,对层次聚类算法进行了改进,提出了基于最大堆的算法,优化了聚类效率。之后对基于网格和密度的经典聚类算法CLIQUE进行了改进。CLIQUE将数据空间划分成网格单元,以对网格单元的合并操作取代了对数据点的操作,提高了聚类效率。但是该方法忽略了网格内部的数据分布,从而导致了聚类质量的降低。本课题针对CLIQUE的缺点进行改进,提出了基于网格二次拆分的CBMG聚类方法,后续实验证明了CBMG方法的有效性。聚类问题的应用非常广泛,基于检索词的摘要提取问题也可以当做聚类问题来处理。摘要提取主要分为提取式摘要抽取和合成式摘要抽取,本课题主要使用抽取式的摘要提取方法,找到句子的主要特征并进行向量化。特征主要包括对检索词进行查询扩展产生的特征、检索词命中的文档进行特征提取找出的相应特征词、句子位置、句子长度以及标题词信息等五个维度,将多文本摘要句提取问题转化为聚类问题,使用类似于层次聚类的方法对摘要句子进行抽取并进行去冗余,取得了良好的效果。