大数据环境下文本聚类与摘要提取

被引量 : 2次 | 上传用户:rkn7621278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,基于海量信息的数据挖掘技术研究的重要性日益提高。数据挖掘,本质上是从海量的数据中发现一些隐藏的、有意义的规律,从而挖掘出有价值的信息,为用户的决策提供支持。聚类是数据挖掘中的关键部分,属于静态数据分析的一门技术,与分类技术不同,在机器学习中,聚类是一种无指导学习,应用非常广泛。摘要提取问题在特征抽取后,经过文本向量化也可以转化为聚类问题。本课题将对各种聚类方法进行研究和改进,并将聚类问题扩展到摘要提取问题。论文的主要工作包括以下几个方面:对于聚类,目前主流的方法主要分为三类,基于层次的聚类算法,基于划分的聚类方法以及基于网格和密度的聚类算法。本课题对其中两类进行了改进。首先针对基于层次聚类时间复杂度高的问题,对层次聚类算法进行了改进,提出了基于最大堆的算法,优化了聚类效率。之后对基于网格和密度的经典聚类算法CLIQUE进行了改进。CLIQUE将数据空间划分成网格单元,以对网格单元的合并操作取代了对数据点的操作,提高了聚类效率。但是该方法忽略了网格内部的数据分布,从而导致了聚类质量的降低。本课题针对CLIQUE的缺点进行改进,提出了基于网格二次拆分的CBMG聚类方法,后续实验证明了CBMG方法的有效性。聚类问题的应用非常广泛,基于检索词的摘要提取问题也可以当做聚类问题来处理。摘要提取主要分为提取式摘要抽取和合成式摘要抽取,本课题主要使用抽取式的摘要提取方法,找到句子的主要特征并进行向量化。特征主要包括对检索词进行查询扩展产生的特征、检索词命中的文档进行特征提取找出的相应特征词、句子位置、句子长度以及标题词信息等五个维度,将多文本摘要句提取问题转化为聚类问题,使用类似于层次聚类的方法对摘要句子进行抽取并进行去冗余,取得了良好的效果。
其他文献
通过对国内外文献的分析与研究,对再生骨料混凝土技术开发与研究的最新进展进行了综述与对比分析。最后提出了再生混凝土应用于钢网构架混凝土结构的前景。
能源短缺和生态保护是21世纪人类面临的两大问题,以天然气为代用燃料的汽车,具有节能、减排、高效等优点而受到广泛应用。随着电子控制技术的发展,及对天然气汽车的推广使用,对压
日照渔家乐度假区,是中国最大的民俗旅游基地,是根据当时的旅游市场开发的需要而兴起的,所以对日照渔家乐的研究具有重要意义。本文即以日照市为案例,从地理学时空演进的视角
瓦·阿·苏霍姆林斯基(1918-1970)是前苏联著名的教育理论家和教育实践家。在长期的教育实践活动中,逐步形成了一整套属于自己的教育思想体系。他生前是乌克兰共和国的功勋教
随着我国市场经济的不断发展,中小企业作为市场经济中的一支力量日益发展壮大。2012年我国工业企业总数为343,769个,其中中型企业数为53,866个,小型企业数为280,455个,中小企业总
目的:通过研究益肾活血汤与杜仲丸在医治肝肾亏虚型的腰椎间盘突出症的具体效果,对比两者的差异,探讨益肾活血汤的临床应用的价值所在,发掘有效证据为该方药合理应用寻求支撑
我国大蒜种植面积、生产量和出口量均位居世界首位,但是大蒜种植在我国主要依靠人工点种,不但种植效率低而且劳动强度大。为了使蒜农摆脱繁重的体力劳动,提高大蒜播种效率,本
理论来源于实践并反过来服务于实践,任何实践活动都需要在理论的指导下才能得到落实。翻译实践活动也不例外,不同的文本类型其理论支撑也各不相同。本次翻译实践所选的《关于
随着传媒技术的不断发展,媒介融合时代已经到来,一方面新媒体在迅速崛起,另一方面纸媒等传统媒的发展体则停滞不前。纸媒借力微信等新媒体实现融合发展已是大势所趋。而手机