大数据环境下文本聚类与摘要提取

被引量 : 2次 | 上传用户：rkn7621278

【摘要】

：

随着大数据时代的到来,基于海量信息的数据挖掘技术研究的重要性日益提高。数据挖掘,本质上是从海量的数据中发现一些隐藏的、有意义的规律,从而挖掘出有价值的信息,为用户的

【作者】

：

孟繁宇

【发表日期】

：

2015年01期

【关键词】

：

聚类特征提取网格划分摘要抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,基于海量信息的数据挖掘技术研究的重要性日益提高。数据挖掘,本质上是从海量的数据中发现一些隐藏的、有意义的规律,从而挖掘出有价值的信息,为用户的决策提供支持。聚类是数据挖掘中的关键部分,属于静态数据分析的一门技术,与分类技术不同,在机器学习中,聚类是一种无指导学习,应用非常广泛。摘要提取问题在特征抽取后,经过文本向量化也可以转化为聚类问题。本课题将对各种聚类方法进行研究和改进,并将聚类问题扩展到摘要提取问题。论文的主要工作包括以下几个方面：对于聚类,目前主流的方法主要分为三类,基于层次的聚类算法,基于划分的聚类方法以及基于网格和密度的聚类算法。本课题对其中两类进行了改进。首先针对基于层次聚类时间复杂度高的问题,对层次聚类算法进行了改进,提出了基于最大堆的算法,优化了聚类效率。之后对基于网格和密度的经典聚类算法CLIQUE进行了改进。CLIQUE将数据空间划分成网格单元,以对网格单元的合并操作取代了对数据点的操作,提高了聚类效率。但是该方法忽略了网格内部的数据分布,从而导致了聚类质量的降低。本课题针对CLIQUE的缺点进行改进,提出了基于网格二次拆分的CBMG聚类方法,后续实验证明了CBMG方法的有效性。聚类问题的应用非常广泛,基于检索词的摘要提取问题也可以当做聚类问题来处理。摘要提取主要分为提取式摘要抽取和合成式摘要抽取,本课题主要使用抽取式的摘要提取方法,找到句子的主要特征并进行向量化。特征主要包括对检索词进行查询扩展产生的特征、检索词命中的文档进行特征提取找出的相应特征词、句子位置、句子长度以及标题词信息等五个维度,将多文本摘要句提取问题转化为聚类问题,使用类似于层次聚类的方法对摘要句子进行抽取并进行去冗余,取得了良好的效果。

其他文献

再生混凝土现状

通过对国内外文献的分析与研究,对再生骨料混凝土技术开发与研究的最新进展进行了综述与对比分析。最后提出了再生混凝土应用于钢网构架混凝土结构的前景。

期刊

再生混凝土研究现状钢网构架混凝土结构

CNG单燃料发动机电控系统开发及应用研究

能源短缺和生态保护是21世纪人类面临的两大问题，以天然气为代用燃料的汽车，具有节能、减排、高效等优点而受到广泛应用。随着电子控制技术的发展，及对天然气汽车的推广使用，对压

学位

压缩天然气发动机判缸闭环自学习恒速控制

日照渔家乐时空演进研究

日照渔家乐度假区,是中国最大的民俗旅游基地,是根据当时的旅游市场开发的需要而兴起的,所以对日照渔家乐的研究具有重要意义。本文即以日照市为案例,从地理学时空演进的视角

学位

日照市渔家乐时空演进驱动机制

苏霍姆林斯基道德教育思想研究

瓦·阿·苏霍姆林斯基(1918-1970)是前苏联著名的教育理论家和教育实践家。在长期的教育实践活动中,逐步形成了一整套属于自己的教育思想体系。他生前是乌克兰共和国的功勋教

学位

苏霍姆林斯基道德教育思想研究

中小企业集合票据违约风险研究

随着我国市场经济的不断发展，中小企业作为市场经济中的一支力量日益发展壮大。2012年我国工业企业总数为343,769个，其中中型企业数为53,866个，小型企业数为280,455个，中小企业总

学位

中小企业集合票据违约现状违约风险防范完善建议

益肾活血汤治疗腰间盘突出（肝肾亏虚型）的临床研究

目的:通过研究益肾活血汤与杜仲丸在医治肝肾亏虚型的腰椎间盘突出症的具体效果,对比两者的差异,探讨益肾活血汤的临床应用的价值所在,发掘有效证据为该方药合理应用寻求支撑

学位

益肾活血汤腰椎间盘突出症肝肾亏虚型

大蒜播种机播种机构设计

我国大蒜种植面积、生产量和出口量均位居世界首位,但是大蒜种植在我国主要依靠人工点种,不但种植效率低而且劳动强度大。为了使蒜农摆脱繁重的体力劳动,提高大蒜播种效率,本

学位

大蒜播种机种植机构试验

《关于中国初等教育改革现状及问题点的考察—以素质教育为中心》的翻译实践报告

理论来源于实践并反过来服务于实践,任何实践活动都需要在理论的指导下才能得到落实。翻译实践活动也不例外,不同的文本类型其理论支撑也各不相同。本次翻译实践所选的《关于

学位

动态对等翻译理论词汇的翻译句子的翻译

《狼》教学设计

期刊

教学设计《狼》

纸媒与微信融合的策略研究

随着传媒技术的不断发展,媒介融合时代已经到来,一方面新媒体在迅速崛起,另一方面纸媒等传统媒的发展体则停滞不前。纸媒借力微信等新媒体实现融合发展已是大势所趋。而手机

学位

纸媒微信公众平台今日女报媒介融合

大数据环境下文本聚类与摘要提取

其他学术论文