文本挖掘中聚类技术的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:ldpjk77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet的大规模普及和企业信息化程度的不断提高,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。快速高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航、浏览机制,改善检索性能。因此,文本聚类技术的研究已成为文本信息挖掘中的一个非常重要的领域。 文本聚类通过对文本内容进行分析,将原始文本集分成若干个簇,同时要求簇内的文本相似性尽可能大,而簇之间的文本相似性尽可能小。现在已经有许多的文本聚类方法被提出来,这些方法大多都是基于向量空间模型,根据某个距离函数或余弦相似度函数计算文本之间的相似度,然后把距离相对近或相似度高的文本聚到同一个簇中。 针对文本数据集高维稀疏的特点,本文引入了频繁项集的概念,提出一种新的基于频繁项集的文本聚类算法。该算法将文本集中的每个文本看作一个事务,把每个文本所包含的词项作为该文本所对应事务的项。对于给定的最小支持度阈值,算法首先使用频繁项集挖掘算法来找出事务中所有的频繁项集,然后根据这些频繁项集进行文本聚类。本文提出的算法能够克服文本数据高维、稀疏的特点,而且不需要事先给定簇的个数。同时,聚类结果中的每个簇都和一个频繁项集相对应,频繁项集中的所有项为该簇提供了一个准确的描述信息。最后,公共数据集上的比较实验说明了该算法能够取得比其它文本聚类算法更好的聚类质量。
其他文献
随着手机网络软件开发与应用规模的不断扩大,手机网络软件的质量显得尤为重要。而软件测试是提高软件质量的重要手段之一。手机网络软件是基于移动应用协议开发的软件,协议实
随着计算机图形学、虚拟现实、分布式计算、分布式仿真和网格三维游戏等相关学科的发展,对建模方法也提出了更高的要求:不仅要求模型在图形上高度逼真、具有实时响应能力,而且也
集成了传感器、嵌入式计算、网络和无线通讯技术而成的无线传感器网络是一种全新的信息获取和处理技术,无线传感器网络可以自组织网络拓扑结构,节点间通过协同工作能够实时监测
数字签名是当前信息安全领域的研究热点,它是一种具有消息完整性认证、可鉴别性、不可否认性和具有加密功能的技术。其中,有一类数字签名我们称之为面向群体数字签名,在它的
XML自从1998年由W3C提出以来,就迅速的成为Internet上用于数据表示和数据交换的标准。XML文档大量涌现,XML的有效管理受到广泛关注。由于XML数据具有不同于传统数据形式的树
随着面向对象软件开发技术的广泛应用,面向对象的测试技术成为研究的热点问题。由于模型在软件设计和开发中得到普遍应用,基于模型的软件测试越来越受到人们的关注。基于模型的
随着现代软件工程的发展,基于软件构件复用的系统开发方法成为当前研究热点之一,而构件库管理系统作为对该软件开发过程提供支持的重要设施也被广大研究人员所关注。随着领域开
游戏引擎是一个处理游戏底层技术的平台,使用游戏引擎,游戏开发人员可以不用花过多精力去处理系统架构、图形处理等一些底层的技术,可以直接使用引擎提供的API来进行游戏开发。2
网格计算作为下一代Internet的一种计算模式,其核心任务是管理分布在Internet广域环境中的各种类型的软硬件资源,为基于Internet的分布式应用提供一个统一的、虚拟的共享资源
计算机流程管理技术已广泛应用于多个领域,随着Internet技术的发展及面向服务思想的兴起,流程的使用人群更加广泛,其个性化服务需求迅猛增长,传统的流程模式遇到了新的挑战。