文本挖掘中聚类技术的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户：ldpjk77

【摘要】

：

近年来，随着Internet的大规模普及和企业信息化程度的不断提高，各种文本资源以惊人的速度增长，导致信息搜寻困难和信息利用率低下。快速高质量的文本聚类技术可以将大量文本信息

【作者】

：

贺健

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2008年期

【关键词】

：

文本挖掘聚类技术企业信息化文本聚类高维稀疏频繁项集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着Internet的大规模普及和企业信息化程度的不断提高，各种文本资源以惊人的速度增长，导致信息搜寻困难和信息利用率低下。快速高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇，这种技术能够提供导航、浏览机制，改善检索性能。因此，文本聚类技术的研究已成为文本信息挖掘中的一个非常重要的领域。文本聚类通过对文本内容进行分析，将原始文本集分成若干个簇，同时要求簇内的文本相似性尽可能大，而簇之间的文本相似性尽可能小。现在已经有许多的文本聚类方法被提出来，这些方法大多都是基于向量空间模型，根据某个距离函数或余弦相似度函数计算文本之间的相似度，然后把距离相对近或相似度高的文本聚到同一个簇中。针对文本数据集高维稀疏的特点，本文引入了频繁项集的概念，提出一种新的基于频繁项集的文本聚类算法。该算法将文本集中的每个文本看作一个事务，把每个文本所包含的词项作为该文本所对应事务的项。对于给定的最小支持度阈值，算法首先使用频繁项集挖掘算法来找出事务中所有的频繁项集，然后根据这些频繁项集进行文本聚类。本文提出的算法能够克服文本数据高维、稀疏的特点，而且不需要事先给定簇的个数。同时，聚类结果中的每个簇都和一个频繁项集相对应，频繁项集中的所有项为该簇提供了一个准确的描述信息。最后，公共数据集上的比较实验说明了该算法能够取得比其它文本聚类算法更好的聚类质量。

其他文献

手机网络应用软件仿真测试环境开发技术研究

随着手机网络软件开发与应用规模的不断扩大,手机网络软件的质量显得尤为重要。而软件测试是提高软件质量的重要手段之一。手机网络软件是基于移动应用协议开发的软件,协议实

学位

手机网络软件测试TTCN-3被测系统适配器编码解码器

虚拟人建模及跑步运动控制技术的研究

随着计算机图形学、虚拟现实、分布式计算、分布式仿真和网格三维游戏等相关学科的发展，对建模方法也提出了更高的要求：不仅要求模型在图形上高度逼真、具有实时响应能力，而且也

学位

虚拟人运动控制逆运动学CCD算法

基于WSN的智能自动抄表系统设计

集成了传感器、嵌入式计算、网络和无线通讯技术而成的无线传感器网络是一种全新的信息获取和处理技术，无线传感器网络可以自组织网络拓扑结构，节点间通过协同工作能够实时监测

学位

无线传感器网络CC2430芯片Linux操作系统智能自动抄表系统

环签名及其应用的理论研究

数字签名是当前信息安全领域的研究热点,它是一种具有消息完整性认证、可鉴别性、不可否认性和具有加密功能的技术。其中,有一类数字签名我们称之为面向群体数字签名,在它的

学位

环签名基于身份签名门限环签名常数大小的环签名并发签名

基于结构连接的XML查询处理与研究

XML自从1998年由W3C提出以来,就迅速的成为Internet上用于数据表示和数据交换的标准。XML文档大量涌现,XML的有效管理受到广泛关注。由于XML数据具有不同于传统数据形式的树

学位

XMLXPath编码方法过滤结构连接

基于UML和Petri网的软件测试模型的研究与应用

随着面向对象软件开发技术的广泛应用，面向对象的测试技术成为研究的热点问题。由于模型在软件设计和开发中得到普遍应用，基于模型的软件测试越来越受到人们的关注。基于模型的

学位

UMLPetri网软件测试模型面向对象软件开发形式化语义

面向领域的构件库管理系统的研究与实现

随着现代软件工程的发展，基于软件构件复用的系统开发方法成为当前研究热点之一，而构件库管理系统作为对该软件开发过程提供支持的重要设施也被广大研究人员所关注。随着领域开

学位

构件模型构件校验构件推荐度领域构件构件库管理系统

2D游戏图形引擎系统的研究与实现

游戏引擎是一个处理游戏底层技术的平台，使用游戏引擎，游戏开发人员可以不用花过多精力去处理系统架构、图形处理等一些底层的技术，可以直接使用引擎提供的API来进行游戏开发。2

学位

游戏引擎2D游戏图形引擎系统图像绘制

基于移动Agent的网格资源发现机制的研究

网格计算作为下一代Internet的一种计算模式,其核心任务是管理分布在Internet广域环境中的各种类型的软硬件资源,为基于Internet的分布式应用提供一个统一的、虚拟的共享资源

学位

网格LDAPAgent资源发现

面向智能流程的个性化需求获取方法研究

计算机流程管理技术已广泛应用于多个领域,随着Internet技术的发展及面向服务思想的兴起,流程的使用人群更加广泛,其个性化服务需求迅猛增长,传统的流程模式遇到了新的挑战。

学位

智能流程界面自动生成领域本体个性化交互模型

文本挖掘中聚类技术的研究

其他学术论文