论文部分内容阅读
随着信息时代的到来,人们被淹没在浩瀚如海的信息中。网络带来信息资源,但如何从中挖掘有用的知识成为一个需要研究、解决的问题。在人们日常接触的信息中,80%左右是以文本的形式存在的,因此文本挖掘受到越来越多的关注度,其中,文本聚类在现实生活和工作中得到较多应用,所以文本聚类方法有很大的研究价值。常用的文本聚类方法大多基于文本的向量空间模型表示,这种表示方法带来的问题是空间维度过高、稀疏性强,也没有考虑词语之间的语义信息,导致聚类精确度不高。针对这些问题,本文采用特征项提取和《知网》词汇语义相结合的方法,对文本集进行相似度计算和密度聚类处理。本文还采用蜂群算法来对文本聚类,基本蜂群聚类算法有两个缺陷:一是算法中蜜蜂初始位置的选择属于随机分配,这将导致初始值的设定不合理,而使算法步骤多次执行,降低工作效率;二是算法在执行后期容易陷入局部最优。改进的算法在初始阶段引入最大最小距离算法,使初始值设定合理化、初始点分布均匀;算法执行过程中加入K-均值算法,对蜂群算法搜索过程中每一次得到的聚类中心进行局部更新,获得更优的簇心;这样既加快算法运行步伐,也使算法更优和更具鲁棒性。论文选取复旦大学中文文本语料库中,随机抽取5个类别的500篇文本对算法进行实验,并利用聚类准确率、召回率和F度量对聚类结果进行评价。与基于VSM-的K-均值算法和结合语义改进的K-均值短文本聚类算法相比,在这些指标上都有所提高,结果值在80%左右,达到了文本聚类算法改进的目的,证明了算法的合理有效性。