一种增量式文本软聚类算法

来源 :西安交通大学学报 | 被引量 : 0次 | 上传用户:HOHOHO66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.
其他文献
目的对比分析经阴道子宫肌瘤剔除术(TVM)、腹腔镜下子宫肌瘤剔除术(LM)、经腹子宫肌瘤剔除术(TAM)的手术效果。方法选择我院2014年1月至2016年1月行子宫肌瘤剔除术的260例患者,按手