动态向量的中文短文本聚类

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：xiafe

【摘要】

：

因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基

【作者】

：

金春霞周海岩

【机构】

：

淮阴工学院计算机工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2011年33期

【关键词】

：

短文本文本相似度动态表示向量文本聚类 K-MEANS算法 short text similarity between short text segmen

【基金项目】

：

江苏省科技攻关项目（No.BE2006357）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。

其他文献

动态向量的中文短文本聚类

其他学术论文