基于改进RI方法的文本聚类

来源 :南昌大学学报:理科版 | 被引量 : 0次 | 上传用户:xx63394965
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
旨在通过考虑特征词汇的潜在语义和自身的重要性来提高文本聚类效果,研究基于RI方法的文本向量表示方法。首先,对基于RI方法构建的特征词汇随机索引向量中+1和-1向量元素出现位置进行约束,以避免在构建特征词汇上下文向量时可能造成该特征词汇潜在语义丢失现象;其次,在生成文本向量时考虑特征词汇自身重要性来改进权值的计算;最后,在测试数据上对基于RI方法的文本向量表示进行聚类效果测试与对比分析,结果表明采用基于RI方法能提高文本聚类效果。
其他文献
随着热电材料与薄膜制备技术和性能研究手段的发展,具有高热电性能的纳米超晶格热电薄膜已受到人们的关注。简要介绍了超晶格热电薄膜的理论研究、制备和分析测试技术,指出了
随着我国对环境保护的愈发重视,天然气在能源中的地位越来越重要,在能源消费中占比也逐渐增加;并且随着科技的发展,燃气的应用领域也在不断拓宽,这些都使得我国对天然气的需
<正> 非电起爆系统在露天矿深孔多排微差爆破中,由于导爆管的传爆速度(1600~2000米/秒)远远小于爆破地震波在矿岩介质中的传播速度(3000~5000米/秒),所以,当爆区采取顺序起爆时
无线局域网采用的技术主要有窄频微波、扩频及红外线技术,扩频技术为主流.无线局域网目前有许多不同的标准,处于并存的状态;但从长远看,随着产品和市场的发展,它们将走向融合