论文部分内容阅读
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查