论文部分内容阅读
最近几年以来,随着中国移动互联网设备与传统新闻媒体行业不断深入融合和发展,新闻阅读的兴趣点由传统社交网络的短文本转向借助公众平台实时推送的新闻长文本,如何根据新闻内容划分类别然后准确地推送给用户成为新闻服务提供商的一个重点关注的问题。现阶段解决方式是首先在新闻文本收集初期使用人工手段进行类别标注,之后借助深度学习方法通过收集海量文本特征实现新闻自动化分类。海量文本特征收集过程首先需要依托强大的新闻内容服务;其次由于新闻具有实时性,文本特征库需要专业人员不定期维护。该方法虽然分类十分精确,但由于其运营成本过于昂贵,在社会应用中普及率不高。本文在对文本聚类技术发展和研究现状进行简要介绍的基础上,首先详细地阐述了基于不同实现方式的文本聚类技术,然后在借鉴前人工作成果和总结新闻文本特点的前提下,提出和设计了一种基于先验知识改进的AHK-P混合聚类算法,该算法的主要原理是首先通过先验知识为文本预先添加一定准确度的类别属性,然后结合文本类别属性和文本词汇特征对新闻文本实现双重约束以选取纯度较高子簇,继而围绕子簇进行文本聚类。(1)该算法通过分类词库先验知识和文本词汇特征分别构建文本的类别映射向量和文本表示向量;(2)借助凝聚层次聚类使用类别映射向量在类别角度粗划分文本数据集;(3)在粗划分后的各类中使用类别映射向量和文本表示向量优化提取初始质心;(4)结合类别映射向量和文本表示向量改进文本距离计算方法,通过K-means算法细划分文本数据集,提高文本聚类的准确性。AHK-P算法不仅具有传统H-K方法聚类准确、多种聚类方法优势互补的特点,而且具有初始质心提取方式灵活可变、聚类过程更加快速的新特点。通过互联网新闻的文本聚类实验结果对比分析,本文设计的新闻文本聚类方法在聚类质量方面与传统方法相比具有明显提升。