面向互联网新闻的文本聚类算法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:pjzh210427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年以来,随着中国移动互联网设备与传统新闻媒体行业不断深入融合和发展,新闻阅读的兴趣点由传统社交网络的短文本转向借助公众平台实时推送的新闻长文本,如何根据新闻内容划分类别然后准确地推送给用户成为新闻服务提供商的一个重点关注的问题。现阶段解决方式是首先在新闻文本收集初期使用人工手段进行类别标注,之后借助深度学习方法通过收集海量文本特征实现新闻自动化分类。海量文本特征收集过程首先需要依托强大的新闻内容服务;其次由于新闻具有实时性,文本特征库需要专业人员不定期维护。该方法虽然分类十分精确,但由于其运营成本过于昂贵,在社会应用中普及率不高。本文在对文本聚类技术发展和研究现状进行简要介绍的基础上,首先详细地阐述了基于不同实现方式的文本聚类技术,然后在借鉴前人工作成果和总结新闻文本特点的前提下,提出和设计了一种基于先验知识改进的AHK-P混合聚类算法,该算法的主要原理是首先通过先验知识为文本预先添加一定准确度的类别属性,然后结合文本类别属性和文本词汇特征对新闻文本实现双重约束以选取纯度较高子簇,继而围绕子簇进行文本聚类。(1)该算法通过分类词库先验知识和文本词汇特征分别构建文本的类别映射向量和文本表示向量;(2)借助凝聚层次聚类使用类别映射向量在类别角度粗划分文本数据集;(3)在粗划分后的各类中使用类别映射向量和文本表示向量优化提取初始质心;(4)结合类别映射向量和文本表示向量改进文本距离计算方法,通过K-means算法细划分文本数据集,提高文本聚类的准确性。AHK-P算法不仅具有传统H-K方法聚类准确、多种聚类方法优势互补的特点,而且具有初始质心提取方式灵活可变、聚类过程更加快速的新特点。通过互联网新闻的文本聚类实验结果对比分析,本文设计的新闻文本聚类方法在聚类质量方面与传统方法相比具有明显提升。
其他文献
农业产业链的发展有效推动了农业现代化。但是,我国是农业大国,传统农业基础较为浓厚,以产业链为切入点的农业现代化发展存在一些问题,特别是现代信息技术的发展为农业产业链
随着城市建设的繁荣也带来不少忧患 ,由于多方面的原因 ,我国的高楼巨厦大多存在消防隐患 ,总结高楼火灾的经验和教训 ,可为城市建设提供有益的参考借鉴。重庆中天大酒店火灾
在目前这个文化多元化的社会,培养学生的审美能力非常重要。音乐学科作为素质教育的重要组成部分,对于提高学生的审美能力,陶冶学生的情操具有不可忽视的作用。在初中音乐欣
<正>近几年来由于媒体的发达,我们听到很多的关于安全事故的新闻,比如:某中学生放学在过马路时被汽车夺去了生命;某幼儿园幼儿在洗手间滑倒而骨折;某动物园游客被老虎袭击;某
根据桩间土含水量与挤密效果之间关系,采用湿陷性系数,压缩系数等土工试验常规参数,计算DDC桩设计桩径、桩间距,以达到消除桩间土湿陷性,提高桩间土承载力等。
<正>20世纪末,杭州一位叫周武的小学老师,根据自己多年的跟踪调查,发现了一个耐人寻味的"第十名现象"。经媒体报道后,此现象引发了一场关于分数与成才关系的大讨论。"第十名
期刊
格非作为一名有着坚定知识分子写作立场的作家,从早期先锋到后来的创作转型,他紧贴现代知识分子的生活体验,一步步深入社会历史,对现代知识分子的生存困境展开探索。在格非的
英语写作是学习者必须掌握的四项基本技能之一,在初中的英语教学中也有着很重要的地位。然而,英语写作并没有受到足够的重视,其效果也并不让人满意。现阶段的写作教学以传统的结果教学法为主导,相对较为枯燥。这篇论文通过测试、调查问卷和访谈的形式,探究四方格写作法对英语写作教学的影响。研究问题有:1)四方格写作法对学生的写作质量的内容、结构和语言有何影响?2)四方格写作法对高水平和低水平学生写作质量的内容、结
氧化铝陶瓷熔点高,强度硬度大,耐磨性、耐腐蚀性、耐热冲击性和绝缘性优良,在复杂环境化学性能稳定,被广泛应用于航空航天、机械工业等领域。氧化铝陶瓷激光直接材料成形制造