论文部分内容阅读
资讯阅读类终端给用户的获取知识和信息以及传播观点提供了很大的便利,通过这种方式阅读资讯不仅方便快捷而且不受时间地点的限制。这类资讯阅读类客户端的发展的同时,也带动了各种形式的媒体的发展,从而极大程度上拓展了客户端文章的来源。文章来源的丰富,一方面带来了信息量的增加,另一方面也给文章质量的把控增加了难度。所以很容易会出现“标题党”、“低俗”、“虚假内容”等情况影响用户的体验的情况。用户每天花费在阅读资讯内容上的时间比较有限,所以在面对海量新闻文章时更好的做法是优先推荐相对热门、内容相对比较好能够吸引用户的新闻文章。因此,本文从热点话题挖掘和文章评估的两个角度展开研究,并且在研究研究过程中搭建新闻评估系统。本文将系统的介绍新闻评估系统的构建过程。首先,通过对热点话题挖掘和文章评估的研究意义和研究现状的分析,引出了新闻评估系统中的研究内容。随后,对新闻评估系统展开业务分析,明确系统的功能与性能需求,即针对每日新增的海量文章数据,能够收集、处理、整合好不同的特征数据,支持相关算法模型的使用,并且可以根据需求更新、恢复算法模型,最终通过服务的方式将评估的结果提供,为用户提供从数据收集整理、热点新闻挖掘、新闻评估以及评估结果展现服务的一站式服务。接下来,围绕需求分析的结果阐述新闻评估系统的详细设计与实现过程,其中热点话题挖掘和新闻评估是本文中研究重点。热点文章挖掘主要是采用了主题模型,但是在实际应用过程中主题模型对某些文章的挖掘效果不如人意。本文基于实际的应用场景,从业务的角度出发,结合生产环境中可以利用到的文章特征属性优化主题模型的挖掘效果。对于新闻评估,系统主要把评估设定为一个多分类问题,文中主要采取GBDT和XGBoost算法做为评估模型,通过实验对比优化和相关测试,把新闻评估系统的效果进行提升。系统将新闻评估的结果通过Thrift服务的形式进行提供,并且为了能够更好的提供服务,设计了多层Thrift服务,包括:数据服务、调度服务、调度监控服务。