论文部分内容阅读
随着移动互联网技术的日趋成熟,网络自媒体平台迎来发展热潮。用户对于资讯信息需求的不断提高促使网络自媒体平台呈现多样化发展,从单纯地发布新闻资讯扩展到提供生活、娱乐、社会、财经等各方面内容。相比于传统媒体,网络自媒体平台具有较高的自主性,言论尺度相对宽松。与此同时,由于自媒体平台的进入门槛较低,导致其中的文章良莠不齐。若不能对文章进行有效筛选,很可能造成错误的舆论导向。对待发布文章进行内容审核,剔除其中包含低质量信息的文章,以确保营造积极向上的阅读环境是目前各网络自媒体平台面临的关键问题。然而,在当下的信息爆炸时代,每天产生的资讯文章可达百万篇。显然,采用传统的人工审核方式不仅产生的人力资源成本较高,而且无法在保证信息时效性的同时达到较为理想的效果。因此,采用机器审核的手段对文章进行检测是解决上述问题的关键方法。本文设计的文章内容低质量审核系统采用机器学习和深度学习的相关算法对文章进行审核。从文章的文字内容和图像内容着手,去检测文章是否符合规定。作者独立设计并完成了以下三个模块:(1)政治敏感审核模块提供对文章政治敏感程度的识别。比如文章内如含有描述危害国家社会安全稳定的内容时,则会被识别为政治敏感类文章。政治敏感审核模块采用机器学习相关算法模型进行识别。(2)低俗色情审核模块提供对文章低俗色情识别的功能。针对标题、内容和文章所附带的图片进行色情程度的识别,综合各识别结果得到一个总的低俗色情程度的预测。(3)广告营销审核模块提供对文章是否是广告营销文的识别。在识别过程中,会对文章文字内容进行是否是广告营销文的识别,同时对文章内附带的图片进行检测是否存在宣传广告的矩阵式二维码(QRCode)。文章内容低质量审核系统被应用于针对网络自媒体发布文章的审核。线上测试结果表明,在文章内容低质量审核系统应用上线之后,各类违规文章的数量相较于系统上线之前,数量明显减少,从而改善了阅读环境,从而达到了本系统的设计目的。