文章内容低质量审核系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:cxb632552353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的日趋成熟,网络自媒体平台迎来发展热潮。用户对于资讯信息需求的不断提高促使网络自媒体平台呈现多样化发展,从单纯地发布新闻资讯扩展到提供生活、娱乐、社会、财经等各方面内容。相比于传统媒体,网络自媒体平台具有较高的自主性,言论尺度相对宽松。与此同时,由于自媒体平台的进入门槛较低,导致其中的文章良莠不齐。若不能对文章进行有效筛选,很可能造成错误的舆论导向。对待发布文章进行内容审核,剔除其中包含低质量信息的文章,以确保营造积极向上的阅读环境是目前各网络自媒体平台面临的关键问题。然而,在当下的信息爆炸时代,每天产生的资讯文章可达百万篇。显然,采用传统的人工审核方式不仅产生的人力资源成本较高,而且无法在保证信息时效性的同时达到较为理想的效果。因此,采用机器审核的手段对文章进行检测是解决上述问题的关键方法。本文设计的文章内容低质量审核系统采用机器学习和深度学习的相关算法对文章进行审核。从文章的文字内容和图像内容着手,去检测文章是否符合规定。作者独立设计并完成了以下三个模块:(1)政治敏感审核模块提供对文章政治敏感程度的识别。比如文章内如含有描述危害国家社会安全稳定的内容时,则会被识别为政治敏感类文章。政治敏感审核模块采用机器学习相关算法模型进行识别。(2)低俗色情审核模块提供对文章低俗色情识别的功能。针对标题、内容和文章所附带的图片进行色情程度的识别,综合各识别结果得到一个总的低俗色情程度的预测。(3)广告营销审核模块提供对文章是否是广告营销文的识别。在识别过程中,会对文章文字内容进行是否是广告营销文的识别,同时对文章内附带的图片进行检测是否存在宣传广告的矩阵式二维码(QRCode)。文章内容低质量审核系统被应用于针对网络自媒体发布文章的审核。线上测试结果表明,在文章内容低质量审核系统应用上线之后,各类违规文章的数量相较于系统上线之前,数量明显减少,从而改善了阅读环境,从而达到了本系统的设计目的。
其他文献
本文主要在多元线性回归模型下,研究了不同响应值以及不同的临界值的选取对两个总体分类问题的影响。首先我们取判别规则中的临界值为响应值的均值及中点,并在这两种情况下,
以β-大马酮为囊芯材料,明胶和羧甲基纤维素钠(CMC)为壁材,通过复凝聚法制备了β-大马酮微胶囊。以单因素试验为基础,通过正交试验优化了β-大马酮微胶囊制备的工艺条件。确
目的:本研究拟通过建立甲基化敏感性高分辨率溶解曲线法(MS- HRM)检测血管内皮生长因子VEGF受体KDR基因启动子区域在不同时期血管瘤、血管畸形及正常皮肤组织等中的甲基化状
布鲁氏菌病(Brucellosis)是由布鲁氏菌(Brucella)引起的一种人畜共患的全身性传染病。布鲁氏菌的宿主范围主要包括家畜、野生动物和人等,该病的临床症状为长期发热、多汗、流产与
英国简氏防务网站2013年12月15日报道,俄罗斯在其西部地区部署了一部2986“集装箱”天波超视距雷达。该雷达发射频率为3MHz~30MHz,具有3000km的探测距离,方位覆盖240°,
分析了高校针对少数民族学生开展创业教育的意义,认为高校对少数民族学生进行创业教育是少数民族地区经济发展的需要,对少数民族学生核心竞争力的培养及就业率的提升具有重要
辩诉交易制度是一种能够利用有限的司法资源,有效地提高司法效率并且保证一定公正的刑事简易程序。辩诉交易制度起源于19世纪的美国,在美国当时特有的历史背景与社会矛盾中而
为了解居民健康饮食状况,促进粮食加工业供给侧改革,提升国家粮食安全水平,本研究在全国27个省、自治区、直辖市进行了粮食产品消费行为调查,获取2818个有效样本。通过样本描
社会主义协商民主是党领导人民在长期的政治实践和理论探索中提出的,它通过别具一格的实践原则不断丰富着人民民主的价值内涵,为广大人民群众参与公共决策和社会治理搭建了广