基于深度学习的不文明文本过滤方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:toofar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网络社交平台已经深深的融入了人们的生活。人们可以自由的在微博、贴吧、新闻等网络平台上发表自己的观点。由于网络平台的开放性,网络平台中出现了很多不文明的语言,对网络环境造成了极大的负面影响。为了构建和谐的网络语言环境,本文对不文明文本的过滤进行了相关研究。针对网络文本数量巨大和形式多变的特点,本文将深度学习技术应用于不文明文本的分类识别。对比传统的过滤方法在分类识别的精度上取得了一定的提高。本文的主要工作包括以下三个部分:第一,构建不文明文本数据集。目前对网络不文明文本的研究工作相对较少,没有标准的不文明文本数据集可供研究。针对数据匮乏的问题,本文爬取新浪微博、百度贴吧、腾讯新闻等相关网络平台的文本数据,制定数据筛选方法,通过人工标注的方式构建了一个不文明文本数据集。第二,构建不文明文本分类模型,区分不文明文本和正常文本。根据网络不文明文本的特点,引入卷积神经网络对不文明文本进行分类。针对不文明词汇在文本分词过程中精度不足的问题,本文构建了一种融合字粒度和词粒度特征提取的并行卷积神经网络模型(CW-CNN模型)。CW-CNN模型很好的解决了不文明词汇分词不准确导致的性能下降问题。CW-CNN模型对比词粒度特征输入的卷积神经网络模型,在精确率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第三,构建不文明文本不文明程度分析模型,区分不文明程度高的文本和不文明程度低的文本。卷积神经网络模型在不文明文本分类任务上确实具有较好的效果,但是其在特征提取的时候受到卷积核大小的影响,只能提取文本的局部特征,无法捕获长距离词语之间的特征相关性,在不文明文本的不文明程度分析任务上卷积神经网络存在一定的不足。针对其不足,本文结合卷积神经网络、循环神经网络和注意力机制构建了一种用于不文明文本不文明程度分析的深度学习模型(BiLSTM-CNN模型)。通过实验对比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精确率、召回率和F1值上均提高了约3.4%。
其他文献
介绍了笔者成功荣获立项的中国职教学会2012—2013年度科研规划课题的立项意义、拟解决的关键问题、预期的成果、特色与创新之处等,对其他课题的申报具有引领、示范、参考作用
监督、执纪、问责,是纪检监察工作的基本职责和重要特点,正确运用好“四种形态”、强化日常监督、突出政治监督,是纪检监察工作的主要方式和基本要求。$$目前基层人民银行纪检监
报纸
在威宁自治县盐仓镇营洞村的乌江源头,石缸洞周边青山如黛,高大的核桃树和樱桃树在微风中摇曳,潺潺的流水声和着虫鸣鸟叫,让这个村庄焕发出勃勃生机。2006年,贵州日报记者李
为了精准指导教学实践,促进教师专业化发展,吉林省教育学院基于树立典型的引领作用,注重学科教学新秀、教学精英的挖掘,以主题式教研为切入点,推动了基层教学研究的创新和发展。$$
报纸
中国的文学伦理学批评研究经过十多年的发展,其理论体系建构日趋完善,越来越多的学者加入到文学伦理学批评的研究队伍中,文学伦理学批评也逐渐被西方学界所接受,开始走出国门
传承百年邮储的历史血脉,踏着在改制中整装出发的年轻步伐,中国邮政储蓄银行北京分行于11月28日迎来了她七周岁的生日。时序更替,岁月如歌。从2007年11月28日至今的2500多个
对2A12铝合金试件引入激光冲击强化工艺,借助无损应力测试与三坐标测试技术分析试件表面残余应力场与表面形变量的分布特点,并研究应力循环下的残余应力松弛特性。结果表明,激光
《国际金融》课程是一门应用型经济理论学科,是从货币金融的角度研究开放经济下一国内部均衡和外部均衡同时实现的一门学科,这种开放性的教学内容需要开放性的教学形式——双
目的:观察毫刃针配合拔罐放血分型治疗急性腰扭伤的疗效。方法:将80例急性腰扭伤患者随机分为治疗组和对照组各40例,治疗组按骨关节型、韧带型、肌肉型和混合型分型,采用毫刃