基于图像特征及OCR的垃圾图像过滤方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：NMGYXK110

【摘要】

：

随着互联网的蓬勃发展,电子邮件成为人们日常交流的重要工具。人们在通过电子邮件接收大量有用信息的同时,也会接收到很多广告、色情、欺诈、木马甚至是反动的内容,这些不良

【作者】

：

袁赛杰

【出处】

：

南京理工大学

【发表日期】

：

2017年期

【关键词】

：

垃圾图像特征提取 KNN 短文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的蓬勃发展,电子邮件成为人们日常交流的重要工具。人们在通过电子邮件接收大量有用信息的同时,也会接收到很多广告、色情、欺诈、木马甚至是反动的内容,这些不良内容占用了大量的网络资源、增加了用户风险、降低了用户体验,属于垃圾邮件。目前,垃圾邮件由文本型逐渐发展为图像型和图像文本混合型,以往针对文本的垃圾邮件过滤方法研究较多,而针对图像的垃圾邮件过滤方法仍不尽人意。本文主要针对垃圾邮件中的垃圾图像过滤技术进行研究。本文设计了一种两层垃圾图像过滤方法,通过利用图像底层特征和OCR识别两种途径逐级筛选垃圾图像,在提高检出率的同时降低了误检率。根据采用的特征类型,该方法分为基于特征的过滤层和基于内容的过滤层。前者为第一层过滤,属于粗分类,利用图像的底层特征初步筛选出垃圾图像;后者为第二层过滤,属于细分类,利用垃圾图像中识别的文本内容来提取关键词并进行垃圾类别的分类。在基于特征的过滤层中,本文提出了基于置信度分析的KNN过滤方法。首先分析垃圾图像和正常图像的颜色、梯度以及HOG等图像底层特征;然后分析各特征KNN分类结果及置信度分布,通过置信度实现多特征分类结果的融合,降低误识率。在基于内容的过滤层中,本文首先设计了垃圾图像中文本的检测、分割和识别方法,针对垃圾图像中文本倾斜问题设计了基于傅立叶和投影的单字分割方法;然后提出了融入相对词频的卡方检验方法用于提取文本中的关键词特征,降低了低频词被选为特征的概率;最后设计了基于SVM及先验语料库的短文本分类方法,将垃圾图像进一步分类为犯罪、教育、保险和商品促销等几类。采用SPAM公共图像集和搜集整理的图像集上进行了实验分析和比较,结果表明本文两层垃圾图像过滤方法获得了比较理想的准确率和误识率。

其他文献

汽车零部件精密装配自动化技术的研究

汽车工业与国民经济发展总体水平的关系密不可分,基于汽车零部件精密装配的自动化生产关键技术研究,以精密零部件的定位和组装问题为中心向汽车工业的其他领域扩展。由于精密

期刊

精密零部件精密装配定位方法智能生产

一种针对GAN生成的天文图像评价方法研究

为定量评价使用生成对抗网络生成的恒星和星系图像的质量,提出了感知损失函数与Mode score相结合的双样本评价方法。通过对几种常用的生成图像定量评价方法的优缺点的分析以及对感知损失函数进行的改进,得到了能够定量评价生成图像多样性和视觉质量的双样本评价模型。为了验证提出方法的有效性,分别采用Inception score,Kernal MMD,Wasserstein distance及双样本评价方

期刊

生成对抗网络感知损失多样性恒星和星系图像Generative adversarial neural network(GAN)Perceptual los

中职学校“现代学徒制”人才培养研究

目前,“产教融合、校企合作”,进一步完善校企合作育人机制,提高技术技能人才培养质量,是当前推进人力资源供给侧结构性改革的迫切要求。在中等职业教育阶段开展“现代学徒制

学位

中职学校现代学徒制培养策略

GPS静态伪距方程代数解算法的研究

为了避免使用用户接收机的初始坐标信息和求导与迭代计算带来的复杂性,研究了一种GPS静态伪距方程的代数解算方法。通过直接求解伪距方程,有效简化了计算,在保证一定精度的前

期刊

全球定位系统(GPS)静态定位非线性伪距

基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有

学位

OCR蒙古文规则库语言模型错误校正

基于图像特征及OCR的垃圾图像过滤方法研究

其他学术论文