论文部分内容阅读
随着国家推行“互联网+”政策,不少产业都开始互联网化,电商化。线上购物已经成了人们生活中必不可少的一部分。很明显,线上购物的优点是简单,便捷,买家足不出户就可以购买到心仪的商品,然而,其缺点也很显而易见,那就是买家无法直接接触到商品并对商品作出直观判断。为了解决这一问题,各大电商推出商品图片来展示商品信息,消费者通过图片不仅可以了解到商品的外观,更能通过图片上面添加的文字获取到商品的规格参数。商品图片虽然给消费者带来了便利,但同时也给电商网站的管理者带来了技术上的挑战。具体问题有两点:第一,有很多店铺违反规范规定,发布违规商品图片。最常见的问题是,商品信息图片中的内容和商品规格参数中的内容不一致。第二,采用图片的方式来规避对敏感或违禁词的检测。为了解决以上问题,并且方便监管部门对违反规定的商品图片信息进行有效监管,本文着力于设计一款基于CNN的电子商务商品图片中文字检测与识别系统。首先,本文对电子商务网站商品图片进行采集,将采集数据分为训练样本和检测样本。先对训练样本进行人工分析,然后对所有样本进行灰度化预处理。接下来,由于商品图片背景的复杂性,本文选择了一种健壮性较强,适用范围广的文本定位算法,该算法由AdaBoost和CAMSHIFT算法相结合完成。最后进行最重要的文本识别。在这一部分,本文从识别方法上提出了两种改进CNN文本识别方法,并对实验结果做了识别率的评估。最后的章节中,本文设计并实现了商品图片识别系统并从时间和空间上对系统做出性能评价。