论文部分内容阅读
"天眼查"是一款提供了全面的企业信息查询、专业的企业关系挖掘的工具平台,可查询企业工商信息、法律诉讼、商标专利、对外投资、招投标、失信、经营异常、企业年报、招聘及新闻动态等,覆盖全国超8000万家企业信息,与工商局网站同步更新。"天眼查"平台通过抓取互联网公开信息,将主体间的关系以可视化的方式直观呈现,为用户提供全面可靠的企业数据分析,帮助用户发现更多隐藏的商业利益关系,适合金融、投资、律师、记者、商务人士及时了解企业经营状况、洞察企业经营信息。然而,在抓取互联网公开信息的时候,会遇到各种类型的验证码,如填写成语、汉语拼音、算术题、英文数字字母等等,人工识别或传统技术识别无法适应大量数据爬取的需求。因此需要设计一套高效的验证码识别系统以有效提高信息的获取速度,并为将来的数据挖掘获取提供保障。论文选题来源于公司实际应用项目,在分析"天眼查"产品的验证码识别需求的基础上,设计和实现了基于深度学习的验证码识别系统。论文完成的具体工作包括:完成了验证码识别系统的需求分析;设计了技术架构;将系统功能分解为基于深度学习的验证码训练子系统、验证码识别服务子系统和爬虫应用子系统三个相对独立的部分,并分别完成了三个部分的概要设计、详细设计和实现;完成了对原有Spring、Redis技术架构进行相匹配的架构升级设计;完成了系统功能测试。本文的成果最终已经成功应用到"天眼查"平台的实际生产环节中,验证码识别率高,大大提高了爬虫的爬取效率。论文涉及的软件成果也已成功申请到了软件著作权。本文成果的成功应用,证实了机器学习,特别是深度学习,在验证码识别的领域具有很大应用前景,值得进一步探究。