“天眼查”分布式爬虫系统中验证码识别模块的设计与实现

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:ysy8023zq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
"天眼查"是一款提供了全面的企业信息查询、专业的企业关系挖掘的工具平台,可查询企业工商信息、法律诉讼、商标专利、对外投资、招投标、失信、经营异常、企业年报、招聘及新闻动态等,覆盖全国超8000万家企业信息,与工商局网站同步更新。"天眼查"平台通过抓取互联网公开信息,将主体间的关系以可视化的方式直观呈现,为用户提供全面可靠的企业数据分析,帮助用户发现更多隐藏的商业利益关系,适合金融、投资、律师、记者、商务人士及时了解企业经营状况、洞察企业经营信息。然而,在抓取互联网公开信息的时候,会遇到各种类型的验证码,如填写成语、汉语拼音、算术题、英文数字字母等等,人工识别或传统技术识别无法适应大量数据爬取的需求。因此需要设计一套高效的验证码识别系统以有效提高信息的获取速度,并为将来的数据挖掘获取提供保障。论文选题来源于公司实际应用项目,在分析"天眼查"产品的验证码识别需求的基础上,设计和实现了基于深度学习的验证码识别系统。论文完成的具体工作包括:完成了验证码识别系统的需求分析;设计了技术架构;将系统功能分解为基于深度学习的验证码训练子系统、验证码识别服务子系统和爬虫应用子系统三个相对独立的部分,并分别完成了三个部分的概要设计、详细设计和实现;完成了对原有Spring、Redis技术架构进行相匹配的架构升级设计;完成了系统功能测试。本文的成果最终已经成功应用到"天眼查"平台的实际生产环节中,验证码识别率高,大大提高了爬虫的爬取效率。论文涉及的软件成果也已成功申请到了软件著作权。本文成果的成功应用,证实了机器学习,特别是深度学习,在验证码识别的领域具有很大应用前景,值得进一步探究。
其他文献
期刊
张恨水在报纸副刊上连载小说,采用章回体形式,既是选择了一种文体形式,同时也是选择了一种与报纸周期性相一致的分载形式,更是选择了一种古老而实用的营销策略。张恨水采用章
基于平面曲线坐标系、垂向σ坐标系建立了三维水流数学模型。采用控制体积法离散基本方程、交错网格以避免压力的振荡、动水压力校正法进行数值求解。分别采用经典急弯河段水
采用OM、TEM和XRD对深层渗碳处理后H13钢的显微组织进行观测,研究了深层渗碳对H13钢显微组织和硬度的影响。结果表明:渗碳后完全退火试样与渗碳后球化退火试样的渗碳层厚度均
本文介绍了汽车柴油机活塞的现代设计方法,详述了活塞负荷最重要部位(第一活塞环槽、活塞销座和燃烧室腔边缘)的强化方法,讨论了现在和未来的活塞材料等。
目的:探讨呼吸训练改善肺癌患者放射治疗(简称放疗)后肺功能和生活质量的价值,并研究其规律性。方法:选择2001-10/2003-10在广东省人民医院进行放射治疗的肺癌患者75例。纳入
为了解鄂西北地区小麦条锈菌群体的毒性组成及多态性分布,对2013年分离自鄂西北冬繁区的109份小麦条锈菌标样进行了毒性结构分析。结果发现,鄂西北小麦条锈菌毒性结构复杂,10
<正>世界市场的需求确定活塞环材料和设计的发展趋向.图1显示四个主要市场驱动力迫使活塞环材料和设计变化.钢环能显著地满足增长的需求是由于具有较高的内在强度和薄的轴向
期刊
期刊