论文部分内容阅读
近几年,国内外互联网界迎来了人工智能发展的大热潮,人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。百度公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环。为了解决数据标注与采集领域的保证数据质量和降低成本两大难点,本文构建了一个百度众测数据数据标注子系统,包括标注模块、管理模块以及扩展的采集模块三个模块,并在系统的构建过程采用了注入样本题机制、审核机制、拟合答案机制等多种手段来保证数据的质量,同时系统所属的百度众测平台实践了众包理念,利用了大众能力和资源,降低了数据生产成本。本项目为百度公司提供一个廉价且高质量的训练数据解决方案,节约了企业开发成本,保证了企业产品质量。项目的构建过程中,前端采用了成熟稳定的Angular2框架,服务器端使用了 PHP的Yii框架,Yii框架是一个MVC结构的纯OOP的框架,让开发人员可以专注于业务逻辑的开发。同时为了弥补PHP语言对异步开发支持不足的缺陷,项目嵌入使用了 Linux下的Crontab功能,此外项目也使用Redis来进行一些业务信息缓存,降低关系数据库的访问压力,提高系统性能。目前,项目已经平稳运行,为公司的生产线包括Apollo、DureOS等AI产品线,提供了大量的精确数据。