【摘 要】
:
由于机器学习技术带来的产品功能与性能上的优势,在不同的行业背景下应用前景愈发广阔。在机器学习工程中,训练使用的数据质量极大影响了被训练模型的效果。为方便算法模型获取特征明显的训练数据,需要对原始数据进行标注处理以便于算法模型发现其中的模式与规律。汽车资讯标注系统是在此背景下为处理与汽车资讯相关图像、语音与文本数据,通过全人工标注或半自动标注方式,将汽车资讯原始数据转化为可供算法模型训练的数据集。根
论文部分内容阅读
由于机器学习技术带来的产品功能与性能上的优势,在不同的行业背景下应用前景愈发广阔。在机器学习工程中,训练使用的数据质量极大影响了被训练模型的效果。为方便算法模型获取特征明显的训练数据,需要对原始数据进行标注处理以便于算法模型发现其中的模式与规律。汽车资讯标注系统是在此背景下为处理与汽车资讯相关图像、语音与文本数据,通过全人工标注或半自动标注方式,将汽车资讯原始数据转化为可供算法模型训练的数据集。根据使用场景与业务需要,系统选择SSM(Spring+Spring MVC+My Batis)框架作为开发主体框架,从功能角度将系统分为用户管理、数据处理、任务管理与用户培训四个模块。根据汽车细分领域数据量庞大、评价指标多元化等特点,通过数据处理模块在网页与移动端实现数据标注、采集与审核的产品核心功能。同时为方便对标注、采集与审核人员与系统任务的管理、减少用户培训的工作量,可通过用户管理模块实现用户增删、权限管理与绩效查询,看板模块监控任务进度,任务培训模块实现用户培训。为支持半自动标注的数据传输功能,根据内网接口的权限控制要求,使用Shiro安全控制框架实现接口身份权限控制,完成系统数据与算法模型的交互。为保证系统在外网的数据安全,根据实际环境下单一用户名对应多个用户实体的特点,对于密级较高的任务通过硬件设备储存Keytool工具生成的自签证书,采用公钥密码体系双向认证方式实现系统操作者与服务器的双向身份认证,并通过对称加密实现数据传输过程。汽车资讯标注系统通过数据标注、人工审核、使用数据采集工具获取机器学习算法模型所需要的数据集。通过测试,汽车资讯标注系统的基本功能已全部实现,系统能正常运行并符合预期效果。
其他文献
现代无人艇作为一种高度智能化的无人控制平台,内部控制网络和相关结构单元十分复杂。其控制系统的总线类型多样且互不兼容,加大了数据在无人艇控制系统内部传输和交互的难度,也在一定程度上限制了无人艇的发展。因此,本文在不改变无人艇现有控制网络架构的基础上,提出了一种多总线转换的方案,并基于此方案,设计并实现了无人艇多总线转换及数据监控系统。本文在对团队自主研制的xx68系列无人艇控制系统进行详细分析的基础
在跨境电子商务产业链中,供应链需求预测需要预测每个商品在每个仓库未来的需求量,以便将商品提前准备在全球各个市场的仓库,可有效降低物流时间,极大提升用户体验。本文以供应链需求预测为研究对象,对多种需求预测算法进行了研究,并针对其中存在的异常点检测、商品信息的向量化表示、多步预测等不足之处提出了三个创新点进行改进,提高了需求预测的准确率。首先,在数据处理方面提出一种基于Huber Loss的线性回归方
考试是选拔人才的主要途径,它要求绝对的公平公正,而替考这一考场舞弊行为严重的损害了考试的公平性。因此,如何提高考生身份识别的准确率,保证考试的公平性,具有重大的研究价值。目前的考场签到过程中,多数考场仍然采用人工比对身份证和准考证的方式来判别考生身份,这种方式存在人工开销大、判别出错几率较大的问题。基于此,本论文通过对生物识别技术中人脸识别算法的研究,设计了一套便携式考场签到设备及系统,结合人脸识
随着生活节奏的加快与社会压力的增大,人们因饮食不规律导致患胃肠道疾病的现象愈加严重。近年来,无线胶囊内镜技术已成为检查患者胃肠道的首要选择。然而,一次无线胶囊内镜检查将产生约6万张图像,带给医生后续筛查工作沉重的负担,如何快速有效地从海量图像中识别检测出病变已成为亟待解决的重要问题。神经网络在处理图像问题上有着得天独厚的优势,基于神经网络的医学影像分析为解决这一问题带来新的契机。无线胶囊内镜图像与
随着互联网逐步深入到人们的生活,网络安全问题也影响到社会生活的方方面面,其中以木马和僵尸网络所造成的危害最大。为了躲避网络边界的检测,这类恶意软件通常使用HTTP协议作为应用层协议,把自己的流量隐藏在大量HTTP背景流量当中。传统基于流量模式匹配的检测方法,在面对这类经过伪装的恶意流量时往往无能为力,研究者们开始转向使用机器学习的方法来实施恶意流量检测。而这些方法,往往针对单个HTTP请求数据流进
近年来,随着智能手机和平板电脑广泛普及,互联网社交媒体的用户数量迅速增长,与此同时产生了海量的社交媒体数据。在这样一个信息爆炸的大数据时代,如何挖掘出海量数据背后的价值成为了众多研究者的研究方向。相较于其他数据挖掘方法而言,机器学习无疑是当前应用最广泛且最成熟的。研究人员将社交媒体和机器学习相结合,在分析公众舆论,灾害治理,市场营销等方面已经取得很大的成效。然而不可否认的是,在机器学习技术给我们带
在现实世界中,图像数据包含现实对象的海量信息,是对客观对象的描述或客观的映射。为计算机能够更好的理解现实世界,发展出来多种计算机技术,基于深度学习的语义分割方法能够较好地提取图像高层语义信息,更好地应对自然场景。深度学习语义分割算法中的特征提取部分十分重要。模型越深特征提取能力就越强,但是所得到的特征越抽象。以Deeplab语义分割框架作为基础,提出优化方法,通过对比实验结果说明优化效果的有效性。
近年来随着深度学习技术的快速发展与卷积神经网络在计算机视觉研究工作中的广泛应用,图像分析与理解领域的研究工作取得了瞩目的成绩。作为图像分析与理解领域的重要分支,光学字符识别(Optical Character Recognition,OCR)技术和方法逐渐成熟,在生活中得到广泛应用,将OCR技术用于文档识别与场景文字识别的需求与日俱增,具有极大的使用价值和应用前景。票据作为人们生活中常接触到的一种
随着互联网的快速发展以及企业运维项目管理的要求越来越高,传统的开发部署模式存在许多不足之处。比如资源利用率低、难以迁移、强依赖于硬件、无法持续集成、部署困难、配置环境复杂等。这种传统开发模式已经不能满足用户以及企业需求,大量企业开始寻求新的开发部署模式。为了解决上述问题,本文设计并实现了一个持续集成与部署系统,采用一种新的运营管理模式来替代传统的部署模式。首先对系统进行需求分析,将系统分为五大功能