基于机器学习的物资编码文本识别研究 ——以Z公司为例

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:dddddddddddddzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前企业逐步追求高质量、高效率发展,实施精细化管理理念,进一步提升经营水平。对于一些大型制造企业和有大量物资存储,对接众多供应商的企业来说,更多的将其物流和仓储业务转移至第三方物流公司,以将精力转移至核心业务。但是对于第三方物流企业来说,难以完全掌握需求方和多个供方的物资数据信息,而多家厂商提供的物资存在名称不统一,信息不全面的问题,且供应商名录和其供应的物资都是不断变化的,这使得第三方物流企业难以将不同供应商的物资准确划归于唯一的类别编码,降低了物资流转工作的效率,增加了物资管理和人员培训成本,对供应链中企业的合作造成阻碍,因此建立一个标准化,准确率高的编码匹配识别模型是有现实意义和必要作用的。本文基于这一问题,考虑到同一类别编码下的物资名称有关键词和语义之间的强联系,因此以Z公司的物资供应数据作为原始资料,建立了基于人工智能领域文本分析技术的编码识别模型,通过数据清洗,人工建立有正确对应关系的编码—物资对应表,以类别编码为标签,对每个标签下众多物资名称规格的文本关键词进行语义分析和大样本训练学习,使模型对每一类别编码形成语义和关键词的识别规则,从而给出对新物资唯一类别编码的识别参考结果,本文的主要工作有:设计物资数据预处理模块,实现物资编码拆分、最细类别编码识别、分词、样本和标签数字化等功能;构建Word2Vec词向量空间模型,实现文本的向量化转换;构建物资编码识别机器学习模型,包括传统机器学习模型和深度神经网络模型,并对模型进行训练,通过对模型结构和参数的反复实验和调整,得出适用于物资编码识别的各模型最佳结构和参数,并使用测试数据测试和对比各模型算法的效果,结果表明对于此场景下应用机器学习模型进行编码匹配识别是具有可行性的,且在此数据背景下传统机器学习采用的最佳算法是逻辑回归,物资编码识别准确率为90.62%;表现最佳的深度神经网络学习模型为双向LSTM模型,准确率达到90.73%。
其他文献
全无机钙钛矿材料作为一种近些年来兴起的新型材料,拥有着高色纯度、高载流子迁移率、带隙可调、高光致发光量子产率等一系列优异的光学和电学性质。相比于有机-无机杂化钙钛矿材料,其稳定性得到了大幅的提高,具有更广阔的应用前景。但是全无机钙钛矿往往成膜性较差,所制备的薄膜有着大量的针孔与缺陷,这大大限制了材料的使用,同时也造成了发光器件漏电流过大而降低了器件的发光效率。另外在发光二极管中普遍采用聚3,4-乙
碳泡沫是一种由碳原子堆积形成骨架、具有多孔网络结构的轻质固态材料,具有耐高温、轻质、可剪裁设计的电气/热学传导性等,在复合材料、催化剂载体、航空航天、燃料电池、微电子、互联网技术等领域有着广阔的应用前景。本文以等静压石墨粉和蔗糖为主要原料配制具有良好良好分散性的料浆,通过加入发泡剂并进行机械搅拌的方法在料浆中产生细小均匀的气泡,分别采用明胶固化成形和凝胶注模成形工艺制备了碳泡沫坯体,再经高温碳化处
快递量和快递业务的不断增长给当前快递物流行业带来许多新的挑战,诸如企业间恶性竞争加剧、快递物流成本持续增加、快递投诉越来越频繁等问题严重制约了快递业的健康发展,快递业亟需创新配送模式和管理模式。共同配送通过将所有企业整合在一起,共建公共型快递二级分拨中心,共享车辆、设施和信息资源,并进行统一计划、组织、协调和配送,凭借集约化、规模化、智能化的运输,大大减少了快递运输途中人力、物力和财力的投入,不仅
中医理论和药理研究与现代先进计算机技术手段相结合的方案为中药药性理论提供了有力的科学支撑,帮助人们进一步地探究药性规律。中药药性理论包含四气五味、功能主治、归经和升降沉浮等,为临床合理用药提供了指导。植物药在中药中占有较大比重,由于植物生长环境、生长季节等不同,中药各有各的药性特征,这些特征可通过植物的形态学特征反映。现有研究表明植物药的科属亲缘、物象和药性之间可能存在联系,但是目前研究主要采用频
拟除虫菊酯类杀虫剂开发于上世纪70年代,是目前中国最常用的农药之一。研究发现拟除虫菊酯类杀虫剂与儿童脑瘤、白血病、青少年听力下降等疾病存在正相关性关系,并已证实在中国的水,沉积物和空气以及人群的尿液、母乳中均存在拟除虫菊酯类杀虫剂的残留,这已经引起了学术界和公众的关注。当前的研究对不同介质中拟除虫菊酯类杀虫剂的残留均有报道,但对该杀虫剂在海洋表层水的分布状况和风险缺乏研究。本研究主要以东海表层水为
读完沈从文先生的《边城》,总觉得像是渡了无数次的河,每次渡河的感觉都不尽相同。全文围绕着那条湘西小河展开,又在这条河上收尾。合上小说,我的心依旧在这河上漂,没有目的和终点。《边城》是一部乡村人物的过渡史。一切的转机都托付给了渡河这一具有象征意义的动作。翠翠从一个自然可爱、有着一对清明如水晶般眸子的女孩,变成了时常脸红、羞涩地跑上山去的青春少女。
期刊
随着信息化科技的快速发展,物联网技术应运而生,应用到各种场景中,实现万物互联、人机互通的智慧化建设,是当今和未来科技发展的重要趋势,无线通信作为信息化建设的关键技术,为物联网建设提供了解决方案。泛在电力物联网是物联网在电力场景应用的一部分,将电力系统各环节连接起来,通过无线通信技术实现具有全面状态感知的智慧系统。变电站作为电力系统中的核心,其无线网络覆盖必不可少,与普通场景不同,该场景中存在大量的
场景文本检测是计算机视觉领域中一个非常重要的研究课题。场景文本作为一种重要的信息载体,其检测技术已经广泛应用于图像/视频理解、视觉搜索、产品识别、自动驾驶、目标定位等领域。因此,场景文本检测技术的研究受到了很多学者的广泛关注。早期针对场景文本检测的研究,大多都选择使用文本框回归进行检测,该方法检测效率较高,但局限于检测矩形文本。最近,很多学者选择使用基于像素级分割的网络来检测不规则文本,并取得了很
在自然图像中,阴影的存在既可以给我们提供关于场景和光照条件的信息,也可以帮助我们了解图像中的场景情况,但与此同时也给图像处理在技术上增加了难度。在图像处理领域对于阴影的处理通常是将其去除,而去除之前先要对其进行准确的检测定位。随着深度学习的发展,给图像阴影的研究开辟出一条新的道路。但在该领域仍然存在着诸多研究瓶颈,例如在阴影检测方面,阴影边界不明显、细节处理粗糙等;在阴影去除方面,恢复的无阴影图像
在国家“互联网+”智慧城市战略的指导下,全国掀起了建设政务大数据服务系统的热潮。然而政务大数据服务系统在海量数据压力下容易出现性能瓶颈,如果不能及时定位原因及采取解决措施,将存在系统崩溃的风险,可能会造成严重后果,因此亟需设计一个高效的性能测试平台。本文围绕大数据系统性能测试关键技术展开研究,并进一步构建政务大数据服务系统性能测试平台,此研究成果将直接为政务大数据服务系统的测试验证与调优提供强有力