【摘 要】
:
科技资源检索是科技资源服务的重要手段,是决定科技资源是否能被切实、有效利用的关键环节。但科技资源在检索过程中往往存在检索精度低,人工投入大,结果不理想等问题。现有对科技资源的检索方式主要是通过用户输入查询关键词,得到一系列相关结果,再由人工筛选判断后找到合适的检索结果,使得检索结果冗余、不准确,且耗时耗力。现有方法的主要问题是缺乏对实际需求的匹配和对科技文本资源语义的理解。由于科技资源不同于日常普
【基金项目】
:
国家重点研发计划课题:“支持开放生态化的企业级ERP平台研制与应用示范”(课题编号:2019YFB1704104);
论文部分内容阅读
科技资源检索是科技资源服务的重要手段,是决定科技资源是否能被切实、有效利用的关键环节。但科技资源在检索过程中往往存在检索精度低,人工投入大,结果不理想等问题。现有对科技资源的检索方式主要是通过用户输入查询关键词,得到一系列相关结果,再由人工筛选判断后找到合适的检索结果,使得检索结果冗余、不准确,且耗时耗力。现有方法的主要问题是缺乏对实际需求的匹配和对科技文本资源语义的理解。由于科技资源不同于日常普通的生活和生产资源,具有显著的专业性、知识性和复杂性,关键词检索法无法对其特性进行理解,结果也就难以满足科技资源服务的需求。因此,理解科技文本资源语义,并匹配科技资源服务的实际需求是科技资源检索的迫切需求和主要任务。为此,本文以国家重点研发计划课题“支持开放生态化的企业级云ERP平台研制与应用示范”(课题编号:2019YFB1704104)及“分布式资源巨系统及资源协同理论”(课题编号:2017YFB1400301)为研究背景,围绕课题打造科技服务业资源体系与资源分享模式目标,以支撑跨行业分布式科技资源搜索、分析、匹配、评价和优化等任务,以课题任务要求的万方科技服务平台和宁波市科技信息研究院公共服务平台中的非结构化科技文本资源为数据支撑,为解决科技文本资源检索过程中的需求匹配与语义理解问题,重点研究支持科技文本资源挖掘应用的科技资源检索方法,提出一种基于机器阅读理解的科技资源检索方案。主要研究内容如下:(1)针对现有科技资源检索存在返回结果冗余、不精确等问题,在对科技文本资源特点以及检索方法问题分析的基础上,研究并提出基于机器阅读理解的科技文本检索总体技术实现方案,该方案由文本匹配模型和机器阅读理解模型两大部分组成,分别针对科技文本匹配及文本理解需求两方面开展研究。(2)针对科技文本数据源存在噪音大、专业词汇多等特点,以及中文文本存在停用词等问题,完成科技文本预处理,具体主要包括去除文本噪声、分词、去停用词、训练词向量等,为后序科技文本检索工作提供数据保证和形式化支持。(3)针对检索过程中科技文本匹配准确率低的问题,提出基于n-gram的TF-IDF文本匹配方法。该方法通过对n-gram算法的引入,不仅能获取科技文本词的词频TF和逆文本频率IDF,还能充分考虑词序问题,提高了相关文本匹配的准确率。本文通过在中文和英文两类数据集的实验,验证了该算法的有效性。(4)针对现有检索模型不具备理解能力的问题,提出机器阅读理解算法,此算法在输入查询后,分别经过模型内部编码模块、匹配模块及预测模块获取相应文本查询结果作为输出。编码模块作用是提取问题和文本特征,匹配模块作用是加强查询词与文本交互,预测模块作用是获取查询结果。本文在中文和英文数据集上进行实验,验证了本文提出的机器阅读理解算法有效性。(5)针对检索模型不具备多文档推理能力的问题,提出基于分层注意力指针网络的推理方法。该方法应用于机器阅读理解模型的推理模块中,此方法采用分层注意力机制分别对词级别和句子级别进行注意力匹配,采用指针网络进行句子推理。本文在中文和英文数据集上进行了模型的多个对比实验,验证了该方法的有效性。
其他文献
随着我国航空业的迅速发展,用户现场的飞机服务保障信息化成为制约其发展的瓶颈。用户现场的服务保障工作管理不规范、飞机服务保障过程缺乏有效监控,并且用户现场产生的飞机状态信息缺乏可视化平台,无法实时同步各部门的信息,因此备件资源及用户问题处置等资源难以被有效利用,可见传统的工作模式已无法适应用户现场的飞机服务保障的要求。为解决上述问题,本文设计一种用户现场的飞机服务保障管理系统,并将数据可视化平台植入
全球家电企业市场竞争日益激烈,产品迭代更新快,在新产品的制造、设计过程中大量的工程技术图纸需要被设计、修改、参阅,形成了丰富的图纸资源库。顺德作为家电重镇,有许多小家电企业都面临着内部产品图纸管理与保密。各企业间的基本现状是大量产品、模具、专用设备、工装夹具的CAD图纸掌握在各个职能部门及少量人员手中,缺乏有组织、规范的集中管理。在行业中研发设计人员流动相对频繁,这就容易造成大量的图纸丢失、泄密,
双目立体匹配是模拟人类视觉获取深度的技术,广泛应用于路径规划、光学测量和即时定位与地图构建等领域。相比于传统方法,基于深度学习的双目立体匹配技术具有特征鲁棒性好、视差结果稠密等特点,但面临高反光物体引起的过曝现象时,仍存在误匹配问题。同时,相关数据集的缺乏限制了过曝场景下相关技术的研究。镜面反射引起的过曝现象会导致双目图像的匹配特征消失,引起误匹配导致视差估计精度降低。因此,本文从修复过曝区域丢失
目标检测是计算机视觉中的一个基本问题,它可以为实例分割和姿态估计等许多视觉任务提供支持,但因为仅有图像信息在某些情况下准确度还有待提升。通过无线信号来获得定位信息可以用来得到需要被检测对象的数量和位置。随着物联网的发展,能量可收集无线通信得到了越来越广泛地应用,它可以帮助无线传感器从自然界中获得能源来驱动通信。本文将目标检测框架、无线定位装置和能量采集无线通信相结合,设计了一个目标检测系统。整个系
常规数字化相机采用“红-绿-蓝”单传感色彩滤波阵列实现对真实场景色彩信息的获取,以达到节约存储空间的目的,所获取的每个像素位置只能表征红(R)、绿(G)、蓝(B)颜色中的一种颜色值,以这种方式获取的图像通常被称为马赛克图像。马赛克图像必须超分辨重建才能恢复成RGB彩色图像,这一过程叫做图像去马赛克。对图像去马赛克会带来数据量的增加,如果再进行图像压缩,则会影响数据压缩效率。为了节约存储空间和传输带
由于性价比高和对人体相对低的辐射剂量,全景X射线和锥束CT是目前牙科分析中有用的检查方式。牙齿分割是诊断牙齿疾病(如龋齿拔牙或牙髓疾病)前的关键步骤,但术前人工标记牙齿区域的过程既复杂又耗时。医学图像中牙齿分割的主要挑战在于三个方面。(1)外观变化大:对于有缺牙、修复体、矫治器的病例,主牙区的外观可能发生较大变化。(2)局部成像过于明亮:修复体和假体的牙科材料会产生明亮的金属伪影。(3)牙根周围边
视觉SLAM技术是机器人、无人驾驶、视觉惯导、虚拟现实以及增强现实等新兴邻域的核心技术。视觉SLAM技术的精度、鲁棒性和实时性是影响其在这些先进科技邻域中产业化应用的主要因素。传统的两类视觉SLAM方法,直接法和间接法,各自都存在一些优势与不足,且两者的特性非常互补。一类新的视觉SLAM方法通过将这两种传统视觉SLAM方法进行融合,结合两者的互补优势来提升性能,这类新方法被称为半直接法或混合方法。
静态随机存储器(Static Random Access Memory,SRAM)是片上系统(So C)的重要组成部分,被大量应用于手持电子设备、传感器和医疗器械等超低功耗应用中。由于动态功耗与电源电压呈平方倍的关系,降低系统电源电压可以极大地降低其功耗。但由于在超低压下SRAM单元难以稳定工作,单纯地降低电源电压已经不再能满足超低功耗的需求。从而在一些可以忍受低位错误的应用中,如视频图像处理、大
为了解决活门零件人工装配过程错装、漏装零件导致质量隐患的问题以及装配过后人工检错拉低活门产品生产效率的问题,本论文依托活门零件装配智能防错系统研究课题,对活门零件装配过程中的防错技术展开了研究。本课题依据防错理论,结合活门零件装配实际工况分析,设计了装配前可视化引导防错搭配装配后实时检测防错的“双保险”防错方案。其中,可视化引导防错采用参数化三维建模的方式对零件进行三维建模,依据工厂现有的二维书面
可见光和红外光电设备在军事和民用领域使用越来越广泛,将双波段集成的光电设备逐渐成为一种趋势。如何有效的测试多光路设备也逐渐成为光电设备发展的重要问题。本文主要研究内容是设计并搭建一套多光融合的光电测试系统,实现可同时对可见光和红外光电设备性能参数的测试。本文分析了光电设备测试系统中多光路融合的实现原理和二维成像器相关参数的测试理论基础。其中可见光相机关键参数包括调制传递函数(MTF)、分辨率、最小