面向多用户协作的智能化文本标注平台的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qncy1235p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能时代,自然语言处理技术在各领域的应用越来越广泛。虽然机器学习、深度学习等各种各样的算法模型层出不群,但是在特定领域下(如医疗、电商、金融等),目前全自动无监督的算法仍然无法达到很好的效果,而半监督算法、有监督算法又需要标注数据的支持,而且不同的算法对标注数据的质量和数量都有不同的要求。为了解决自然语言处理任务中数据标注的问题,目前主要存在三种方式:众包标注、专家标注、算法标注。但均有其局限与不足,专家标注成本较高,众包标注成本较高且质量难以保证,算法标注质量较低,无法满足多种多样的数据标注需求。本文针对上述问题,在充分调研已有研究的基础上,设计了一种三阶段标注框架,并基于该框架实现了多人协作的智能化标注平台。具体来说本文的研究内容和创新成果包括:(1)针对普遍的标注任务,提出了基于主动学习思想的三阶段标注框架,通过算法、普通用户、专家用户三者流转协作完成标注任务,通过算法的预标注来提高标注效率,通过交互式的错误反馈机制迭代提高用户的标注准确率。(2)针对目前系统支持的若干类文本标注任务,设计并实现了基于任务相似度和用户偏好的个性化分配算法,提高用户与任务的匹配度,从而提高标注质量和效率。(3)基于上述框架和算法,采用交互式web2.0技术搭建了智能化标注平台。平台采用模块化组件化的设计,其中的多种算法组件都可以灵活扩展,从而支持多种标注任务。(4)采用模拟实验和用户调研的方式,验证了框架在提升标注效率和质量方面的有效性。
其他文献
电子招投标的形成和迅速发展,对招投标活动产生了革命性的影响,同时也对进一步规范招投标市场起到了积极的作用。笔者经常参与电子投标业务,通过对电子招投标发展方向的思索
信息化是世界各国发展经济、文化、科学、教育的共同选择。数据库系统特别是文献资 料的数字处理系统的广泛应用,大大地提高了科研和教学的知识储备与科技含量,从根本上改
本文纵观美国爆裂玉米的科研和产业发展历史 ,对美国爆裂玉米的品种资源、品种选育、种植面积、分布区域、产量和爆裂玉米工业发展以及爆裂玉米品质研究等方面做了介绍
集中采购管理是施工企业生产管理中的重要组成部分,其关乎到施工企业的采购成本以及管理效率,对于施工企业利润的高低以及市场竞争力起着至关重要的作用。目前,我国的很多施
应用三维造型软件Pro/E对齿轮泵进行参数化设计、虚拟装配及仿真分析。利用此方法可及时发现齿轮泵设计中的缺陷,降低产品开发成本,缩短设计周期,极大地提高了设计人员的工作
教材编写与传统文化教育的发展关系密切。传统文化教材的编写需要首先辨析取向与知识取向,并由此形成系统的、适合教材使用的知识体系,然后以教育内容和学生特点为基础,兼顾社会
目的:探讨提前护理干预在降低肝脏外科住院患者医用黏胶相关皮肤损伤(MARSI)中的作用。方法:将实施提前护理干预之前的住在我科肝脏外科术后的180例患者作为对照组,采用常规
在4月7日博鳌哑洲论坛举行的“生命科学与生命产业”圆桌讨论会上,来自中国、美国、澳大利亚等国的专家、学者就生命科学领域的重大疾病防治、人口老龄化等问题展开讨论。与会
论文从五个方面探析当代流行文化的特征,指出了流行文化作为一种文化现象,对于我们常规文化造成了冲击,它既是对于常规文化的破坏,也可以是一种难得的补充。最后指出,流行文化作为
课堂教学实施创新教育是培养创造型人才的主要渠道。经济时代的一个显著标志是“创新”。实施创新教育培养具有创新素质的人才是素质教育的核心内容。数学课堂教学如何实施创