语料库众包工具—荷裳的设计与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:sbwww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展,加速了全球化的趋势和地球村的形成。已有语言文字的界限不可避免的成为世界各族人民沟通和交流的一大障碍,世界迫切的呼唤新语言的出现。感受到当今无国界跨地域交流面临的窘迫感,以及受到越来越多的网民使用图符来表达的启发。西北大学小露珠团队提出了一种跨语种、跨文化、跨人机、跨时空的地球村语言—“和”,它是由一系列图符、数字、语音和视频等组成的。“和”旨在实现普天同文的梦想,为全世界用户提供统一的交流语言。“和”语料库的建设是“和”语言研究的基础。目前“和”语料库只包括《地书》中的标识符号、象形符号以及国内外主流社交软件的表情符号。由于“和”是不断演进的,为了保持语料库生命力,需要不断更新和维护。迫切的需要一种新的方法,使得同时在效率和质量上达到最优。众包技术的出现,能够实现“和”语料库的全面收集和可持续性建设。本文总结语料库工具和众包技术的研究现状和成果,设计并开发了“和”语料库众包工具—荷棠。荷棠的设计,不仅调动大众的积极性,为“和”语料库的建设和完善助力。同时,大众通过网络以社会化的合作方式直接参与,打破了使用者与创造者间角色割裂的传统定位,大众既是贡献者,又是使用者。
其他文献
字库字体是信息记录、存储与交流的重要工具,被广泛地应用于计算机、报纸、书籍、杂志等传统媒介和新兴领域。随着各种风格字体的不断推出,也在不断触碰汉字及汉字书写规范性
随着互联网和信息技术的迅速发展,许多行业和企业对于数据中心的服务需求持续增长,数据中心的数量和规模都在成倍增长。云计算的出现,改变了传统IT基础设施的使用方式和软件
问答系统是新一代的搜索引擎,它可以精确的检索答案给用户,更好的满足用户的查询请求。问句分类是问答系统中一个非常重要的环节,其性能直接影响到后期答案抽取的准确性,关乎
近年来,确保系统的高度可靠性,已成为构建超级计算机系统面临的主要技术挑战。一方面,超级计算机系统的计算作业通常需要持续运行数天甚至数月的时间。而系统部件的故障不可
储能飞轮技术的发展有两个非常明显的趋势:一是实现高储能密度,二是追求轻质化。近些年来,有不少研究者将两个趋势进行融合发展,形成同时具备高储能密度和轻质化两项优点的更先进的储能飞轮系统。本文以此为切入点,具体到高储能密度飞轮系统关键技术之一的飞轮转子系统,进行深入的理论分析和实验工作。本文根据飞轮储能系统储能密度300 Wh/kg等主要技术指标要求,通过理论计算与ANSYS软件分析相结合的方法,得出
随着社会经济与科技的高度发展,工业生产也逐步地向高速化、智能化方向发展,基于机器视觉的全自动智能灯检机定会取代人工灯检成为未来医药生产的必然趋势所在。但智能灯检机
5G的三大类场景中,尤其是上行链路,移动互联网中大量应用如微博、即时通信,社交网络等顶层业务,以及大规模物联网中会产生大量的小数据包。这种小数据包业务面临两个问题,其
大规模矩阵数值计算是科学和工程中最常见和基本的问题。矩阵数值计算通常需要大量的计算资源,然而对于计算资源有限的客户来说,完成矩阵计算过于昂贵而无法完成。云计算为用
随着信息技术的不断向前发展,以及IT技术与传统行业互相碰撞与融合,促使当今的数据量出现爆发式增长,使得数据存储规模远远超过物理存储硬件的发展,给存储服务中心带来了巨大
研究背景和研究目的局部侵袭性是恶性胶质瘤的显著特征,不仅限制了治疗效果,也是肿瘤复发和预后不良的主要原因。因此,进一步探究侵袭性的分子机制尤为重要。越来越多的证据表明,热点突变p53具有促进肿瘤细胞迁移侵袭能力的获得性功能(gain-of-function,GOF)。在前期的研究中,我们发现人脑胶质瘤细胞中p53突变体的获得性功能可以调节GSK-3β,从而促进胶质瘤细胞的增殖。在本研究中,我们旨在