基于循环神经网络语言模型的中文分词研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:tewy001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是中国语言处理的一项基本任务。词是“最小的能独立运用的语言单位”。中文与英文有所不同,在英文中词与词之间用空格天然分割,而中文则具有长字符连续书写的特点,如果不进行分词,计算机无法获知中文词的确切边界,中文分词更重要的一个任务是帮助计算机理解中文文字。2006年,深度学习的概念被研究者提出,随后其被应用于计算机视觉、自然语言处理以及语音识别等领域,并且成功地取得了诸多突破性进展,其中循环神经网络更是被广泛运用于解决词性标注、翻译、命名实体识别等相关自然语言处理问题。把多数自然语言处理问题抽象成序列生成序列,并采用合适的循环神经网络结构处理序列,成为当前研究的热点和主流。中文分词是汉语语音合成的前提和基础。中文分词是中文自然语言处理中的关键技术。在自然语言处理中,序列标注在中文分词中有着极其重要的应用。当前主流的中文分词方法是基于传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征。这些方法未能充分地利用上下文信息对中文进行分割,缺乏长距离信息约束能力。针对上述问题进行研究,在双向Long-term short memory(简写为LSTM)记忆单元添加注意力机制,并使用双向LSTM训练分词模型,注意力机制可较合理的利用记忆单元存储的信息,同时采用六词位标注集进行中文分词,避免了窗口对上下文大小的限制,可以获得一个文本上下文信息,能够有效的解决梯度爆炸和数据稀疏问题。实验结果表明使用此模型可以达到97.8%的中文分词准确率。
其他文献
随着测绘科学技术的迅速发展,测绘新装备也不断涌现,其中移动测量技术已成为测绘界的发展前沿技术之一。在移动测量系统中动态定位处于基础位置,为其他传感器的数据解算提供
随着我国经济社会的高速发展,迫切需要转变政府职能,深化简政放权。行政审批制度改革做为转变政府职能的有力抓手和撬动行政管理体制改革的突破口,也是法治政府建设的内在要
自“建设诚信社会”的目标提出以来,中共中央国务院和各级地方政府部门出台了大量失信联合奖惩相关的规范性文件,“一处失信,处处受限”俨然成为老百姓最津津乐道的话题之一
《“十三五”国家知识产权保护和运用规划》中将提高知识产权质量效益作为一项重要工作加以部署,在保持专利数量增长的同时,要求进一步提高专利质量,稳增长、调结构、促转型。专利维持是在专利的法定保护期内,由专利权人依法向专利行政部门缴纳规定数额的维持费,使得专利继续保持法律有效的过程。在专利研发、申请并获得授权后,专利的维持才是专利能够真正发挥经济价值的关键时段,一项专利能够维持的时间越长,就能够为企业带
本文以苯并菲为液晶基元,合成了不同取代位置的双酯基取代苯并菲衍生物,T5E23、T5E27、T5E26、T5E36,T5指戊氧基苯并菲基元,E指酯基链,23、27、26、36指不同的取代位置。通过核磁共振氢谱(1HNMR)、高分辨质谱(HRMS)、傅里叶红外光谱(FT-IR)等手段确认了化学结构。还利用采用差示扫描量热仪(DSC)、偏光显微镜(POM)和一维广角X射线衍射(1D WAXD)对所合成
目的:组织残留是暴力犯罪现场极具代表性的一种生物检材,涉及组织碎片、刀枪擦拭物或衣物上残留的组织斑迹等。分析与犯罪有关的生物检材的存在和组织溯源是揭示犯罪本质的关
人工材料光子晶体具有良好的光学调制特性,不同介电性质的材料周期性分布,导致光子能带中出现光子带隙。在完美的光子晶体结构中引入缺陷可以实现光波导和光的局域特性,是光子晶体得以广泛研究和应用的主要原因。本文结合光子晶体的上述特性和磁性材料的旋磁特性,设计并分析了具有光环行传输的环行器结构。通过对光子晶体和磁性材料进行结构优化实现具有较宽环行传输带宽、低插入损耗和高隔离度的环形特性。应用有限元法对该环行
在我国研究生教育不断扩招的大背景下,研究生数量增长的节奏不断加快,研究生数量与质量发展间的不平衡现象凸显。研究生学术交流是研究生培养过程中的重要环节,具有创新研究
软件定义网络是当前网络领域中最受关注和最有发展潜力的技术之一,并且其优势是传统网络无法超越的。但是目前大部分的研究工作都侧重于SDN的规则分发与资源调度,而对SDN自身的安全问题关注很少。SDN控制器如何确保敏感信息只能提供给被授权的用户,并同时保证高效的信息共享,是当前SDN研究中不能避免的核心问题。本文将基于属性的可搜索加密机制与SDN架构相结合,提出一种支持访问控制与密文搜索功能的SDN加密
随着第五代移动通信(The 5th Generation,5G)的快速发展和应用,移动终端设备和数据业务的爆炸式增长已成为移动通信面临的主要问题。D2D(Device-toDevice,D2D)通信具有提高频