【摘 要】
:
分词是中文自然语言处理中的关键技术。将中文分词问题转化为字标注问题,以便套用机器学习的方法去解决,是较为有效的一种思路。然而,基于传统机器学习方法进行分词,需要人为
论文部分内容阅读
分词是中文自然语言处理中的关键技术。将中文分词问题转化为字标注问题,以便套用机器学习的方法去解决,是较为有效的一种思路。然而,基于传统机器学习方法进行分词,需要人为的在中文文本中提取特征,存在信息提取不充分、词库维度高、且利用CPU训练模型时间长的缺点。近年,深度学习模型被引进来解决中文分词问题,比较典型的是可以处理长距离依赖信息的长短记忆神经网络。但是,在基于序列标注的中文分词问题上,长短记忆神经网络提取中文词语局部约束信息的能力较弱,而且存在着训练时间较长的问题,为了解决以上两方面的问题,本文提出了基于长短记忆神经网络后接CRF层的中文分词模型。本文通过对一般的LSTM神经网络中文分词模型、基于GRU神经网络的中文分词模型及结合了CRF的GRU神经网络的中文分词模型的效率和效果进行对比,实验结果表明,结合了CRF的GRU神经网络中文分词模型在保证效率的基础上,分词效果也得到了明显的提升。
其他文献
<正>新一轮课改方案是以核心素养为中心构建的,语文学科核心素养中与议论文写作关系最密切的当数思维的发展与提升。议论文的论证结构是议论文教学的核心内容之一,它主要体现
改革开放以来,中国经济取得了长足发展,迅速成为世界第二大经济体。然而发展理念的落后导致环境污染问题严重,经济增长质量提升缓慢。十九大报告指出,我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期。因此转变经济增长方式,提升经济增长质量迫在眉睫。区域经济增长差异一直是学术界研究区域协调发展的重点。随着经济增长质量理念的发展,研究区域经济增长质量空间差异促
本文共分为两部分:第一部分为笔者的毕业创作选题的内容、目的和意义,以及毕业创作的具体方案和最终成果。同时,整理和分析了本课题及相关专题的国内外研究动态。第二部分以当代女画家庄道静工笔人物画为入手点,对其艺术特点及形成原因作了较为深入细致的分析研究。个人艺术风格方面,具体分析了庄道静人物画作的造型、构图、色彩、构成等艺术语言,并梳理和总结出庄道静人物画艺术的独特风格形成的主要原因,一是个人生活和从艺
<正>山东省济南市政府近日出台的《济南市高层建筑消防安全管理办法(试行)》。建筑高度超过100m且标准层建筑面积超过1 000m2的公共建筑,应按有关要求设置屋顶直升机停机坪或
瑞文(J·C·Raven)是英国著名心理学家。1938年瑞文设计了一种非文字智力测验,即瑞文标准推理测验(Raven’s Standard Progre-ssive Matrices)简称SPM,测量对象的年龄范围为
相依随机序列的极限理论是概率极限理论研究的中心问题之一,它在可靠性理论、多元统计分析、金融风险理论、复杂性系统等领域均有广泛的应用.本文利用概率的连续性、Markov不
昆都仑河是包头境内最大的一条黄河一级支流,它由北向南穿越阴山山脉,平原段有近7km的河道在包头市区内。历次昆都仑河整治一直都是当时包头市的重点水利工程,从2007年开始的这
网络社交是技术发展的必然结果,也是互联网时代最明显的特征之一。区别于现实生活中的对话,网络社交呈现出浅层化、碎片化的特征。由于社交网络的工作化、关系网络的裹挟和失
<正>心理健康教育旨在"育心",通过提供全方位的心理支持,能使学生感悟到一种力量。这种当时潜在的力量,日后会成为巨大的心理能量,护佑他们一生的健康生活。
由于在人群中进行传染病实验是不道德和不切实际的,这就使得使利用模型通过理论分析和计算机模拟来进行所需的实验显得格外重要.而在建立传染病动力学模型时,通常考虑的是确