基于神经网络的中文分词方法研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gratify
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文中,词是最小的语义单元,多个中文自然语言处理任务都是以词为输入,在词的基础上进行的。在字母文字中,如英语,通过空白符将词语分开,然而,中文是象形文字,标点符号仅对短语和句子进行分割,但并未分割词语。因此,中文分词是中文自然语言处理的基础任务之一,也是第一个需要攻克的难点。近年来,神经网络凭借其出色的非线性映射能力、自学习能力,以及可避免特征工程的优势,成为了研究热点,并广泛应用于各个领域。本文由中文分词的定义引入,介绍了其意义、应用,分类介绍了几种常见的分词算法,并重点关注基于神经网络的分词方法。其中,包括基于传统的前馈神经网络的中文分词法和基于循环神经网络的中文分词法。在基于前馈神经网络的中文分词法中,本文重点介绍了其算法框架以及框架中每个步骤的细节。针对基于前馈神经网络受限于输入窗口大小,无法获取长距离相关信息的特点,本文引入了基于循环神经网络的中文分词法,重点介绍了基于长短时记忆(Long-Short Term Memory,LSTM)神经网络的中文分词法,针对其模型训练和预测时间长的特点,本文进一步提出了基于门循环单元(Gated Recurrent Unit,GRU)的中文分词法。为进一步优化模型,本文引入了预处理的字嵌入向量,使得模型可以更快收敛并达到更高的精度。为避免模型过拟合,本文进一步引入了 dropout方法。最后,本文实现了基于GRU神经网络和基于前馈神经网络的中文分词法,与基于LSTM神经网络的中文分词法以及传统的基于CRF的中文分词法比较,得出了基于GRU神经网络的中文分词法可以得出与这几种分词法的最优分词精度相当的结果,且在分词速度上有着显著优势的结论。同时,本文通过实验,论证了预处理向量的引入可以加快模型收敛并提高精度,使用dropout方法可以避免模型过拟合的结论。
其他文献
比和兴都是把握宇宙人生的艺术方法,比是从认识去把握,兴则是从感悟去把握.但二者有所不同:一是兴隐而比显;二是兴婉而比直;三是兴广而比狭.在艺术创造过程中,三者往往同时并
<正>2016年5月15日至21日,全国城市节约用水宣传周活动如期举办。住房城乡建设部要求各地深入开展城镇节水工作,推进海绵城市建设,改善城市水生态,全面建设节水型城市。今年
新中国成立60年来取得的伟大成就集中到一点,就是我们党成功地开创了中国特色社会主义道路和中国特色社会主义理论体系。我们要坚持中国特色社会主义政治发展道路,把握中国特色
民族危亡之际,为了共同抗敌,国共进行第二次合作,党领导的红军各部队也随之进行改编,番号国民革命军第八路军(后改为国民革命军第十八集团军),国民革命军陆军新编第四军,但中共并未放