基于统计学习的中文分词方法的研究

来源 :东北大学 | 被引量 : 20次 | 上传用户:lovehlq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词作为中文自然语言处理的基础正受到越来越多的关注,准确快速地识别出中文语句中的词语对于有效地理解汉语语句内容以及后续处理任务意义重大。基于统计学习的中文分词方法通过对已标注语料库的分析来训练分词模型,并采用分词模型来预测未知语句中汉字的词位标记从而达到识别句中词语边界的目的。由于汉语本身特点,现有中文分词方法难以有效识别出语句中存在的命名实体,而相关改进方法在模型训练效率和预测效率上难以让人满意。如何快速准确地完成中文分词一直是中文自然语言处理所需解决的主要问题之一。本文采用条件随机场作为分词方法所用模型,通过对中文分词预处理方法和中文分词算法的分析提出一种改进的基于统计学习的中文分词方法。首先,本文对中文词语特征进行分析,提出一种复合词位标记集合来使模型在引入少量参数的前提下能够在分词的同时更好地识别出语句中的命名实体,并提出了采用复合词位标记集合的分词模型的计算方法。然后,对于现有模型特征提取算法获取到的特征无法表达其对标记影响程度的不足,本文提出一种改进的特征提取算法,该算法通过综合考虑特征共现频率以及特征对标记结果的间接影响来计算实值特征函数,通过为模型训练设置合理迭代初始点来提高训练效率。其次,针对现有基于L-BFGS模型训练算法效率较低的不足,本文提出一种改进模型训练算法,通过合理设置每次迭代的学习步长提高训练速度并减弱噪声数据的负面影响,另外,本文提出一种基于Viterbi的改进模型预测算法以用于采用复合词位标记集合分词模型的预测标注,并通过引入遍历剪枝策略来提高算法预测效率。最后,提出一种基于错误转换的改进分词后处理算法来进一步提高分词方法的准确率。本文采用实际的标注语料库作为训练数据集和测试数据集来对提出方法的合理性和有效性进行验证。实验结果证明,本文提出的改进方法能够有效地识别中文语句中的词语边界,而且相比于其他方法具有更优的分词准确率以及相对较好的分词效率。
其他文献
有关计算方法简述设计和选用回转支承需要解决三个问题:即回转支承的承载能力;工作机构的外力G_p、M、H_p如何组合;组合后的负荷与承载能力的比较。回转支承的承载能力,普遍
目的 探讨米非司酮配伍米索前列醇联合彩超治疗瘢痕妊娠的临床疗效。方法 选取2016年1月-2017年5月我院妇科收治的瘢痕子宫妊娠孕妇56例作为观察组,选取同期需进行引产的正常
小角散射技术能够获取材料内部纳米尺度微结构的统计信息,在含能材料微结构分析方面具有独特优势。近年来,我们一直致力于小角散射在含能材料方面的应用研究,掌握了含能材料
通过对《吴鞠通医案》的研读,总结吴鞠通对不寐病因病机的认识,探讨其在不寐治疗中的特点,并附典型病案4则,以资验证。
虚拟现实地理信息系统(Virtual Reality Geographic Information System,简称VRGIS)是虚拟现实与地理信息系统相结合的技术,是一种以地球科学系统为对象的虚拟现实技术。一方
首先分析了法拉第光学直流电流互感器的信噪频带重叠现象及低频噪声的影响,提出了直流光学传感频谱迁移测量法,推导了光学调制和信号解调方法的数学模型。其次设计了直流光学
《伤寒论》病后调理思想刍议时吉萍兰医一院中医科强志鹏兰州空军门诊部《伤寒论》是祖国医学四大经典著作之一。问世以来,诸子百家阐论极多,但大多数驻笔于六经辨证理法方药,对
湖北省都镇湾是至今仍保留民间口头叙事传统的区域,该区域在当下社会转型过程中出现了口头叙事在讲述传统、讲述功能和听众等方面的变化。基于此,当地提出了"熟人社会"的故事
湖南省风化残积红土按其原岩性质可分为花岗岩红土、喀斯特红土、碎屑岩红土、元古界红土和岩浆热液红土等5个类型。其中岩浆热液红土含金性最好,富集系数最大,元古界红土最
近年来,伴随我国工业化的快速发展,土地不断遭到各种污染的伤害,主要集中在农村农田污染和城市工业用地污染两大块。这些受污染的土地,又叫棕色地块,犹如隐形杀手,已成为整个