面向应用的汉语离合词识别

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:guohaohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离合词的自动识别在英汉机器翻译、信息检索和语音识别等许多领域都有非常重要的影响。现有的针对离合词自动识别问题的研究以少量个例的离合词为主,而针对大规模语料的离合词研究目前还乏善可陈。本课题以1991-2004年十四年的新华社新闻语料作为原始语料进行离合词自动识别方法的研究,不仅规模较大,而且范围更广。本文研究的主要内容包括:离合词词表和候选离合词语料的构建。从原始语料中提取原始候选语料,并通过原始候选语料动态地生成离合词词表。由于离合词较强的规则性,使得本文所构建的离合词词表的正确性较高,且不依赖于现有已标注好的离合词词表。在得到离合词词表之后,将原始候选语料用该词表进行筛选得到后续工作所需的候选离合词语料。基于规则匹配的离合词自动识别方法研究。本文首先通过规则匹配的方式对候选离合词语料中的离合词进行判断。实验结果表明,规则匹配的方式在本文所使用的语料中实现了较高的精确率。基于传统机器学习方法的离合词自动识别方法研究。由于规则匹配的方式对于规则性不强的句子无法进行识别,因此本文尝试采用传统机器学习的方法对这类句子进行处理。首先针对这类句子的特点构建了特征模板;其次使用特征模板提取正负例句子的特征;最后利用K-近邻和支持向量机方法进行分类。实验结果表明,传统机器学习方法对规则匹配无法处理的句子取得了较为理想的识别效果。基于神经网络的离合词自动识别方法研究。传统机器学习方法虽然可以识别规则性不强的句子,但是它的劣势在于要设计大量的特征模板,特征的选取会对实验的结果造成一定的影响,而神经网络则很好地避免了特征提取的问题。因此,本文设计了基于注意力机制的循环神经网络模型来对规则匹配无法处理的句子进行识别。实验结果表明,该模型相比较于机器学习方法,识别效果又有了一定提升。离合词自动识别级联模型的构建。通过上述方法,本文分别构建了(1)规则匹配+KNN、(2)规则匹配+SVM、(3)规则匹配+神经网络3个级联模型用于离合词的自动识别,最后通过投票的方式综合三个级联模型的识别结果。实验结果表明,级联模型对语料中的离合词具有很好的识别效果,具有很强的实用性。
其他文献
20世纪20年代,由于长期的机械化工作.神志不清的流水线工人被卷入大型机器.场面滑稽又令人压抑,卓别林在《摩登时代》中演绎的角色正反映了资本原始积累时期被压榨的工人形象
建模是一种重要的数学思想.是数学认知活动的重要内容。一切数学概念、公式与定理以及各种议程等等.都可以称为数学模型.在数学认知活动中.教师要注重引导学生通过分析、猜想、提
教学反思是提升教师专业发展的重要途径之一。教学反思不仅有利于增强教师的专业精神和专业能力,而且还是教师获得专业知识的重要途径。在教学反思过程中教师要遵循持续性原
摘要文献计量学领域中的共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段,传统共词分析方法在以上三个阶段存在主观性过强、信息量不足,聚类不稳
目的探究微创经皮肾镜钬激光碎石术患者围手术期护理的效果。方法选取2016年8月至2018年7月我院58例肾结石患者,均行微创经皮肾镜钬激光碎石术,依据入院时间顺序分组,各29例
为了解贵阳市空肠弯曲菌对常用药物的敏感性情况,从规模化养殖场和大型农贸市场采集了175份猪和鸡肛门拭子,进行空肠弯曲杆菌的分离鉴定,并采用微生物药物敏感性试验执行标准
在滑动残差比率检验统计量的基础,上基于秩提出了新的非参检验方法,并在原假设下得到其渐近分布,在备择假设下证明其容许性.模拟结果表明利用非参方法对厚尾情形所犯第一类错
目前我国已经形成较为完善的贯穿海洋石油勘探开发全过程的法律法规和规范性文件,针对不同阶段的开发活动.提出了不同的海洋环境保护要求。通过列举海洋主要污染源及其监控指标
随着美学思想的不断发展,近年来新闻传播越来越注重审美,而典型人物报道有力的体现着这一趋势。本文从近年来典型人物报道引入,通过对其进行美学分析,看新闻传播的审美特征。
各位评委老师,大家好,我说课的题目是:4.1多边形(1).这是浙教版数学教材八年级下册第四章“平行四边形”的第1节“多边形”的第1课时.我把这节课的教学过程设计成以下五个环节: