基于统计的汉语词性自动标注的若干分析与实验研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:hyb916720hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言的结果。 现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。 在自然语言处理领域,汉语词性标注一直是一项颇受关注的基础性研究课题。它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、OCR和文本核对等诸多领域的研究。 目前,基于统计的方法已在词性标注方面奠定了扎实的基础,它较之过去采用的基于规则的方法有了质的飞跃和突破。基于统计的方法有很多,如隐Markov模型、转换模型、最大熵模型、神经网络、决策树等,这些方法对英语文本中的兼类词的词性标注正确率不相上下。 本文扩展了传统的基于隐Markov理论的二元模型,提出了一种双向二元模型。同时,为了使模型参数能够随着新训练语料的增加而动态地进行调整从而能更好地反映语言现象,本文提出一种能不断地从新的训练语料中获取知识的参数估算法。本文利用经典的Viterbi算法在不同规模的训练语料情况下对同一测试集进行测试,对正向、反向与双向二元模型所得出的实验结果进行了对比。结果表明,双向二元模型的正确率和排歧率较正向和反向的来得高。
其他文献
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有
随着数据信息化步伐的日益加快,数据已经呈现出爆炸式的增长趋势,所以对数据进行有效、完整、安全的存储已经成为数据信息化过程中最关键的一步。目前被广泛应用的存储区域网(S
基于.NET框架和COBOL 2002语言标准,设计并实现了COBOL 2002集成开发环境(IDE)。研究了.NET的内存管理,编译模型,VSIP等相关的基本理论知识,提出了基于.NET框架的COBOL 2002集成
近年来,Web服务技术以其标准化协议和低耦合的优点得到快速发展,但是随着越来越多的企业和组织在各自的系统上部署和应用Web服务,不同组织的Web服务之间如何有效地进行信息共享
嵌入式RFID图书管理系统加速了流通处理的速度。RFID阅读器通过非接触方式采集信息,可同时读取多个RFID标签。这就意味着在进行借入或者借出处理过程中几本书籍可以同时处理,读
为了支持区域软件企业的相互交流、协作与信息共享,作者受委托开发了软件公共技术支撑平台系统。该平台基于Internet运行,具有信息收集、发布、检索、资源共享、技术交流与协
随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要,计算机自动分词是现代汉语信息处理的重要组成部分,也是基础
生物特征识别 (Biometrics)技术是依靠人类自身所固有的生理或行为特征进行身份验证,它是一种崭新的身份识别技术,在金融、国防、信息安全等领域有着广泛的应用前景。如虹膜识
GIS的主要特点是空间的分布性、开放性、灵活性。从GIS本身的构成来看,数据的组织和计算模型支持下的软件的架构是其两个重要的方面,并决定了GIS的发展趋势。数据的分布性和软