论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言的结果。
现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。
在自然语言处理领域,汉语词性标注一直是一项颇受关注的基础性研究课题。它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、OCR和文本核对等诸多领域的研究。
目前,基于统计的方法已在词性标注方面奠定了扎实的基础,它较之过去采用的基于规则的方法有了质的飞跃和突破。基于统计的方法有很多,如隐Markov模型、转换模型、最大熵模型、神经网络、决策树等,这些方法对英语文本中的兼类词的词性标注正确率不相上下。
本文扩展了传统的基于隐Markov理论的二元模型,提出了一种双向二元模型。同时,为了使模型参数能够随着新训练语料的增加而动态地进行调整从而能更好地反映语言现象,本文提出一种能不断地从新的训练语料中获取知识的参数估算法。本文利用经典的Viterbi算法在不同规模的训练语料情况下对同一测试集进行测试,对正向、反向与双向二元模型所得出的实验结果进行了对比。结果表明,双向二元模型的正确率和排歧率较正向和反向的来得高。