论文部分内容阅读
该论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究.汉语词法分析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好,这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周期.简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影响到高层应用的水平.在词法分析上,我们利用隐马尔可夫模型(HMM)提出了一种融和了分词、词性标注和命名实体识别的一体化词法分析方法.最初我们用基于类别的HMM,其优点是对词的覆盖面广,系统开销小;缺点是不能精确地预测词的出现概率.为了提升模型的准确率,我们引入基于词汇的HMM,并将两者有机地结合,并用一个"词到字"的概率平滑方法对基于词的HMM进行平滑.实验结果显示,我们的混合模型由于缩考虑到了字、词、词性以及命名实体的知识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM.此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功能模块的介绍,讨论了如何有效地存储和加载数据等一些技术细节问题.在口语句子切分上,我们提出了基于双向N元模型和最大熵模型的句子切分算法,这种算法由于通过最大熵有机地将正、逆向N元切分结合起来,综合考虑到了切分点左、右的上下文,从而得到了很好的切分效果.我们在中、英文语料上训练我们的模型并作测试,结果显示其在性能上明显优于基本的正向N元切分.在此基础上,我们分析并对比了各模型的切分结果,从而验证了我们当初对于模型的预计:其一方面保存了正向N元算法的正确切分,一方面用逆向N元算法有效地避免了正向算法的错误切分.在机器翻译的自动评估上,我们首先介绍了两种常用的基于参考译文的评估算法BLEU和NIST,然后给出了一种基于N元模型的句子流畅度评估方法E3.这种方法不需要借助任何参考译文,它通过区别地对待句子中不同的词的转移概率,达到了很好的评估效果.综上所述,该文针对汉语词法分析、口语句子切分和机器翻译评估提出了以统计模型为基础的创新方法,它们不仅仅在科学方法上有重要的参考价值,对于实际应用中也有重要意义.