论文部分内容阅读
汉字输入技术随着自然语言处理研究的进展而不断进步,其对应的输入法系统也不断地涌现。这些系统在满足一般性需求上已经取得了较好的成绩,但用户在转换准确率和转换速度仍有更高的要求。 由于受地域环境、教育程度、个人习惯等方面的影响,用户的词汇范围和语言习惯都是因人而异的,现有的汉字输入法系统在这两点上都有缺陷,没有充分体现用户的个性特征。另外,随着信息全球化的进程,混合语言也频繁出现在人们的日常生活中。但是现有输入法系统还不能较好的实现混合语句的输入,因此也很难满足人们日益增长的混合语言输入需求。 针对上述问题,本文主要研究了以下内容: (1)语句级音字转换技术的改善:使用基于最短路径的切分算法进行音节的自动切分,得到一个完备的音节切分集;并以Trie树的结构存储词库,加快词网格的构建速度; (2)设计实现了改进的用户自适应方法:包括设计实现了词库的自适应方法使系统词库用户个性化;设计实现了一种在线自适应方法快速地改变原有语言模型,达到贴近用户语言习惯的目的; (3)设计实现语句级混合语言输入系统:通过引入混合语言困惑度的概念来区分混合语言的歧义,并与语言模型相结合来实现混合语言的输入;将本文中的自适应方法应用到混合语言输入中,使混合语言输入具有用户自适应能力; 本文通过IMM/IME挂接技术将上述方法应用到INSUN智能拼音输入法中,并完善了它的兼容性,使其能在Windows平台下的各种应用程序中使用。 最后,为了对系统取得真实、客观的评价,本文以音字转换准确率中的单字转换正确率和整句转换正确率为评价指标,进行了系统性能评测和多系统对比评测。在系统性能测试中,用户自适应方法取得了显著的效果,两项指标分别从原来的90.16%和52.09%提高到99.26%和93.97%,同时混合语言输入也取得了较好的效果,两项指标分别为86.32%和72.25%;在多系统对比测试中,本系统的两项指标均高于所对比的输入法,而且在语句级混合语言输入方面本系统也要优于所对比的输入法。