论文部分内容阅读
汉字输入技术一直是中文自然语言处理研究的热点问题之一,具有广泛的应用前景。本课题主要研究智能移动平台下的语句级智能汉字输入技术,并在新出现的移动平台操作系统—Android下,提出了一套新的解决方案。该输入法具有较高的音字转换准确率和智能性,为智能移动设备用户提供了一种高效的中文输入方式。本文主要介绍其设计和实现两个方面:首先,针对移动设备存储空间有限的特点,结合现有的信息检索和数据压缩技术,利用Trie-tree在检索速度和存储空间方面的优势,设计了一套新的数据压缩存储格式,使得查找拼音和词语的组合能在线性时间内完成。在拼音音节切分问题上,提出了一种新的音节切分算法—最短路径音节切分算法,该方法不仅在处理全拼切分时具有完备性,而且为简拼输入提供了很好的支持。在音字转换问题上,采用N元文法语言模型,并利用N-best剪枝技术进行优化。优化后的模型,在基本不降低音字转换率的同时,具有更少的计算开销,为输入法能在移动平台上流畅运行提供了保障。选用三万常用词作为词库,用2007年人民日报作为训练语料来建立模型。经评测,该输入法拥有完备的音节切分功能,音字转换准确率为86.92%。输入法软件实现时,采用基于Android系统的IMM/IME(Input Method Manager/Input Method Editor)框架技术开发输入法,并多次对代码进行优化。基于上述模型和算法,本文实现了一个可在资源相对有限的移动平台上流畅运行的语句级智能汉字输入法。该系统以语句为输入单位,支持简拼和词语级联想功能,输入效率高。支持Android 1.5和OMS 1.5操作系统,平台兼容性好,适用范围广。该输入法在多普达A3288手机上运行稳定,并通过了中国移动MMarket严格的―商用发布前测试‖,已于2010年05月17日在该平台进行―商用发布‖。与此同时,在各个输入法相关论坛的推广也在进行中。