基于用户自适应的语句级混合语言输入方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:placaptain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字输入技术随着自然语言处理研究的进展而不断进步,其对应的输入法系统也不断地涌现。这些系统在满足一般性需求上已经取得了较好的成绩,但用户在转换准确率和转换速度仍有更高的要求。  由于受地域环境、教育程度、个人习惯等方面的影响,用户的词汇范围和语言习惯都是因人而异的,现有的汉字输入法系统在这两点上都有缺陷,没有充分体现用户的个性特征。另外,随着信息全球化的进程,混合语言也频繁出现在人们的日常生活中。但是现有输入法系统还不能较好的实现混合语句的输入,因此也很难满足人们日益增长的混合语言输入需求。  针对上述问题,本文主要研究了以下内容:  (1)语句级音字转换技术的改善:使用基于最短路径的切分算法进行音节的自动切分,得到一个完备的音节切分集;并以Trie树的结构存储词库,加快词网格的构建速度;  (2)设计实现了改进的用户自适应方法:包括设计实现了词库的自适应方法使系统词库用户个性化;设计实现了一种在线自适应方法快速地改变原有语言模型,达到贴近用户语言习惯的目的;  (3)设计实现语句级混合语言输入系统:通过引入混合语言困惑度的概念来区分混合语言的歧义,并与语言模型相结合来实现混合语言的输入;将本文中的自适应方法应用到混合语言输入中,使混合语言输入具有用户自适应能力;  本文通过IMM/IME挂接技术将上述方法应用到INSUN智能拼音输入法中,并完善了它的兼容性,使其能在Windows平台下的各种应用程序中使用。  最后,为了对系统取得真实、客观的评价,本文以音字转换准确率中的单字转换正确率和整句转换正确率为评价指标,进行了系统性能评测和多系统对比评测。在系统性能测试中,用户自适应方法取得了显著的效果,两项指标分别从原来的90.16%和52.09%提高到99.26%和93.97%,同时混合语言输入也取得了较好的效果,两项指标分别为86.32%和72.25%;在多系统对比测试中,本系统的两项指标均高于所对比的输入法,而且在语句级混合语言输入方面本系统也要优于所对比的输入法。
其他文献
随着计算机处理能力和存储能力提高,视频数据的采集和存储越来越容易,视频也广泛的应用到了人们生活的各个方面,通过网络分享各种视频使得网络上的视频数据量急剧增加,监控视频作
在经济全球化趋势下,越来越多的企业开始在不同区域内创办分支机构。为了满足办公信息化的需要,企业经常会基于广域网的传输通道建立集中化的数据、信息服务中心。因此,广域
随着互联网的快速发展,随之出现了大量的微博、商品评论信息,这些信息往往带有一定的感情色彩,反应了人们对社会、经济等事件的关注;对这些信息进行分析挖掘对消费者、生产者
中、西医学通过对人眼虹膜的长期研究发现,人眼虹膜组织结构会随着机体疾病的发生、发展而发生改变,并且根据虹膜结构的不同变化特征与机体的不同脏器病变相对应。本文的研究
无线传感器网络操作系统是对无线传感器网络的研究中最重要的部分之一,它与传统的嵌入式实时操作系统有很大的不同。WSNOS对传感器节点的能源、内存资源利用提出了更高的要求
Petri网是对离散并行系统建模的有效工具之一。Petri网的结构有直观的图形表示也有基于数学工具的抽象表述方式。它的理论发展为分析系统行为和计算机科学提供坚实的理论基础
软件定义网络(Software-Defined Networking,简称SDN)架构为未来网络和创新网络应用的研究提供了一种新的思路和解决方法,而构建方便的SDN网络实验平台将会推动SDN架构及其应
企业与服务智能计算建模工具(以下简称ICES-Modeling建模工具)是由哈工大ICES中心自主研发的一款面向企业应用的建模工具,它具有简单直观的特点。它提供了构建平台独立模型和
随着Internet和搜索引擎技术的发展,Web文档聚类已成为提高Web搜索和个性化服务的一个重要支撑技术,Web文档的表示则是影响Web文档聚类的结果的重要因素之一。目前Web文档聚
随着互联网应用的快速普及,网络安全和信息安全日益成为保障网上业务正常进行的关键。作为第一道安全防线,防火墙的地位显得尤为重要。防火墙位于内外网络的网关位置上,所有