论文部分内容阅读
随着电子信息的飞速发展,各种中文输入技术被应用在电子信息的录入过程中。但是各种输入方法或者是由于用户的关系,或者是程序本身算法的关系,都不能保证输入信息100%的正确性。在知识信息化和出版电子化飞速发展的今天,文本手工校对不管是在时间上还是在人力成本上,都不能满足人们的需要。文本识别流的自动校对成为了亟需解决的问题。中文文本自动校对的研究总的来说还处在刚刚起步的阶段,从事这方面研究的人员还不是很多,公开发表的论文也比较少,已经提出的技术并没有针对特定的文本识别流做专门的研究。所以说,本文的研究工作具有一定的现实意义和实际应用价值。现在的自动校对中的查错主要采用三种方法:①利用文本上下文的字、词和词性等局部语言特征;②利用转移概率对相邻词间的接续关系进行分析;③利用规则或语言学知识。纠错方法主要有模式匹配,替换字表和似然匹配技术。本文在分析了文本识别流的特性的基础上,设计了面向文本识别流的文本校对算法。算法主要包括以下几个重要部分:提出了应用于自动校对处理的分词和词性标注一体化算法;通过对各种信息录入方式的录入过程分析,得到录入错误产生的原因与规律,并以此规律实现词条的混淆集生成算法;主校对程序采用了概率分析的方法,基于2-gram模型,实现查错和纠错一体化的算法,最终将校对中纠错建议的生成问题抽象成有向无回图的最短路径求取问题;对程序进行了改进和最优化处理,通过对测试集的处理,确定最优化的程序参数。在算法的实现上,本文采用了动态规划算法,大大减少了算法的时空复杂度。在处理过程上,系统首先对熟语料进行训练操作,得到相关的统计信息;然后通过对测试语料集的处理,得到程序的最优化参数;然后用算法处理待校对文本,得到该校对算法的查准率、查全率,纠准率及纠全率;最后对算法的结果进行分析,提出改进意见。本文的主要创新点在于:①针对不同识别流类型,例如拼音输入和五笔字形输入,提出了混淆集生成的具体算法;②分析文本识别流中错误的特点,以此选择制定合理有效的分词和词性标注算法;③使用最优化方法,确定程序中的参数,其中包括混淆集元素个数和最短路径的条数。试验结果表明,该系统能够有效的处理文本识别流的自动校对问题,很好的完成了系统的设计初衷。