面向文本识别流的自动校对算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cheng2008YING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息的飞速发展,各种中文输入技术被应用在电子信息的录入过程中。但是各种输入方法或者是由于用户的关系,或者是程序本身算法的关系,都不能保证输入信息100%的正确性。在知识信息化和出版电子化飞速发展的今天,文本手工校对不管是在时间上还是在人力成本上,都不能满足人们的需要。文本识别流的自动校对成为了亟需解决的问题。中文文本自动校对的研究总的来说还处在刚刚起步的阶段,从事这方面研究的人员还不是很多,公开发表的论文也比较少,已经提出的技术并没有针对特定的文本识别流做专门的研究。所以说,本文的研究工作具有一定的现实意义和实际应用价值。现在的自动校对中的查错主要采用三种方法:①利用文本上下文的字、词和词性等局部语言特征;②利用转移概率对相邻词间的接续关系进行分析;③利用规则或语言学知识。纠错方法主要有模式匹配,替换字表和似然匹配技术。本文在分析了文本识别流的特性的基础上,设计了面向文本识别流的文本校对算法。算法主要包括以下几个重要部分:提出了应用于自动校对处理的分词和词性标注一体化算法;通过对各种信息录入方式的录入过程分析,得到录入错误产生的原因与规律,并以此规律实现词条的混淆集生成算法;主校对程序采用了概率分析的方法,基于2-gram模型,实现查错和纠错一体化的算法,最终将校对中纠错建议的生成问题抽象成有向无回图的最短路径求取问题;对程序进行了改进和最优化处理,通过对测试集的处理,确定最优化的程序参数。在算法的实现上,本文采用了动态规划算法,大大减少了算法的时空复杂度。在处理过程上,系统首先对熟语料进行训练操作,得到相关的统计信息;然后通过对测试语料集的处理,得到程序的最优化参数;然后用算法处理待校对文本,得到该校对算法的查准率、查全率,纠准率及纠全率;最后对算法的结果进行分析,提出改进意见。本文的主要创新点在于:①针对不同识别流类型,例如拼音输入和五笔字形输入,提出了混淆集生成的具体算法;②分析文本识别流中错误的特点,以此选择制定合理有效的分词和词性标注算法;③使用最优化方法,确定程序中的参数,其中包括混淆集元素个数和最短路径的条数。试验结果表明,该系统能够有效的处理文本识别流的自动校对问题,很好的完成了系统的设计初衷。
其他文献
概述了国外主要高速列车转向架的发展技术、悬挂系统的结构特点和采用的新技术,简述了我国客车转向架发展进程和现状及典型列车悬挂系统的组成。进行了国内外高速列车悬挂系
<正>一、营造创新的气氛和环境与知觉联系起来的温和、愉悦、宽松的情绪,例如兴趣、快乐等能够积极促进认知行为的发生,这是心理学研究的结果。从教学过程我们也可以发现,学
采用薄层层析法对参红补血颗粒中的红景天、红参、黄精、白术进行定性鉴别.结果表明,红景天、红参、黄精、白术的薄层图谱清晰,并且阴性无干扰.建立的鉴别方法简便,可靠,专属
宋僧释文莹《湘山野录》(以下简称《湘录》)记载太宗即位之事 ,留下“斧声烛影”之谜 ,南宋李焘引入所著《续资治通鉴长编》(以下简称《长编》) ,遂启千古之论端。太祖究竟因
<正>该文分析了高血压脑出血患者立体定向外科手术与内科保守治疗的疗效。方法:回顾性分析2002-06-2009-10经立体定向手术治疗的高血压脑出血患者100例的临床资料,并与同期经
目的建立降脂灵颗粒质量标准。方法采用TLC法对处方中枸杞子、黄精、山楂、决明子进行定性鉴别;并采用HPLC法测定山楂中熊果酸的含量。结果薄层色谱均检出枸杞子、黄精、山楂
目的:观察益气养血汤联合复方苦参注射液治疗肿瘤恶病质的临床疗效。方法:使用随机平行对照方法,将收治的72例肿瘤恶病质患者随机分成对照组和治疗组,每组36例。治疗组给予益
<正>滋阴通脉胶囊是我院制剂,可滋阴补气,活血通络,主治脑血管病及周围血管病,症见头晕,口眼歪斜,上、下肢麻木,半身不遂等症。临床应用多年,疗效确切。1处方与胶囊内容物性
目的对菊黄口服液的质量控制方法进行研究,建立菊黄口服液定性、定量检测方法。方法采用薄层色谱法(TLC)对菊黄口服液方中枸杞子Lyycii Fructus和制黄精PolygonatiRhizoma进行