论文部分内容阅读
中文分词是将中文文本中的词语按照一定的规则进行切分的过程。由于中文语句中字与字之间没有任何明显的切分标记,计算机无法对词语进行自动识别,因此必须利用相关的方法对语句进行处理。 中文分词是自然语言处理中最基本也是最重要的一个环节,分词结果的好坏直接影响后续工作的质量。国内外研究人员在分词领域做了大量的研究工作,同时取得了一定的成绩,提出了很多分词方法,能够将分词方法与实际应用相结合,是分词发展的最终目的。本文分词系统面向对象为科技文献,根据实际需要本文的研究工作主要有: 首先,术语抽取。科技文献中含有大量的具有一定代表意义的词语,我们称之为术语。对科技文献进行分词,术语能否正确切分对分词的结果有很大的影响,但是由于术语其本身的特殊性,在分词过程中难以对其正确地切分。针对这种问题,本文利用互信息原理对领域内的术语进行抽取,将获取的术语添加到核心词典构成分词词典,为下一步的分词做准备。 其次,分词算法改进。中文信息中,长字词代表的信息量较大,科技文献中术语以长字词为主,为了能够最大限度的保证长字词的正确切分以及减少匹配过程中无效匹配的次数,本文依据长词优先的分词原则,在传统最大匹配的基础上对分词算法进行了改进,保证了对长字词的正确切分,通过比较每一个字的构词长度,动态获取最大匹配词长,减少了无效匹配的次数,提高了分词效率。 再次,词典构造和歧义词处理。结合改进的最大匹配分词算法,在双字哈希结构的基础上对分词词典的结构进行了改进和设计,提高了词语匹配的速度。利用改进的最大匹配算法,采用双向匹配的方法进行分词,若分词结果相同,则输出分词结果,否则,句子含有歧义字段,利用统计与规则的方法对其进行消歧处理,最终得到正确的分词结果。 最后,分词系统设计。基于文中所提的算法,设计并实现了中文分词系统(CWSS),通过和其他分词系统与方法进行比较,验证了 CWSS对科技文献的分词具有一定的优势,符合实际需要。