论文部分内容阅读
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值,在自动标引、自动分类、机器翻译以及知识组织系统的互操作中,也起着重要的作用。 国外还没有对同义词的自动识别进行专门的研究,已有的研究只是侧重于词汇语义相似度的计算,其用途和目的并不是专门用于识别同义词。在国内,对于汉语同义词识别的研究才刚刚开始,主要侧重于基于词汇字面相似度的方法和基于义类词典的语义相似度方法。 为了提高同义词自动识别的效率,本文提出了从词典释义中自动发现和识别同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系,对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个结点代表相关词,每条弧代表了词汇之间注释与被注释的关系,如果词汇A的注释中出现了词汇B,那么在图中就有一条从B指向A的弧。然后我们利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了提取测试。 最后,利用VB.NET、SQL Server 2000、ASP等开发工具实现了基于词典释义的汉语同义词自动识别系统、并对系统运行结果进行了测试。测试结果表明,利用模式匹配和超链接分析方法来自动发现同义词具有可行性和实用性。 本研究中实现的系统尚处于实验阶段,有待进一步的完善。今后的研究包括:引入机器学习方法,自动获取模式;完善抽词词典、扩大语料的类别和规模等。