论文部分内容阅读
句子检索在自然语言处理领域有着广泛的应用,一直以来都为人们所关注。在问答系统、自动文摘、EBMT、翻译记忆、新信息检测中,句子检索模块的检索质量会直接影响到上述系统的性能。然而,如何去衡量两个句子相似没有一个统一的标准,从不同领域出发,看待句子相似度的角度也就不同,这就导致了度量标准的不同。总之,到目前为止,不存在统一的度量标准;也可能不存在这样的标准,因为具体的度量准则是与具体的应用相关的。例如:在英汉双语例句检索系统中,两个句子语法结构相似,就可以认为这两个句子是相似的;而在基于FAQ的自动问答中,则需要两个句子意思基本相同。同时,随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,这在一定程度上阻碍了我国与国际专利技术的推广和交流。近年来,随着机器翻译技术的飞速发展,使得机器自动翻译和人机协同翻译成为了解决这一问题的有效途径。本文主要任务是:针对专利文献的自身特点,为人机协同翻译系统设计一种句子检索算法,以提高人机协同翻译系统的性能和效率。本文针对专利文献专业术语相对较多、形式规范、语言严谨、句子长度较长的特点,提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串算法(LCS)进行改进,并加入了词汇语义信息,使其具有模糊对齐的能力。同时,由于专利中术语较多本文提出了一种术语相似度计算方法,并把它加入到了句子的相似度计算中;为将语义相似与结构相似进行一定的结合,在计算句子相似度时加入了词类信息。这些都使得本文算法更适合专利文献中句子相似度的计算。实验结果表明该方法在专利句子相似度计算方面取得了较好效果,查准率达到了83.5%,比改进编辑距离和传统向量空间模型分别高出20%和17%。