面向中文专利文献的相似例句检索算法的研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 1次 | 上传用户:Eltonxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子检索在自然语言处理领域有着广泛的应用,一直以来都为人们所关注。在问答系统、自动文摘、EBMT、翻译记忆、新信息检测中,句子检索模块的检索质量会直接影响到上述系统的性能。然而,如何去衡量两个句子相似没有一个统一的标准,从不同领域出发,看待句子相似度的角度也就不同,这就导致了度量标准的不同。总之,到目前为止,不存在统一的度量标准;也可能不存在这样的标准,因为具体的度量准则是与具体的应用相关的。例如:在英汉双语例句检索系统中,两个句子语法结构相似,就可以认为这两个句子是相似的;而在基于FAQ的自动问答中,则需要两个句子意思基本相同。同时,随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,这在一定程度上阻碍了我国与国际专利技术的推广和交流。近年来,随着机器翻译技术的飞速发展,使得机器自动翻译和人机协同翻译成为了解决这一问题的有效途径。本文主要任务是:针对专利文献的自身特点,为人机协同翻译系统设计一种句子检索算法,以提高人机协同翻译系统的性能和效率。本文针对专利文献专业术语相对较多、形式规范、语言严谨、句子长度较长的特点,提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串算法(LCS)进行改进,并加入了词汇语义信息,使其具有模糊对齐的能力。同时,由于专利中术语较多本文提出了一种术语相似度计算方法,并把它加入到了句子的相似度计算中;为将语义相似与结构相似进行一定的结合,在计算句子相似度时加入了词类信息。这些都使得本文算法更适合专利文献中句子相似度的计算。实验结果表明该方法在专利句子相似度计算方面取得了较好效果,查准率达到了83.5%,比改进编辑距离和传统向量空间模型分别高出20%和17%。
其他文献
支持向量机是近年来流行的机器学习方法,建立在结构风险最小化原则的基础上,因此能够较好地处理小样本情况下的学习问题。然而在支持向量机算法的大样本学习应用中,存在着三
由于网络呈现多元化、多服务、多应用等特征。单一的检测方法和检测系统难以检测各种复杂攻击,综合多种检测技术或多个检测系统能够有效地提高检测准确性。然而各种IDS在检测
近年来,随着信息技术的不断发展,人们积累的信息量不断增加,传统的统计方法已经不能满足人们从大规模数据存储中获取知识的迫切需求。作为数据挖掘领域中的一个非常重要的研
汉语句法分析是中文信息处理的关键技术,是对汉语进行深层次理解的基础。句法分析性能的提高对于机器翻译、信息检索、信息抽取等应用技术性能的提高都会有巨大的推动作用。目
随着Internet的日益普及,Web应用的复杂性不断地增加,其规模也在不断的扩大,对于灵活性、可靠性和个性化都提出了更高的要求,这就给Web应用开发带来了新的挑战。 在现有的Web
随着Web 2.0等相关技术的应用和发展,社交网站蓬勃发展起来,深刻的影响着人们的生活。与此同时,移动终端的计算能力和功能也越来越强大,能够处理多媒体信息。另外,随着3G的到
插值技术是曲线曲面造型以及数字图像处理的重要方法之一,在工程设计、动画制作、视频图像处理等领域有着不可替代的作用。为进一步改进图形图像处理中使用的插值方法,本文对
近年来伴随着计算机网络通信和多媒体技术的迅速发展,数字媒体的传输、处理变得非常的方便。然而,任何事物都有正反两方面。数字媒体在带给人们方便的同时,也引入了一些潜在
电子图档的重用是提高CAD软件使用效率的重要手段之一,如何从大量的图档数据库中方便、快捷地查询与获取用户所需图档资料是其中的关键。目前,用户一般是根据图档的名称、设
随着计算机和网络技术的飞速发展,控制技术被广泛应用于工业、农业、交通、航天、管理以及人工智能等领域。由于传统的控制器具有兼容性差、结构复杂、二次开发困难和技术滞