面向信息检索的汉语同义词自动识别

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jexwbx45535
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值,在自动标引、自动分类、机器翻译以及知识组织系统的互操作中,也起着重要的作用。 国外还没有对同义词的自动识别进行专门的研究,已有的研究只是侧重于词汇语义相似度的计算,其用途和目的并不是专门用于识别同义词。在国内,对于汉语同义词识别的研究才刚刚开始,主要侧重于基于词汇字面相似度的方法和基于义类词典的语义相似度方法。 为了提高同义词自动识别的效率,本文提出了从词典释义中自动发现和识别同义词的方法,使用超链接分析算法和模式匹配算法,从不同的角度提取同义词:第一部分是把词汇之间注释与被注释的关系看成是一种链接关系,对给定的词汇进行分析,把与给定词汇具有链接关系的所有相关词汇构造一个词汇图,图中的每一个结点代表相关词,每条弧代表了词汇之间注释与被注释的关系,如果词汇A的注释中出现了词汇B,那么在图中就有一条从B指向A的弧。然后我们利用超链接分析方法并结合PageRank算法,计算词汇的PageRank值,把PageRank值看成是体现词汇之间语义相似性的衡量指标,最后为每一个词汇生成候选同义词集,并通过一定的筛选原则和方法,推荐出最佳的同义词。第二部分是利用词汇定义模式,对词汇的释义方式进行分析,归纳总结出在词典释义中同义词出现的模式,进而利用模式匹配方法获取同义词。此外,利用模式匹配方法对Web网页和期刊论文中的同义词也进行了提取测试。 最后,利用VB.NET、SQL Server 2000、ASP等开发工具实现了基于词典释义的汉语同义词自动识别系统、并对系统运行结果进行了测试。测试结果表明,利用模式匹配和超链接分析方法来自动发现同义词具有可行性和实用性。 本研究中实现的系统尚处于实验阶段,有待进一步的完善。今后的研究包括:引入机器学习方法,自动获取模式;完善抽词词典、扩大语料的类别和规模等。
其他文献
我国传统文化艺术是中华民族灿烂的文化遗产,也是现代平面设计创作中的重要元素。随着现代平面设计在我国的发展,平面设计中的元素可以反映中国传统文化艺术。传统文化是文明
小明、小强和小勇三人共有故事书24本,如果小强向小明借3本,小明又借给小勇5本,结果三人的故事书的数量正好相等。这三人原来各有多少本故事书?我是这样解的可以用倒推的方法
高职院校财会专业要基于校企合作完善与教育目标匹配的实践教学体系,同时要联合教育部门出台推进高职院校实践教学的政策,提高校企合作双方的积极性,解决学生在实践学习中的
<正> 终止确认是指将一个已确认的项目从财务报表上注销的过程,具体到金融工具则是将已确认的金融资产或金融负债从资产负债表上消除。以金融资产为例,简单的终止确认可能是
目的在血小板直方图或形态异常时比较三种血小板检测方法,选择最佳方式用于临床。方法分别采用电阻抗法、光学法、电阻抗-拟合曲线法对35例血小板直方图未报警标本、100例仪
目的探讨磷酸氯喹在加速普通型新型冠状病毒肺炎(coronavirus infectious disease 2019,COVID-19)患者核酸转阴的临床疗效。方法纳入2020年2月21日至3月8日在湖北省洪湖市第
随着我国城市化进程的不断发展,公路工程的施工数量也在增多,但是在进行公路工程施工过程中仍存在一些问题,对公路路面造成损坏,这样会影响施工进度以及带来安全隐患。文章针