基于定义的多策略同义术语识别方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:moniter2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章通过对国内外同义词识别方法、基于定义的同义词识别方法进行归纳总结,分析了各个方法的原理以及在应用过程中的优缺点。提出仅利用已有的术语及定义信息实现同义术语识别,并且针对单一方法不能实现全方位、多层次的同义术语识别问题,提出了利用多策略融合方法实现互补性地同义术语识别,并对国内外多策略同义词识别方法进行了归纳总结,发现融合方式大多数为多策略结果的合并去重和加权融合,尚未充分利用融合方法实现多策略的融合。因此,文章采用了三种融合方法进行多策略融合实验,探讨了利用多策略融合方法进行同义术语识别的效果。  首先,借鉴朱毅华的基于词素的字面相似度算法,设计了基于定义匹配的同义术语识别方法,将对术语的相似度判断转换成对术语定义的相似度判断,并且分别根据相同实词出现数量及相同实词出现位置设计了两种相似度计算方法。结合模糊综合评判原理,设计了基于模糊综合评判的多策略融合算法,在模糊综合评判中引入了连续属性离散化方法进行属性区间的划分,将样本的分布概率作为各个因素在不同区间下对应评判集的隶属度,采用了粒子群算法和交叉验证方法确定各个因素的最优权重分配。  然后,以新能源汽车汉语科技词系统中的术语及其定义作为语料进行实验,首先从字面、句法、语义三个角度分别选取了字面相似度算法、模式匹配算法以及定义匹配算法进行同义术语识别实验;然后从适用性的角度选择了线性加权组合方法、基于SVM的机器学习法以及改进的多策略模糊综合评判法进行多策略融合实验。  最后,利用了准确率、召回率及F值对实验结果进行评价。实验结果表明,三种单一的同义术语识别方法识别的准确率和召回率均较低,但是这三种方法的识别结果重合率低、互补性强,而采用多策略融合方法互补性地将这些单一的方法进行融合,实现了全方面、多层次的同义术语识别,提高了同义术语识别的准确率和召回率。
其他文献
用户教育是高校图书馆的一项重要工作,它担负着对高校图书馆用户的教育和培训任务。在当前的网络环境下,高校图书馆的信息环境、服务方式和用户需求的改变导致了用户对信息资源
传媒企业是以生产“知识产品”为主的企业。在知识经济时代,知识管理的实施直接关系到传媒企业核心能力与竞争优势的提升。本文首先通过对传媒企业的管理方式、核心能力以及价