论文部分内容阅读
术语是知识的结晶。分析术语是掌握特定学科发展方向的一种行之有效方法。术语提取技术是大规模本体工程自动或半自动构建的关键技术之一。基于语料库的术语自动抽取是自然语言处理的研究热点之一。目前,术语提取主要采用基于统计的、基于规则的和规则与统计相结合的方法。本文在文献综述的基础上,提出了一种基于词汇形态特征的术语提取方法,探索了词汇形态特征信息对提高术语自动抽取效率的作用。本文以容量为120万词的轮机英语语料库为基础,通过自编FoxPro程序对语料进行自动处理,对不同术语提取方法的效率进行了评估。本文主要比较了六种术语提取方法,即基于统计的方法、基于词性组合的方法、基于形态特征的方法、基于统计加形态特征的方法、基于词性组合加形态特征的方法以及基于形态特征加词性组合的方法。研究发现,基于形态特征和词性组合的术语提取方法准确率最高,基于词性组合加形态特征的方法次之,准确率分别为为44.60%和42.19%。就召回率而言,基于词性组合的方法以55.89%的召回率居首,其次是基于形态特征的方法,其召回率是49.96%。另外,基于统计的方法在准确率和召回率上表现都欠佳,但是加上形态特征的限定信息后,准确率和召回率都有所增加。可见,形态特征分析对于提高术语提取的效率具有深刻影响。