基于语境信息的汉语组合型歧义消歧方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：grace_925

【摘要】

：

组合型歧义切分字段一直是汉语自动分词的难点，难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息，应用对数似然比建立了语境计算模型，并考虑了

【作者】

：

冯素琴陈惠明

【机构】

：

忻州师范学院计算机科学与技术系

【出处】

：

中文信息学报

【发表日期】

：

2007年6期

【关键词】

：

计算机应用中文信息处理自然语言处理汉语自动分词组合型切分歧义对数似然比语境信息 computer application Chinese info

【基金项目】

：

山西省忻州师范学院基金资助项目（200307）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

组合型歧义切分字段一直是汉语自动分词的难点，难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息，应用对数似然比建立了语境计算模型，并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上，1．使用语境信息中对数似然比的最大值进行消歧；2．使用语境信息中合、分两种情况下各自的对数似然比之和，取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验，前者的平均准确率为84．93％，后者的平均准确率为95．60％。实验证明使用语境信息之和对消解组合型分词歧

其他文献

基于粗糙集的基本名词短语识别

本文提出了一种基于粗糙集的基本名词短语(BaseNP)识别方法。该方法首先进行BaseNP标注,然后实现BaseNP识别。它把BaseNP标注看作一个决策问题用粗糙集理论解决,因而具有特征约简和规则优化的特点。文章介绍了基于粗糙集的规则学习方法和相应的算法,同时也给出了BaseNP标注和识别的算法流程,提出了解决实例冲突问题的方法,并提高了识别效果。文章最后给出了详细的实验步骤和结果,并与几个典型

期刊

人工智能自然语言处理基本名词短语粗糙集机器学习规则方法算法artificial intelligencenatural language pro

基于语境信息的汉语组合型歧义消歧方法

其他学术论文