基于字符串相似度的维吾尔语中汉语借词识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：a53479051

【摘要】

：

维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别

【作者】

：

米成刚杨雅婷周喜李晓杨明忠

【机构】

：

中国科学院新疆理化技术研究所,中国科学院大学,哈密地区电子政务办公室

【出处】

：

中文信息学报

【发表日期】

：

2013年05期

【关键词】

：

借词未登录词发音相似度字符串相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。

其他文献

融合字特征的平滑最大熵模型消解交集型歧义

交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀

期刊

计算机应用中文信息处理分词交集型歧义融合丰富字特征最大熵模型平滑技术computer application Chinese informati

基于字符串相似度的维吾尔语中汉语借词识别

其他学术论文