基于蒙古语语料库地名自动标注研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:cramzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体的自动标注是自然语言处理技术中一项重要及基础的任务。蒙古文地名是蒙古语信息处理的重要组成部分,并且蒙古文具有较复杂多样,构成随意地名的特点,导致蒙古文自动标注成为自然语言处理的一个比较艰难的任务。论文基于《现代蒙古语100万词级的语料库》,对句子中出现的地名进行分析研究并总结出地名主要特点,探究了地名的地名的语义分类及其相关标记集子。从而建立了地名自动标注软件。全文由导论、主要章节、结论等部分组成。导论部分,阐述了选题意义、研究概况、研究对象与研究方法、语料来源与论文步骤;第一章,基于《现代蒙古语100万词级的语料库》,对句子中出现的地名进行分析研究并总结出地名主要特点;第二章,基于地名特征,对地名进行语义分类为地名自动标注提供标记符号;第三章,建立地名知识库;第四章,进行了地名的自动标注,分析了标注结果并提出了存在的问题以及解决方法;结论部分,总结全文并提出了今后要研究的问题。
其他文献
城市轨道交通作为公共交通客流量的分担措施之一,能够解决因客流量预测不准确而带来的资源浪费和低效益问题。建立一种新的GSO-BPNN方法,该方法在BP网络的基础上植入GSO算法,
个性化反馈信息对于提高评分员的评分质量的作用已经在以前的研究中有涉及,但是不同的实验设计使得实验结果不尽相同。至今为止,对于评分反馈信息的作用还没有统一的定论。因此
《喜福会》是美国华裔女作家谭恩美的代表作,描述的是四位华裔女性与她们的从小在美国长大、接受美国教育、被西方思维方式所熏染的女儿们的冲突和最后因爱而融合的感人故事
围绕疑难案件在哈特与德沃金之间引起过争论 ,并导致疑难案件的界定标准也成为一个重要的理论问题。本文整理了有关这一标准的当前共识 :法律规则的四种局限与法律的不确定性
我国学术界、实务界对刑法第八十八条第一款中“逃避侦查或者审判”的理解存在很大争议。所谓“逃避侦查或者审判”,是指逃避公诉案件的侦查和审判,以及逃避自诉案件的审判。但
报纸
自改革开放以来,四川省的国民经济一次又一次跨越式的增长。然而高速的经济增长却是伴随着较高耗能、低效率的增长方式。在当前,节能减排思想已经受到越来越广泛的关注,经济
随着WEB2.0时代的到来,一种新型的媒体形式——微博,越来越多地出现在人们日常生活中,并影响着人们的观影消费。随着《失恋33天》创造了票房"奇迹"和《老男孩》火爆网络,网络
黄土在我国分布广泛,由于黄土具有疏松、大孔隙、湿陷性等特点,在黄土高原地区蕴藏着滑坡、滑塌、崩塌、泥石流等一系列地质灾害。这些地质灾害蕴育和发生与黄土体中的节理、裂
梁启超对中国传统史学的批判是中肯而全面的 ,他并未彻底否定传统史学 ,而是努力从传统史学体系中汲取合理内核 ;在对传统史学的激烈批判和对西方史学的热情介绍基础上 ,梁启
Internet的快速发展、经济发展的全球化、网络化促使网络在商品流通领域扮演着越来越重要的角色。一些企业和个体销售商已认识到网络市场的巨大空间,许多顾客也从网上商店满