汉语名词复合短语识别与分类的方法研究

被引量 : 0次 | 上传用户:zhangtao707382332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名词复合短语(Noun Compounds, NC)作为语言中一种普遍的语法现象,近年来为自然语言处理领域的人们所关注。目前,对其研究范围主要包括:边界识别、语法分析、语义分析及其分类。本文的主要工作包括汉语名词复合短语的问题域的确定、名词复合短语的边界识别、名词复合短语的类别识别、名词复合短语和命名实体的一体化分析,以及名词复合短语的应用。本文首先对名词复合短语边界识别进行了研究。使用三种方法对边界进行识别,并对开发集上的识别结果进行比较分析,获得了边界识别的最优模型——基于候选集的最大熵模型。此外,根据名词复合短语的内外部知识(内部知识指短语内部词串属性,外部知识指短语所在上下文环境)提取了由26个特征值构成的特征模板进行模型训练,测试集上F值为89.2%。对于名词复合短语分类的研究,本文结合汉语中名词复合短语的语义特点及其在语言分析中的应用,构建了一个汉语名词复合短语分类体系。值得一提的是短语级命名实体符合名词复合短语定义,完全可以视为名词复合短语,从而为后文提出的一体化分析系统提供理论依据。短语分类依赖于短语本身的识别,为此本文从两个角度对其进行研究:一是两者共同识别;二是分类基于边界识别。结果表明,共同识别使得短语本身识别准确率下降,而基于短语识别保留了边界识别的准确率的同时使得类别识别效果得到提升。最后,本文对名词复合短语和命名实体的一体化分析进行了研究。由于命名实体与名词复合短语在组成结构、语法语义特点和应用领域上十分相似,短语级命名实体更是名词复合短语的一部分。为此,对短语级命名实体的识别可依赖于名词复合短语类别的识别。此外,本文还引入了多种扩展命名实体类别,将其应用到实际信息抽取系统中,取得了较好的效果。对于研究工作中的每一种课题类别,本文都尝试从多角度、以多模型解决问题,以期从研究结果的对比中加深对问题本质的认识,从而优选最适合的模型来搭建名词复合短语分析系统平台。
其他文献
惩罚教育作为一种常规的教育方式,在学生管理工作中有不可估量的积极作用。本文从惩罚教育的含义入手,探讨其存在的必要性及发挥的作用,也阐明了在实施惩罚的过程中应注意的
为评估Cu2+,Hg2+,Cr6+,Cd2+,Li+,Al3+和Co2+7种金属离子对中国林蛙(Rana Chensinensis)和中华大蟾蜍(Bufo gargarizans)蝌蚪的急性毒性效应,采用生物毒性试验方法对中国林蛙和中华大蟾蜍
本研究透过职业阶层、教育与政治资本三个重要因素,侧重分析了市场化改革过程中国家力量对劳动力市场中收入分配的影响。在国家规制影响较大的劳动力市场部门,职业阶层间收入
音乐作为黑格尔阐述浪漫型艺术这一特定阶段的艺术门类,不仅表现出所有艺术的共性特质,而且由于艺术本质的充分表达而成为"最自由的艺术"。黑格尔的音乐哲学基于他的哲学思辨
发动机发生故障时,时常伴随着异常声音出现。分析了几种故障产生的原因及异响特征,并提出了排除方法,以供参考。
近年来,商标日益成为违法犯罪分子关注的焦点,其中,假冒注册商标罪尤为突出,不但数量激增,而且危害十分严重,由于理论界对其客观要件的认定存在不少争议,这在一定程度上影响
以阶层结构、基尼系数、社会流动率为代表的分析工具能够对现实社会分层与不平等状况展开客观描绘和测量,而阶层意识、地位认同、“分配公平感”“群体冲突感”等主观维度则
研究了CVVT系统对汽油机功率、油耗以及缸内燃烧状况的影响。装有CVVT机构发动机与普通发动机万有特性的对比表明,CVVT发动机的低燃油消耗率分布区域比普通汽油机宽广。分析
1949年以来,台湾当局由于采取了不同于中国大陆的发展路径,形成了截然不同的社会、经济、政治制度,其医疗健康保险制度便是典型一例。这项制度经过了50多年的发展,直至1995年
1926年中国第一部动画片《大闹画室》诞生,起步很早中国的动画早期拥有傲人的成绩,但在发展中败落下来。本文将在我国动漫(动画)传播现状简述我国动画电视传播的发展,国内动