【摘 要】
:
中文信息处理的基础是分词。影响分词准确率的重要因素之一就是未登录词的识别,而未登录词识别的难点是专有名词识别。本文针对专有名词内部结构特点及其上下文词语环境特点,
论文部分内容阅读
中文信息处理的基础是分词。影响分词准确率的重要因素之一就是未登录词的识别,而未登录词识别的难点是专有名词识别。本文针对专有名词内部结构特点及其上下文词语环境特点,提出了一个以规则方法为主的专有名词统一识别方案。该方法利用从语料库中自动提取到的专有名词信息和采用基于转换的错误驱动学习方法获得的规则,对切分文本进行属性标注,最终实现专有名词的识别。此方法中专有名词词语信息和规则的提取完全采用机器学习的方式,具有在不受人工干预的情况下,改变训练样本即可适应新环境的特点。本文首先围绕专有名词识别问题展开讨论,在分析和比较了现有的专有名词识别方案和常用方法后,明确了课题目标;在此基础上,提出了一个以规则为主的专有名词统一识别方法;然后,在提出了课题的设计思想,对课题的设计方法进行了一个整体的概括介绍后,进行了详细的系统设计说明,主要包括:基本概念的定义、文本预处理、专有名词特征信息集的建立、规则的提取和属性标注等五个方面。最后,将系统的实现分为数据准备和识别程序两个方面进行了详细的介绍。文章提出了一个识别专有名词的方案,并且根据此方案实现了一个识别系统,同时进行了多项数据试验,对专有名词的识别研究具有一定的参考价值;开放测试的结果也表明,该系统的专有名词识别能力也达到了较好的实用水平。
其他文献
数字图像给人类生活带来了极大的便利,但它易被图像处理软件随意地修改,使其内容的真实性和完整性备受质疑,因此必须研究图像认证技术。传统的数字签名技术虽可对图像进行认证,但
嵌入式Intemet技术的飞速发展和广泛应用,给应用于电力控制领域的嵌入式操作系统带来了新的挑战——它带来高效、便捷的同时,也引入了安全问题。本课题针对传统的嵌入式操作系
安全空间数据库是当前信息安全研究的一个重要分支,具有广泛应用前景。该领域的研究具有较强的保密性,信息技术发达国家对我国一直施行尖端安全产品禁止输出策略,数据库安全产品
随着网络技术的迅猛发展,电子商务和电子政务等也发展迅速。信息安全显得尤为重要。数字签名技术是信息安全理论与技术的基础和重要保证之一。在传统的数字签名中,对信息的签名
随着计算机相关技术的迅速发展,医院信息系统(HIS)已经成为医院不可或缺的一种快速、高效、准确的管理工具和手段。目前的医院信息系统着重于医院业务流程的重组与实现,而医院
网络蠕虫能利用系统漏洞,自动传播,造成网络拥塞甚至瘫痪,具有极大的破坏性。自网络蠕虫出现以来,已经造成了数百亿美元的直接经济损失。网络蠕虫对抗技术的研究具有重大的现实意
随着电影业的发展以及互联网的普及,每年都会产生大量的多媒体信息。这些多媒体信息中(如电影等),往往会包含不健康的内容,尤其是暴力内容。由于多媒体信息的急剧增多,仅仅依靠人工
针对目前信息检索系统的缺点,在研究Web信息过滤理论的基础上,论文提出了一种基于用户兴趣的Web中文信息个性化信息过滤系统PWCIFS,该系统结合人工智能Agent技术、机器学习技术
无线传感器网络(WSN)已经被广泛的应用于军事、医疗、交通和环境监测领域。无线传感器网络操作系统作为对传感器节点的抽象,影响着传感器节点提供服务的方式。与传统嵌入式操作
农业知识管理系统(AKMS)是在现有农业专家系统基础之上,利用先进的信息技术,将信息咨询系统与相关的农业专家系统集成为一个整体,使之能够更方便的应用于农业生产之中,成为带