中文专有名词识别的研究

被引量 : 0次 | 上传用户:wstpxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文专有名词的自动识别是提高汉语分词系统正确率的关键技术,研究并实现有效的中文专有名词自动识别方法是本文的主要研究内容。 在深入研究现有中文专有名词识别方法的基础上,建立了一种基于支持向量机(SVM)的中文专有名词自动识别模型,并提出了四种不同的改进算法对中文专有名词进行识别:SVM和概率统计组合算法、修正的SVM-K近邻(KNN)算法、修正的SVM算法、聚类的SVM算法。 通过对SVM的识别结果进行分析发现,SVM和其它分类器一样,出错样本点多数集中在分类超平面附近。在SVM和概率统计组合算法中,对于分类超平面附近的样本采用概率统计方法进行识别,对于距离分类超平面较远的样本仍然使用SVM分类。 在修正SVM-KNN算法中,在特征空间中计算样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对样本进行分类,否则使用修正KNN方法。对样本在空间的不同分布使用不同的方法对SVM的识别效果进行优化。 在采用修正SVM-KNN算法识别过程中发现,训练集存在不平衡性,影响传统SVM算法的分类效果。因此提出了修正的SVM算法,采用平移超平面的方法对传统SVM算法进行修正。 为了消除SVM由于训练集中两类数目的样本不平衡而引起的分类错误,采用了聚类的SVM算法,对训练集采用基于核的K-均值算法进行聚类,从而减小了数据的不平衡性,然后将聚类后的训练集利用SVM算法进行学习得到训练模型。 本文结合中文专有名词的特点,首先对训练语料中每个字进行分类标注及词性标注,抽取特征向量的属性,将其转换为二进制表示,在此基础上建立训练集;分别建立基于以上四种算法的专有名词识别模型,采用四种模型分别实现对测试语料中每个字的分类标注,根据分类结果识别出专有名词。实验结果表明,SVM和概率统计组合算法、修正的SVM-KNN算法、修正的SVM算法、聚类的SVM算法均比传统的SVM算法更具优越性,达到了较高的精确率和召回率。其中,SVM和概率统计结合的混合模型的识别效果最好。
其他文献
小型水利工程数量多、结构灵活,适用于小型水体条件。部分小型水利工程设施的建设与运作,容易导致生态链断裂、水陆分隔等问题,且问题具有一定的衍生性,如果处理不及时负面影
准确掌握人工冻土的蠕变特性对控制冻结法施工的安全具有重要意义。目前常用的冻土蠕变本构模型是经验模型和整数阶元件模型,模型中的参数大多缺乏明确的物理意义或者参数繁
在RigakuD/max-2200型X射线衍射仪(XRD)定量分析软件的基础上,采用外标法制作了无机非金属材料中常用的石英、刚玉等9种组分进行物相定量分析时的标准曲线。结果表明:这些标准曲线
本文基于我国基本政策制度,选取2012—2015年A股上市公司为样本。研究发现,完善的内部控制对企业会计信息质量的提高起着关键性作用;高质量的内部控制能够加强企业的会计稳健
我国《行政诉讼法》第50条规定:“人民法院审理行政案件,不适用调解。”这一规定确立了我国行政诉讼制度中原告与被告之间不得调解的制度。这是由当时特殊时代环境决定的,但面对
本文力图系统论述博古的新闻实践、新闻思想,以及它们同相关因素之间的关系。通过博古一生中两个有转折意义的事件把他的新闻生涯分为三个阶段,研究博古各阶段新闻实践、新闻思
近年来,随着数字化医学图像采集设备的发展和普及应用,国内医院逐步引入了医学图像处理系统,传统的打印胶片正在被数字化的医学图像所取代。 医学图像的数字化管理为病人减轻
随着CAD技术的发展,CAD技术也日益融入到电气设计中。但是,最初的电气设计是在通用的CAD软件平台上进行的,虽然提高了电气设计的效率,但是,由于电气设计本身的复杂性和广泛性,单靠
牵引用蓄电池是电动车辆的动力能源,蓄电池的再充电使用一直是电动车辆的薄弱环节。本文介绍牵引用电池的内部工作原理,研究蓄电池的充放电过程,比较目前常用的充电方法优劣,
用开会方式解决问题,是人类千百年来总结出的非常完美的议事规则和沟通决策方式。作为我国行政工作的重要手段和重要组成部分,行政机关会议的质量、效能的高低,直接影响到行