汉语自动分词相关论文
一 引言建立一个“信息处理用现代汉语分词词表”是国家社科研究“九五”规划重大项目《信息处理用现代汉语词汇研究》之子课题 9......
伴随着互联网技术的飞速发展,信息获取已经逐渐成为人们生活工作必不可少的内容。但是由于信息量的日渐庞大,信息种类的复杂繁多,......
在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就......
随着信息技术的飞速发展,中文信息处理技术已经渗透到计算机应用的各个领域。词处理平台技术是中文信息处理的中间环节,是连接字处......
本文研究基于文本分类技术的自动诊病系统。已有病案记录了疾病现象与疾病种类的关系,利用机器学习方法构造分类器,可以习得疾病现象......
该文设计并实现了一个汉语自动分词系统,对系统中采用的关键技术进行具体介绍.词典查找是影响系统切分速度的重要因素.该文提出一......
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语......
随着Internet技术的飞速发展,WWW已成为人们进行信息交流不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的......
书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用......
分词词典是汉语自动分词系统的一个基本组成部分,词典的查询速度直接影响到分词系统的处理速度。在因特网上的中文文本检索、汉字......
汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之......
在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种......
未登录词的识别是汉语自动分词的难点之一,而中文机构名是未登录词的一个重要部分,涉及广泛,种类繁多,形态各异,且绝大多数未收入到词典......
自然语言处理是计算机科学领域中的一个重要研究方向,是人工智能的一个重要分支。汉语自动分词是中文信息处理的重要基石。困扰汉......
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术......
汉语自动分词是中文信息处理的基础工程,中国人名的自动识别则是汉语自动分词的难点之一,已经成为制约汉语自动分词系统准确率的一大......
自动分词技术是汉外机器翻译的基础工程。 汉语自动分词不仅是汉外机器翻译的必要环节,也是各种汉语信息处理包括语音处理、词频......
汉语分词是中文信息处理的基础,它是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统输入的是连续的字符串(C......
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置.三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现......
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判......
提出了汉字组合的组合度概念,讨论了组合度与组合的成词能力之间的关系,利用决策树的方法挖掘了组合度与分词模板的关系.在此基础......
随着汉语日益走向世界以及语音技术的发展,让计算机能讲汉语便自然成为了一种需求。介绍了一种汉语文语转换(TTS:Text—To—Speech......
首先从大规模语料中采集到组合歧义字段,进而对其搭配信息进行统计.最后应用多元对数似然比计算出消歧参数进行消歧,实验中考虑了歧义......
汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分又是影响分词系统切分精度的重要因素。在对已有方法深入分析的基础上......
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名......
分词词典是汉语信息处理系统的一个基本组成部分,其查询和更新效率将直接影响汉语信息处理系统的性能.本文采用PATRICIA tree的数......
本文提出了基于支持向量机(SVM)和k-近邻(k-NN)相结合的一种分类方法,用于解决交集型伪歧义字段.首先将交集型伪歧义字段的歧义切......
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体......
本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分......
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.本文首先分析......
组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息......
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词......
采用数论的思想结合计算机的算法设计技术,提出了一种新的基于统计学的计算机中文自动分词数学模型CNET及其算法.......
设计并实现了一个基于FAQ的自动答疑系统。阐述了自动答疑过程的主要环节和基本流程,介绍了系统实现的关键技术,包括改进的汉语自动......
介绍了软件组件结构一般模型及Microsoft公司的组件对象模型,并在此基础上,探讨如何将汉语自动分词与词性标注软件组件化.......
计算语言学是从语言学中分离开来的学科交叉的门类。汉语自动分词是计算语言学中的一个热门研究方向,研究发现,汉语自动分词的语料......
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个......
情报检索语言是一种表达文献情报内容概念及概念之间相互关系的标识系统,是根据情报检索的需要而创制的一种人工语言.情报检索语言......
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一......
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法。该算法首先学习要进行处理的汉语语料,构建CNET,......
组合型歧义切分字段一直是汉语自动分词的难点。用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭......
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生......
本文利用本体丰富的语义知识和语法结构及其共享性,构建了电子商务领域的本体知识库,用于解决数据的结构异构和语义异构问题。同时......
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的......
基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单......
基于三数组Trie索引树的分词系统采用由短词及长词的确定性工作方式,在对汉字串的一遍扫描过程中就能得到结果,避免了整词二分词典查......
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分......