【摘 要】
:
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,
【机 构】
:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所
【基金项目】
:
国家“九七三”重点基础研究发展规划项目 (G19980 3 0 5 0 7 4,G19980 3 0 5 10 ) ;中国科学院计算技术研究所领域前沿青年基金项目( 2 0 0 2 6180 2 3 )
论文部分内容阅读
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 ,层叠隐马模型能够解决好汉语词法问题
其他文献
<正> 中央军委决定在本会参谋部成立编辑委员会,并指定叶剑英、朱云卿、郭化玉(即郭化若),左权、杨立三、范树德、林彪、林野、黄公略、陈奇涵、耿凯、邓萍、曾士峨等十三人
函数的一致连续性是数学分析所讨论的函数的一个重要性质.本文总结了各种区间上一元函数一致连续性的若干个判别方法,帮助读者系统的掌握区间上函数一致连续性的基本知识.为
目的揭示喷丸处理对7075-T651铝合金材料表面应力场和形貌改变的作用机制。方法首先利用ANSYS/LS-DYNA有限元软件分别建立单颗弹丸和多颗弹丸撞击铝合金靶材的有限元模型,并
连续型交通网络设计问题是研究如何用定量的方法在已有交通网络上扩容某些路段的问题。基于循环经济的核心思想,提出了同时考虑路网系统阻抗最小化、资源节约、环境保护及用
介绍了作者参与的一某50万吨/年工程塑料项目中公用工程部分的EPC总承包项目。作者参加了该项目的部分设计工作,项目后期进驻到施工现场参加了现场服务工作,通过对在现场服务
以牡蛎壳为载体,采用超声浸渍法-焙烧制备牡蛎壳负载铜的催化剂,利用电镜扫描(SEM)、X射线衍射(XRD)对催化剂进行表征。以酸性红FRL为降解目标物,研究此催化剂催化过硫酸钠降
<正>江苏南通市委组织部顾裕岳:这些年来,一些地方和单位在党的建设中喜欢开展一些新活动,推出一些新载体,称之为党建工作的载体创新、方式创新,但实际成效却微乎其微。这是
采用三种免疫程序制备兔抗马IgG血清的比较陈孝婷,马筱玲,周学良,范亚民,王盟,秦刚,谢小荣,刘哈霆(卫生部兰州生物制品研究所730046)建立检测抗狂犬病血清效价的ELISA法,需高质量的酶标记抗体。为此,我
承认理论是西方马克思主义代表人物霍耐特道德哲学、政治思想的核心内容,它在主体间建构了"爱、法律和团结"的承认模式和"强暴、剥夺权利、侮辱"的蔑视模式。用此理论审视当
经济全球化大大加快了高等教育的国际化步伐,实施中外合作办学已经成为目前高校引进优质国外教育资源的重要途径。在总结国内外学者对高校中外合作办学人才培养的基础上,结合