【摘 要】
:
中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重
论文部分内容阅读
中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程。作为自然语言处理基础性任务,中文分词已经被广泛应用在相关领域中。因此,研究中文分词算法具有重要的理论和现实意义。为了满足上层应用对分词实用性要求,本文将机械分词和基于统计的分词法有机结合,提出了基于词典和统计规则的中文分词算法。该算法首先使用切分速度快的机械分词法对预处理后的文本进行初步切分,采用改进的双向最大匹配检测法检测出歧义字段,并运用基于二元统计模型的全切分消解歧义。其次,采用基于角色的命名实体识别方法识别出未登录词。最后,引入规则库对分词结果进一步修正。本文的研究工作主要有:采用二次索引的词典结构,提升词典查找速度,使用Java对象序列化技术实现词典文件的加载(反序列化)和词典对象的序列化。在未登录词识别方面,将隐马尔科夫模型中解决编码问题的前向Viterbi算法用以角色标注,采用角色模式集上的模式串匹配出中文专有名词。使用一个小型校正规则库进行分词碎片的修正。在歧义检测方面,提出了改进的双向最大匹配检测算法,不仅能检测到链长为奇数的歧义字段,而且能检测出所有同时满足链长为偶数且交段长度为1的歧义字段。在歧义字段上,采用全切分法消解歧义。目前中文分词软件包大都以C++语言开发,而作为主流开发语言之一的Java,其中文分词组件相对较少。因此,在分词算法的研究基础上,设计并实现了支持Java语言的中文自动分词系统。
其他文献
甾体药物广泛应用于医药领域,已成为仅次于抗生素的第二大类药物,大量的需求推进了它的发展,专一性强、安全、高效的微生物转化法逐渐成为甾体药物的研究热点。雄甾-4-烯-3,1
随着科技的进步,大众传播媒介发展迅速,人们越来越多地开始从媒介中寻找比较对象,在媒介所建构的社会中规划自己的行动。本文从媒介对理想化形象的建构和不同种族对媒介内容
<正>2006年1月,中国证监会发布《上市公司股权激励管理办法》,允许在我国境内上市的公司对其董事、监事、高级管理及其他员工管理人员(以下简称"激励对象")建立职工股权激励
<正>《小企业会计准则》于2013年1月1日起在小企业范围内正式施行,2005年1月1日小企业执行的《小企业会计制度》同时废止。《小企业会计准则》显著的特点:一是简化了会计核算
大规模隐式反馈数据的使用是推荐系统中的研究热点和难点问题。针对隐式反馈数据高噪声和缺少负反馈的特点,以音乐推荐为背景,在研究概率矩阵分解模型(PMF)的基础上提出了一种
从盆器选择、营养土配制、苗木准备、定植、整形修剪、施肥、浇水、疏果、果实套袋、病虫害防治、倒盆换土和根系修剪等方面总结了盆栽桃树的管理技术。
医学微生物学是一门重要的医学基础课程,具有知识点繁多、内容分散的特点。拥有高学历的青年教师正逐步成为高等院校的主力军,提高青年教师医学微生物学教学质量是亟待解决的
旅游安全是旅游业发展的一道防线,是我国旅游业发展的基础和保障。经过无数的事实证明,旅游安全事故的出现,严重影响了旅游活动的进展,不仅如此,还可能带来巨大的经济损失。
橡胶混炼是轮胎生产的第一道工序也是关键的工序之一,混炼设备机械性能的好坏直接影响着胶料的质量,从而影响着轮胎的质量和使用寿命。随着新材料和新工艺的出现,传统的炼胶设备