【摘 要】
:
中文分词是机器学习,自然语言处理中的一个基础部分,中文分词处理要对输入的中文语句在字、词、句三个层面上进行处理。在中文中,词是最小的语言单位,只有处理好中文分词的问
论文部分内容阅读
中文分词是机器学习,自然语言处理中的一个基础部分,中文分词处理要对输入的中文语句在字、词、句三个层面上进行处理。在中文中,词是最小的语言单位,只有处理好中文分词的问题,才能更好地进一步处理中文语句,所以中文分词是中文处理技术的基础。相对于英文,中文分词是一个相对复杂的问题。由于英文中词与词之间是用空格隔开,检索方便,也就不存在分词的问题。而中文语句没有分隔符,因此想进行中文处理,就需要专门的技术,这种技术也就是中文分词。随着自然语言处理的发展,中文分词技术也得到了很大的进步。出现了众多的算法。根据它们的特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。因为每种方法都有各自的优点和劣势,所以目前单一使用一种方法并不能达到让人满意的效果,而将其中的两三种方法结合起来,优势互补,相对来讲会得到更好的分词结果。本文在总结前人工作基础上,完成并实现了一个中文分词系统,中文粗分词模块采用的是基于统计的N-最短路径算法,即在早期召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段。在中文人名识别模块,加入了基于Trie树的快速人名识别,然后通过一种改进了的基于角色标注的人名算法识别出未登录词中文人名。实验证明,该方法具有较好性能和实用性。
其他文献
论及我国合同法现实违约行为的具体类型,民法学者的意见众说纷纭。以台湾民法处理类似问题的研究成果为借鉴,可以发现,为了与合同法中"不履行合同义务"和"履行合同义务不符合
公司治理在企业投资决策过程中发挥重要作用,公司治理水平直接关系到企业的投资效率。随着公司治理问题的深入研究,发现世界各国很多上市公司不是由公司第一大股东控制,而是
【研究背景】胃癌在全世界范围内属于高发肿瘤,其死亡人数位居恶性肿瘤的第二位。其中约90%的病例组织学分型为胃腺癌。胃癌也是我国最常见的恶性肿瘤之一,在我国其发病率居
作业本融入课堂教学,是发展学科核心素养的重要途径。将作业本有效地融入课堂教学,需要教师充分认识其本质和重要性,从教学目标需要出发,关注作业本的预习功能、重难点学习支
痛风是长期嘌呤代谢紊乱所导致的一种炎症性关节炎,具有一定的基因遗传性。基因突变所引起的功能缺失可导致原发性高尿酸血症与痛风,肾脏尿酸盐转运系统是原发性痛风相关基因
承运人识别是现阶段学界越来越受关注的课题。本文从承运人识别的重要性和困难性、承运人识别的几种国际通行标准等方面概括了承运人识别冲突产生的主要原因。在此基础上,本
在明代后期至清初的中国诗坛上,山左诗歌具有举足轻重的地位,尤其是清初山左诗坛号称“甲于天下”,取得了举世公认的瞩目成就,成为齐鲁文化发展史上的又一壮丽景观。在这一辉
目的:依据酶抑制原理建立有机磷(Organic phosphorus, OP)农药残留快速检测方法,制备快速检测试纸,建立用于普通民众日常检测水果、蔬菜中的微量农药残留,以及为农田、市场现
城市化进程的不断加快推动了我国建筑施工企业的发展,但随之而来的是更加激烈的市场竞争和经营风险。税务筹划作为建筑施工企业财务管理中的重要一环,它不仅能够影响企业的经
干水(dry water,DW)或干液体(dry liquid)是一种以水或液体为主要成分,外表被疏水性物质包裹的细微粉末状功能材料,具有良好的分散性、流动性。它区别于传统概念中气态、液态