基于感知器算法的高效中文分词与词性标注系统设计与实现

被引量 : 0次 | 上传用户:hardy_0205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词、词性标注是自然语言处理的基础性课题,是很多其他自然语言处理任务的基础,同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的中文分词、词性标注系统具有重要的学术意义和应用价值。本文着眼于构建一个性能优异、高效率的分词、词性标注系统。本文的研究内容主要包括三方面:词典和统计相结合的分词、词性标注方法,系统效率优化和性能提升以及基于感知器(Perceptron)算法的模型增量训练。本文使用词典与统计相结合的分词、词性标注方法,不仅使分词、词性标注达到了一个较好的性能,而且通过将词典信息融入统计模型实现了中文分词领域自适应以及词性标注效率的提升。在此基础上本文实现了基于感知器的并行训练算法,在保证性能的前提下大幅度提高模型训练效率。此外,本文还通过对模型文件的压缩来提高速度以及减小内存需求。同时,本文使用半指导方法利用大规模未标注数据进一步提升词性标注准确率。然后我们利用感知器算法属于在线(Online)算法的优点,提出了基于感知器算法的模型增量训练方法,并通过实验验证了增量训练方法在相同领域的有效性。最后我们通过对跨领域中文分词增量训练结果不理想的原因进行深入分析,将Stacked Learning框架引入跨领域中文分词中。实验结果表明,本文的分词、词性标注系统在性能上达到了目前分词、词性标注的最好性能,而且通过使用并行训练算法,可以大幅度的提高训练效率。实验结果也验证了本文提出的增量训练方法在相同领域数据中对于分词、词性标注任务的有效性。同时通过对比实验验证了Stacked Learning框架对跨领域中文分词的适用性。
其他文献
机器视觉伴随计算机技术、通信技术的发展,技术日臻成熟,已是现代加工制造业不可或缺的技术,广泛应用于产品包装、食品生产、国防安全、化学工业、建筑材料、电子加工、汽车
科学技术的进步和城市化趋势的加剧,使得世界超过近半数人口居住在城市,其比例还将不断增加,这就直接导致了人口密集、建筑物增加、水资源告急、绿地匮乏等一系列不堪设想的
【目的】本论文研究玉米品种、籽粒含水量、产量、种植密度、种植类型(行距)、植株高度、穗位高度、收割机类型及收割速率等因素对玉米机械收粒质量指标(籽粒破碎率、杂质率和损
近年来,我国物流行业发展迅速,但铁路货运占全国物流份额逐年下降,高附加值、高运价率货源逐年下降。随着2009年物流业被国家列入十大调整与振兴产业,以及2011年的《铁路“十
开关电源技术的不断发展使蓄电池充电技术取得了重要进步,各种采用开关电源技术的充电变换器被广泛应用于电力推动领域,如电动车、空间电源。在空间电源领域,开关电源主要主要应
目的探讨三镜联合治疗胆囊及胆总管结石的术后并发症及护理措施。方法对25例胆囊合并胆总管结石的患者行三镜(十二指肠镜、胆道镜及腹腔镜)联合胆总管探查术,并对术后并发症
<正>在《世界遗产名录》上,从来不缺少古代帝国的身影,历史沉浮给它们留下了举世无双的自然和人文景观。曾经叱咤一方的古代帝国,在白云苍狗后衰落。在这里,每一寸土地都深深
目的将细节思维管理方法应用于ICU护理工作中,以提高危重病监护病房的护理质量。方法通过细节思维方法找出护理问题的细节根源,解决临床护理问题,将细节思维管理贯穿于落实核
在传统媒体与互联网融合发展的路径中,新的媒体组织该怎样架构,新的内容生产流程该如何再造,新的媒体经营和管理模式该如何建立,这些现实问题深深困扰着传统媒体人。一方面,
<正>气管切开是头颈颌面外科及各种原因引起的下呼吸道分泌物潴留时常见的一种手术。而气管切开病人需要通过气管套管维持病人正常的呼吸,由于疾病不同,所选择的气管套管的种