【摘 要】
:
中文分词是指将汉语句子按一定规则切分进而得到单独的词的过程,是中文自然语言处理中最为基础的任务。中文分词方法根据其原理可分为三类:基于规则的中文分词方法、基于统计的中文分词方法和基于序列标注的中文分词方法,目前来看第三种方法的分词效果最好。得益于计算机性能的大幅提升,神经网络再度兴起,基于序列标注思想的深度学习方法成为中文分词研究的热点。本文提出了一种以序列标注为基本思想,基于BERT模型和条件随
论文部分内容阅读
中文分词是指将汉语句子按一定规则切分进而得到单独的词的过程,是中文自然语言处理中最为基础的任务。中文分词方法根据其原理可分为三类:基于规则的中文分词方法、基于统计的中文分词方法和基于序列标注的中文分词方法,目前来看第三种方法的分词效果最好。得益于计算机性能的大幅提升,神经网络再度兴起,基于序列标注思想的深度学习方法成为中文分词研究的热点。本文提出了一种以序列标注为基本思想,基于BERT模型和条件随机场的中文自动分词模型。模型使用BERT模型作为特征提取器,可以得到包含丰富上下文信息的动态字向量,并使用条件随机场来强化学习标签之间的依赖。本模型较以往基于深度学习方法的优点在于,动态字向量的应用解决了一词多义的问题,而注意力机制的使用解决了长距离信息丢失的问题,更加完整地保留了上下文信息,这两点的改进使分词精度也随之提高。此外,本文还提出了一种基于不同标签集的分词结果优化规则,通过不同标签集分词结果的互补性进一步提高了分词精度。本文选取第二届国际汉语分词测评中北京大学和微软中国研究院提供的语料库进行实验,并采用该测评提供的评价标准,将本模型实验结果与其他方法在这两个数据集上的分词结果进行对比分析。实验表明:本文模型取得了理想的效果,经过优化规则处理后,在北京大学和微软中国研究院语料集上的F值分别为95.5%和97.5%,未登录词召回率分别为75.2%和77.1%,证明了本方法具有可行性,对比其他现有方法也体现出一定的优越性。
其他文献
稀疏约束模型是近年来的热点研究方向之一,主要被应用在机器学习和模式识别的领域,如人脸识别、目标追踪、高频遥感影像分类等。从相关的研究中可以得出稀疏约束的两大优势:提高模型的鲁棒性和提取高维数据的有效分类特征。为了提高稀疏约束的迭代效率,研究者们提出了新颖的基于协同约束的模型。协同约束模型在保留原有优势的基础上,大幅度地提升了计算速度,并且在人脸识别应用中取得了令人满意的结果。在实际应用中,人脸识别
在人类思想理论的历史卷轴中,马克思主义的出现是浓墨重彩的一笔。马克思的理论思想是被一次又一次的现实问题千锤百炼,被实践多次检视过的真理,是帮助人类对世界进行认知过程和改造过程的重要武器。在完整且成体系的马克思主义理论大框架中,拜物教批判理论具备不可替代的理论与现实意义。马克思对原始拜物教的研究及对资本主义社会中的拜物教现象的批判,是其提出剩余价值论从而揭示资本主义虚假面具的来源,拜物教批判理论由此
信道均衡作为一种用于数字通信系统中的抗衰落技术,被广泛应用在现代通信中。自适应均衡技术通常需要发送训练序列用以训练均衡器抽头系数,造成了一定的资源浪费。因此,不需要发送训练序列的盲均衡技术逐渐受到研究人员的青睐。近年来,随着机器学习(Machine Learning,ML)的蓬勃发展,基于机器学习理论的盲均衡方法得到了普遍的关注。在现有基于机器学习理论的盲均衡方法中,支持向量回归(Support
近些年来,随着科学技术的发展,人类逐步进入大数据时代。所产生的的数据量每年以指数级增长,大量的数据对于人类的发展也起到了十分重要的作用。数据量的不断增加导致从数据中提取到的特征的数量也在增加,如何有效利用与处理数量如此庞大的特征数据既是机遇也是挑战。特征选择是一种很常见的用于除去冗余与无效的特征的方法。但是一些常见的特征选择方法通常会有一些缺点,例如基于Filter特征选择算法得到的特征子集在使用
肺部疾病是医学研究的一个重要领域。无论是2020年在全球爆发的新型冠状病毒肺炎(COVID-19)疫情,还是2003年的非典型肺炎(SARS),都是病毒感染肺部引发的疾病。当前,对多种肺部疾病的研究关注于肺部血管的变化情况,如肺动脉高压、血管性病变、动静脉畸形等。为了能够早发现、早治疗,在早期诊断中通常会使用计算机辅助诊断(Computer Aided Diagnosis,CAD)技术,而快速精确
异常检测是寻找或识别异常值(与数据集中正常模式不一致的值)的方法或过程,具有十分广泛的实际背景和巨大的现实应用潜力。例如,发现异常驾驶车辆对交通系统的正常运行起到辅助作用、异常股票交易识别有利于股市的健康发展、桥梁裂缝异常检测对工程安全起到关键作用、异常网络入侵识别保证用户安全隐私等。由于问题的重要性,异常检测受到越来越多的关注。目前,异常检测中一些常见算法如2、孤立森林、LOF、神经网络重构等算
随着微电子技术的不断发展,在芯片的设计规模日益增大的情况下,协调并实现数据在芯片内部计算单元之间的快速传输,是芯片性能继续提升的保证。片上网络主要用于传输数据,而网络路由算法则用于通过控制网络来协调数据在计算单元之间传输。在众多片上网络结构中,Crossbar网络是一种传输速度快、并行度高的网络结构,被广泛地应用于连接多核以及网络互联等领域中。然而,采用同步电路实现的Crossbar网络,随着芯片
随着互联网技术的发展,国民经济、信息化水平的提高,在线教育服务行业也保持着高速增长的发展态势。用户对在线教育也提出了新的需要,在线教育正朝着个性化的方向发展。知识追踪模型是使用人工智能方法实现在线教育个性化的有效手段之一,它能够对学生学习状况进行准确诊断,并根据不同学生的特点进行个性化导学,为教师与学生带来便利,有效地提升在线教育的效率。然而目前的知识追踪模型,仍然存在一些问题:(1)模型预测结果
随着互联网的发展与壮大,越来越多的人在互联网上发表自己的观点,例如电影评论、电商评论、社会热点评论等。互联网上的这些文本具有极高的价值,如何挖掘文本中蕴藏的情感倾向已经成为了研究热点。传统的基于情感词典的方法已经无法适用于海量数据,机器学习方法的效果过于依赖人工设计的特征,因此本文将研究深度学习方法在情感分析任务中的效果。本文从网络中的公共数据集选取了两个不同类别的中文文本数据集。首先,对两个数据
针对安检机系统违禁品小目标、多目标以及目标之间相互遮挡等情况导致的检测精度不佳的问题,本文提出了一种基于RetinaNet模型改进的二次定位的目标检测模型Att-RetinaNet。首先,以RetinaNet模型为基础,通过特征金字塔(FPN)模型实现局部特征与全局特征的二次融合。其次,在融合特征之后加入自我注意力(Self-attention)模块,实现在通道与空间上的信息交互,使得模型能够筛选