基于深度学习的典籍介宾句法结构自动识别研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:BerrySZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古汉语典籍是中华民族文化和历史的承载与见证,通过典籍能够还原、了解中国古代社会的样貌,因此典籍中有着丰富的宝藏等待研究者去挖掘。随着科学技术的发展,人们开始用计算机来处理自然语言,有关自然语言处理的技术越来越多。虽然中文信息处理发展飞速,尤其是现代汉语文本方面取得了丰硕的成果,但有关古文信息化处理的研究较少,这与现代汉语文本成果形成了鲜明的对比。当前国内的古文信息处理的研究处于滞后状态且大多数研究都集中在典籍数字化、自动分词、词性标注等方面,少有关于古文句法层面的研究。要挖掘典籍中的知识,首先要实现对典籍的句法分析。句法分析就是分析句子中的词语语法功能,又分为句法结构分析和依存关系分析两种。但是完整的句法分析有较大的难度,可以通过浅层句法分析来解构句子的组成。介宾结构的自动识别就是浅层句法分析中的一部分。古汉语的语法与现代汉语的语法有较大的差异,这也是古汉语典籍晦涩难懂的原因之一,但是古汉语与现代汉语在介宾结构上有着很大的相似点,介宾结构有着引出相关的时间、地点、人物、原因、目的、方式等等语法意义,因而介宾结构的识别与结构的分析直接关系到人们对句子的理解。如果能够实现典籍的介宾结构识别,那么对人们理解古汉语典籍会有重大的帮助。本文借助深度学习的方法对典籍介宾结构的自动识别进行研究。本文共使用两个语料,一是清华汉语树库语料,二是《史记》。本文首先对两种语料中介词的情况进行了统计和对比,同时分析了清华汉语树库介宾结构内部词性的组合。通过介词情况统计发现现代汉语介宾结构在介词上与古汉语介词分布和用词大致相同,因此提出一种基于现代汉语介宾自动识别来标注古汉语中介宾结构的语料构建尝试。同时提出古代汉语介宾结构中存在的如宾语前置和宾语省略等问题。为构建典籍语料,本文借助条件随机场模型、LSTM模型和BERT模型实现了对清华汉语树库介宾结构自动识别研究并以不同的方式处理语料进行实验,对实验结果进行了分析,探究了影响介宾结构识别效果的因素。发现介宾结构识别中语料划分单位不同对识别效果有着影响,由于模型对中文词的边界判定较弱,词单位的语料识别效果一般高于字单位语料。借助完成的清华汉语树库介宾结构自动识别模型加上后期人工校对完成了典籍语料的构建并对典籍语料的介宾结构内部词性情况进行了统计分析。最后,本文借助LSTM模型和BERT模型进行了不同语料处理下的典籍介宾结构识别研究,实现了典籍介宾结构自动识别,模型最高调和平均值达到93.23%。基于构建的模型搭建了介宾结构自动识别平台。
其他文献
合成孔径雷达(Synthetic aperture radar,SAR)是一种获取遥感影像的重要手段,由SAR产生的图像中包含着丰富的信息,但也存在着大量的乘性斑点噪声,加大了图像的模糊程度,导致在后续进行SAR图像分割时无法得到理想的结果,因此,SAR图像分割一直是研究人员关注的热门问题。在已经提出的各种图像分割方法中,基于变分和偏微分方程的变分分割方法,凭借其独特的优势,已成为用于SAR图像分
活性染料墨水是影响喷墨印花质量的关键因素,它广泛应用于纤维素纤维的喷墨印花。墨水中的添加剂对染料的簇集结构、喷射性能和印花性能有至关重要的作用。针对实际生产中墨水的各项性能,研究了乙二醇和不同结构的活性染料的相互作用,探究了乙二醇对活性染料墨水物理性能和印花效果的影响,并使用表面活性剂对棉织物改性,提升乙二醇墨水的印花性能。这对于提升墨水的稳定性、喷射性能和印花效果具有重要的意义。本文选取乙二醇作
高尿酸血症(hyperuricemia)是一种由于体内尿酸水平升高而引起的代谢性疾病,可导致痛风、心血管疾病和肾功能衰竭等各种疾病。黄嘌呤氧化酶(XO)是核酸代谢的关键酶,催化次黄嘌呤和黄嘌呤生成尿酸。红棓酚(purpurogallin)是从植物中分离得到的天然多酚类化合物,具有显著的XO抑制活性,但因其易被氧化需通过结构修饰进行改造以开发成为先导药物。本论文以红棓酚为研究对象,进行生物活性和结构
小波分析是近年来出现的一门应用非常广泛的数学分析方法,在理论和实际应用中发挥着重要的作用,它在函数论,算子论,偏微分方程,非线性分析,算子论,数值分析以及图像处理,信号传输,数据压缩,边缘检测,数值分析以及图像处理中取得了巨大的成就.小波分析是工程师,数学家们和物理学家共同努力的结晶,是多元调和分析发展的壮举.随着小波分析迅速的发展,框架也受到人们越来越多的关注,框架是Riesz基的推广,是Duf
近年来,热激活延迟荧光(TADF,thermally activated delayed fluorescence)材料,因为不用重金属就可以实现接近100%的内量子效率,作为第三代有机电致发光材料近年来受到人们广泛关注。TADF材料的单重态-三重态激发态能量差(△EST)很小,可以将三重态(T1)激子反系间窜越(RISC)到单重态(S1),跃迁回到基态发出荧光,实现了 100%的内量子效率,它能
本文针对传声器阵列的声源定位性能进行研究,将分布式阵列结构特点引入规则传声器阵列中,通过合理扩大传声器阵列孔径的方法来改善传声器阵列声源的定位性能。对于构建的各传声器阵列结构进行了声源定位性能仿真分析以及实际噪声源测试实验。对比分析了规则传声器阵列与多种分布传声器阵列的声源定位性能。发现分布传声器阵列在一定程度上提高了规则传声器阵列的声源定位性能,并将分布传声器阵列应用于除湿机、低速运动汽车噪声源
随着互联网的蓬勃发展,我国使用移动设备的群体不断增多,移动设备的数量也正呈现出不断上涨之势,这显然给移动通信运营商带来了非常大的流量负担。当前,移动社交网络正面临的难题是如何在缓解网络压力和满足用户需求之间寻找一种平衡。为此,数据分流应运而生,作为一种新生的数据处理技术在学术领域受到广泛研究。其基本原理是部分用户直接向蜂窝网络请求数据后,利用其移动所带来的机会接触,将数据通过短距离通信分享至邻近用
近年来,由新闻、广播电视编导领域最初掀起的融媒体热潮已席卷诸多学科与专业领域。融媒体作为一种理念,宣扬“以发展为前提,以扬优为手段”的传播价值观。融媒体并非某种独立客观存在的媒体,而是整合多种媒体形式,全面优化媒体功能、手段、价值的运作模式,是顺应时代发展的科学方法。海报作为传统纸媒的代表之一,其发展势必呈现出“融媒化”态势。基于融媒体浪潮下传播环境和设计环境的转变和特点,探讨海报形态转化的方式、
学位
<正>班会课怎样上出特色,对班主任是个难题,也是挑战。设计不好,可能就上成了纯粹的说教课,老师说重复的话,学生听得厌烦。唆重复的说教,教育效果可想而知。一上课,我就说,本节课,我们准备组织一次赛跑,现在请大家主动报名。同学们听得莫名其妙,班会课怎么改成跑步课了?看着同学们一脸的惊啰
期刊