【摘 要】
:
随着互联网的不断发展,网络数据的激增,互联网中的数据包含的信息也开始爆炸式的增长。如何快捷准确的从海量数据中抽取知识,并将提取的知识应用到各个领域成为当下研究的热点。目前对于英文隐含关系的抽取和实体识别有很多研究成果,但中文的研究却十分欠缺。为此,本文针对中文研究设计了命名实体识别和关系抽取的模型。传统基于特征的方法较为成熟,且提升空间有限,为了进一步提升模型的自动化和性能,本文着重研究了基于统计
论文部分内容阅读
随着互联网的不断发展,网络数据的激增,互联网中的数据包含的信息也开始爆炸式的增长。如何快捷准确的从海量数据中抽取知识,并将提取的知识应用到各个领域成为当下研究的热点。目前对于英文隐含关系的抽取和实体识别有很多研究成果,但中文的研究却十分欠缺。为此,本文针对中文研究设计了命名实体识别和关系抽取的模型。传统基于特征的方法较为成熟,且提升空间有限,为了进一步提升模型的自动化和性能,本文着重研究了基于统计机器学习和基于深度学习的命名实体识别模型和关系抽取模型。本文模型以先进的词向量技术作为基础,以传统机器学习和深度学习的理论为指导,分析、训练、比较了模型的表现效果。本文主要工作包括如下几个方面:1.传统层叠马尔可夫的命名实体识别需要人工总结实体领域命名实体的构成规律。本文结合词向量技术,让模型学习命名实体的构成规律,增加算法的自动化程度,减少算法对先验知识的依赖,使该算法有更为通用的使用场景,提高其跨领域的使用。2.在关系抽取任务中,结合多种的词向量、深度学习理论构建模型。使用transformer,解决一词多义问题。并使用绝对位置嵌入和相对位置嵌入解决网络对语序信息的捕捉。3.构建了文本分析处理系统,系统集成多种自然语言处理相关模型。系统以低耦合强内聚等软件设计方法为依据,结合54种算法、存储和读取处理的模块。实现的文本的读取,预处理,信息抽取,抽取知识存储以及知识的查询与展示功能。
其他文献
目的 研究利用计算机信息处理、数据库和图形技术 ,开发用于口腔诊所 (科室 )的信息管理系统。方法 在专家论证诊所 (科室 )的医疗现状和管理需求的基础上 ,制定我国口腔临
多年来,高中教学一直是分科进行的,教师的角色一旦确定,不少教师便画地为牢,把自己禁锢在学科壁垒之中,不再涉猎其他学科的知识。教师的专业知识过分窄化,大大地制约了课堂教
大数据时代的浪潮依托信息科技的飞速发展席卷而来,个人信息的多元化价值挖掘已经使得其成为一项重要的社会资源。信息已经渗透到社会生活的方方面面,经营者通过收集、分析个人信息来区分消费群体、制定经营策略;政府通过建立不同类别的信息库来实现行政管理、维护社会安全的目的;甚至信息主体也能够通过良好的个人信息所呈现的外部形象获取更便利及更高质量的社会服务。然而,在享受大数据时代红利的同时,个人信息的安全问题也
1394总线一开始作为实时传输高速串行总线,应用在电子商业和航空航天领域,随着时间发展,越来越不能满足航空系统对数据传输的要求。于是SAE组织对IEEE-1394b总线进行了一些裁
随着中职学校和企业之间的合作越发密切,"企业冠名班"队伍不断壮大,业已成为中职学校不可忽视的群体。中职学校正处于从外延发展转移到内涵发展的关键时期,大力提高办学水平,
为配合李克强总理提出的“大众创业、万众创新”的号召,近年来,各级政府都出台了相应的配套鼓励创业政策,YZ市人民政府也于2016年出台了《YZ市小微企业创业创新基地城市示范专项资金管理办法》和《YZ市区“聚焦富民”鼓励创业工作的政策意见》,由财政设立专项资金来鼓励和扶持个人创业。政策实施两年多来,取得了一定的成效,同时也暴露出不少问题。加强YZ市区财政鼓励创业资金绩效评价,对于提高财政资金绩效,鼓励
留白是中国画中的重要技法,画家们强调“疏可跑马,密不透风”,留白对画面布局有不可替代的重要作用。当“留白”进入幼儿园,它将与幼儿园的人事物产生何种化学反应?近些年,幼
我国城市社区休闲发展尚处于起步阶段,休闲活动的单一和低层次化让很多居民游离在社区休闲活动之外。发达国家的城市社区休闲发展已日趋成熟,其在构建完善的社区休闲组织管理
目的:探讨眼科住院患者的潜在护理风险,提出预防与护理管理对策。方法:选取浙江省眼科医院眼科于2013年3月~2015年3月收治的220例患者作为研究对象,分析眼科住院患者治疗护理