【摘 要】
:
随着各种社交平台飞速崛起,自然语言处理技术俨然成为了生活中密不可分的一部分,其中以中文关键词为核心的研究是机器翻译、信息检索以及舆情监测等诸多领域的重要技术,一直以来都是自然语言处理研究领域里的热点。然而,当前中文关键词提取算法大多使用现成的分词工具来获取候选词,这导致算法的性能极大地依赖于事先分词的准确性。另外,现绝大多数的中文关键词情感分析算法都建立在关键词标签预先提供的前提下,而实际应用场景
论文部分内容阅读
随着各种社交平台飞速崛起,自然语言处理技术俨然成为了生活中密不可分的一部分,其中以中文关键词为核心的研究是机器翻译、信息检索以及舆情监测等诸多领域的重要技术,一直以来都是自然语言处理研究领域里的热点。然而,当前中文关键词提取算法大多使用现成的分词工具来获取候选词,这导致算法的性能极大地依赖于事先分词的准确性。另外,现绝大多数的中文关键词情感分析算法都建立在关键词标签预先提供的前提下,而实际应用场景中往往不具备这些花费昂贵的关键词标注,尽管可以采取流水线式的方法来解决这个问题,但近年来的多篇相关英文工作充分证实了一个联合模型具有更大的潜力。因此,针对上述所提及的各种问题,本文进行了中文关键词提取和端到端关键词情感分析研究,研究内容主要分为两个部分。中文关键词提取算法。针对传统中文关键词提取算法中由分词错误所引入的误差问题,受英文关键短语提取方法的启发,本文使用BIESO标签来标注关键词的边界,并设计了基于Bi LSTM-CRF序列标注模型的关键词提取算法。考虑到基于字符的序列标注方法存在的对词信息忽略的问题,本文提出了一种新的词相关注意机制,该方法以注意力机制为原理有重点地引入更具相关性的词典信息,有效地利用了大型开源词典中所蕴含的丰富词信息,增强了模型对关键词的捕获能力。根据上述改进,设置了多个相关实验,证明了词典信息的融入对于提升序列标注关键词提取方法性能的有效性。端到端中文关键词情感分析算法。针对实际场景下广泛使用的流水线式中文关键词提取及其情感分析方法存在的训练复杂、子任务间联合信息被忽略等问题,本文设计了一种基于多任务学习的端到端中文关键词情感分析算法,其基本思想是从多任务学习的角度出发,将两个具有相关性的子任务放在一起进行联合学习以提高模型的泛化能力。该模型基于Encoder-Decoder结构实现,在学习过程中引入了上下文语义信息和关键词间存在的依赖信息,为增强模型在复杂的中文表达中准确地捕捉不同关键词的情感变化提供了保障。
其他文献
知识图谱技术的兴起为业界和学术界提供了一种更好的组织、管理和理解互联网中海量数据的有效方案。目前,知识图谱技术广泛应用于实体搜索、推荐系统、开放域问答等许多AI领域。然而,由于知识图谱的知识不完备,即图谱中存在缺失的实体或链接,导致知识图谱的使用存在巨大的限制,大大限制了知识图谱在用于检索和推理的准确性。补全知识图谱,完成知识图谱链接预测任务的研究成为知识图谱的核心任务之一。本文对知识图谱的链接预
基于图像的三维形状重建技术一直是计算机视觉领域的热门分支领域之一。然而,在现阶段的使用深度学习方法的基于图像的三维形状重建算法的学术研究中,往往对几何上的先验信息的挖掘有所不足和欠缺。因此,本文以单视角下和多视角下的三维重建为研究课题,重点研究了利用不同的深度先验信息,来实现高质量、高效率的三维重建算法。研究内容包含了三个部分,即三维-二维透视投影先验研究、三维形状的时空平滑先验研究以及真实场景中
在当今时代,互联网飞速发展,数据与信息都在爆炸性的增长,如何有效处理互联网上的数据受到人们的广泛关注。基于此,Google提出知识图谱的概念。知识图谱本质上是一种多关系网络,采用结构化的方式存储了现实世界中的实体与实体之间对应关系的知识系统。知识图谱被广泛应用在智能问答、推荐、信息检索等领域,成为人工智能领域不可或缺的数据支撑,对于推动人工智能的发展有着重要的意义。但受目前信息抽取技术的制约,很多
进入21世纪20年代,人类社会迎来了新一轮的科技革命和产业变革。计算机科技的发展对人们生活产生了越来越深刻的影响:人与人之间信息的沟通已不再是单一的书信、电话交流,价值转移手段也从面对面以物易物到如今的网上购物、线上交易、网络签约等过程中不断丰富。科学技术给人类带来便捷性的同时,人与人之间的信任达成也变得越来越复杂。区块链技术的出现,建立了一种全新的价值转移体系和信任构建方式,并以其防篡改、可追溯
图像描述是一种让机器理解图像内容并生成对应自然语义描述的技术,它在不同领域都有着非常大的应用价值。本文选择遥感领域作为特定研究领域,将在该领域的图像描述算法称为图像解译,它能够帮助人类更好地从遥感图像中获取所需的地理空间信息。图像解译算法大多基于编码-解码框架,它由用于图像特征提取的编码器和生成解译语句的解码器构成。现有图像解译算法忽略了遥感图像在成像方式、图像内容上与自然图像的差异,直接采用预训
近年来,基于深度学习的目标检测算法发展迅速,被广泛应用在智慧交通、智能安防、智能生产、航空航天等领域。目前目标检测在现实应用有两点不足:第一点是,基于深度学习的目标检测算法大多基于GPU(rocessing Graphics Unit P)和CPU(rocessing Central Unit P)平台实现,但功耗过高限制了其应用场景。第二点是,基于深度学习的目标检测算法网络权重数量大,运算复杂度
随着计算机视觉和机器学习等相关技术的飞速发展,使用城市街景图片获取城市大范围、多维度量化感知的研究日趋活跃,现有相关研究表明,利用街景图片、有限的图片评价数据和机器学习算法实现城市多维感知具有合理性和可行性。本文以数据感知成都各区域美观和活力程度为研究课题,重点研究了融合两类数据的量化评分模型、基于支持向量回归的自动评分模型以及人为感知城市街景的主要决定要素等,主要研究内容分为四部分。数据采集与分
随着科技的进步,大量基因遗传性疾病得以确诊,人类孟德尔遗传网数据库收集的5000余种单基因病中,遗传性神经肌肉疾病占很大比例,包括脊肌萎缩症(Spinal Muscular Atrophy,SMA)、杜氏肌营养不良症(Duchenne Muscular Dystrophy,DMD)等严重的遗传性神经肌肉疾病。根据调查,此类疾病在我国的发病率高,其中,仅杜氏肌营养不良症在新生婴儿中的发病率就达到了1
自闭症不仅会使患者出现社交障碍、行为刻板、兴趣狭隘等症状,还会增加其患其它疾病的风险,如癫痫、发育迟缓等。为了探究自闭症等精神疾病的致病原理,为治疗自闭症提供支撑和靶点,需要对大脑机制进行深入研究。本文基于自闭症患者和正常对照者的脑成像数据,包括结构像和功能像。在预处理之后,通过图论的知识和大数据相关技术对脑网络进行研究分析。基于机器学习理论训练生成自闭症辅助诊断模型。最后结合在脑机制研究中的所得
在大数据和智能化的时代浪潮下,人们对于微小信号的测量有着更进一步的追求,这就推动了新型传感器和高精度检测系统的发展。和传统的传感器相比,具有高灵敏度、良好的稳定性、因不同镀膜而具有的多样性等特点的石英晶体微天平(Quartz Crystal Microbalance,QCM),不仅结合了化学、材料、物理等领域的优势,给传感器领域带来了更多可研究的方向,也给高精度传感和测量带来了一种新的研究途径。本