【摘 要】
:
随着网络论坛、贴吧等网络文化的兴起,用户越来越频繁地使用反讽——一种表达强烈情感的语言方式。反讽一般称反语,通常来说就是一种带有讽刺意味和反义内涵的语句,从字面上很难获取和理解语句真正要表达的意思,通常其真正的意思正好与字面上的意思相反,大部分时候需要从语境,甚至时事才能理解。这让网站管理者很难快速并且准确地了解用户的真实意图。给网络监管和舆情收集带来不小的阻碍。为了解决此问题,本文通过使用深度学
论文部分内容阅读
随着网络论坛、贴吧等网络文化的兴起,用户越来越频繁地使用反讽——一种表达强烈情感的语言方式。反讽一般称反语,通常来说就是一种带有讽刺意味和反义内涵的语句,从字面上很难获取和理解语句真正要表达的意思,通常其真正的意思正好与字面上的意思相反,大部分时候需要从语境,甚至时事才能理解。这让网站管理者很难快速并且准确地了解用户的真实意图。给网络监管和舆情收集带来不小的阻碍。为了解决此问题,本文通过使用深度学习的方法,来分析和处理网络中的反讽文本,进而获取用户的真实意图和观点。目前反讽识别研究主要面临以下问题:(1)没有成熟、完整和准确的中文反讽语料和语料库供我们学习和研究使用;(2)网络文本大部分以简短,精炼的语言为主,难以获取语境信息,但是反讽识别恰恰需要通过语境分析出其内在含义;(3)由于文化的差异和语言习惯上的不同,目前相对成熟的英文反讽识别方法不能直接套用到中文反讽识别方法中。本文的反讽识别研究,目的是使用计算机技术理解用户反讽的句子背后的真实意思。之前的研究者尝试过许多人工标注的复杂特征,和各种各样的经典机器学习方法。本文研究探讨如何通过词嵌入(word embedding)和深度学习模型应用于反讽识别。本文使用了四种不同的模型,卷积神经网络、基于网络话题和特征词的卷积神经网络、基于网络话题和特征词的具有注意力机制的循环神经网络,和具有创新性的基于主题模式和注意力机制的循环神经网络。突破了之前识别反讽忽略语境的局限。其中卷积神经网络、基于网络话题和特征词的卷积神经网络、基于网络话题和特征词的具有注意力机制的循环神经网络,这三种模型针对无语境的网络短文本的反讽识别,例如Twitter和微博。基于主题模式和注意力机制的循环神经网络是针对有语境的网络文章的评论的反讽识别,例如贴吧下面的评论。本文人工标注了两种中文反讽语料:一种是无语境的网络短文本的语料集共计20000条,其中1933条是含有反讽的句子;另一种是有语境的网络文章评论的语料集共计2000篇文章和17067条相关评论,其中反讽的评论为1887条。结果在无语境的语料中,基于注意力机制的长短期记忆网络表现最好的F1值为85.9%,优于基准值。另外,在有语境的语料中,提出了基于主题模式和注意力机制的循环神经网络,突破了之前只分析单句,而忽视语境的短板,反讽识别的F1值为87.8%。
其他文献
由于护照属于保密品,涉及很多防伪技术,运用了具有防伪功能的荧光线进行缝纫装订。经过缝纫装订后的护照成品,缝纫线线迹排列紧密,目前没有一种合适的护照缝纫线提取方法来检测护照装订质量。而本论文通过实验,结合已有的图像处理研究成果,分析与比较各处理方法的优势与客观应用条件,利用Matlab软件,运用空间域局部同态滤波、灰度拉伸、巴特沃兹滤波等技术,解决了图像处理过程中细节丢失现象,提取了边缘轮廓锐利并且
随着数字医学技术的不断发展,辅助手术导航系统已经得到了大量的临床应用。然而,国内现有手术导航系统定位方式以光学导航为主,应用场景单一,且光学导航存在光学遮挡问题,导致定位手术器械不可见,并降低手术连续性。另外,在临床手术中,医生还面临着高难度手术中强迫体位多、定位精度要求高与手术时间长等难题。针对以上临床难点,本文将电磁定位应用于动态导航中,研发了基于动态图像引导的电磁手术导航系统。本文的主要研究
随着办公信息化的快速发展,各种信息系统逐渐普及以提高企业经营活动的效率。工作流技术作为流程管理的中间件技术,在办公软件领域扮演着重要的角色。然而在现实业务流程快速变更的情况下,工作流产品预制的功能往往无法满足企业的需要,例如无法实现任务的动态跳跃、回退操作。针对这种不足,对工作流技术领域进行了调查后,以开源软件Activiti5作为基础进行改造,使该框架具有自由选择下一个审批任务的能力,以增加该框
人眼的视线方向包含丰富的注意力信息以及潜在的大脑认知过程,视线估计就是研究如何估计人眼的视线方向和凝视目标,它可以广泛应用在临床研究,人机交互,教育等各个不同的领域。虽然已经有一些商业公司研发出视线估计的工程应用,然而大都非常依赖于特定的硬件设备,使用非常受限。在这种背景下,基于面貌的视线估计方法凭借简单的设备要求,快速的追踪速度越来越受到重视,深度学习在视线估计上的成功应用进一步促进了研究人员对
电阻抗断层成像(Electrical Impedance Tomography,EIT),是一种新兴的非植入性医疗成像技术,相比较于传统的医疗成像手段,它对人体无害且成本较低,适用于长时间连续监测,具有良好的临床应用前景。本文利用EIT传感器芯片设计开发出一套16电极的EIT实时监测系统。首先,开发出信号采集硬件电路并利用LabVIEW编程实现对EIT信号的采集和传输;然后,设计出基于快速傅里叶变
随着国内智能制造的发展,MES(Manufacturing Execution System)制造执行系统的要求越来越高,针对在一条复杂的离散型生产流水线上可能存在几十个工站和总成型号、不同工艺路径组合及数量庞大的原材料种类等问题,如何通过MES改进来提高生产效率,质量控制从而提升企业的竞争力具有相当大的实际运用价值。本文以X汽车零部件公司的生产业务为研究对象,介绍X公司的生产流程和MES概况,通
数据复制中心旨在解决企业面临的各类数据同步问题。常见的问题有:把线上数据同步到数据仓库供后续分析;实现变更数据捕获模式,订阅数据库变更以更新缓存、搜索引擎或是异步触发后续业务流程;在不同数据中心之间做双向同步以提供异地容灾能力等。业界也有一些解决这些问题的尝试,但公开的方案有些只是命令行工具,无法满足企业对可用性的要求;有些只支持特定的数据源,难以拓展到不同类型的数据源;大部分方案使用与源端相同的
S公司用SAP CRM系统处理产品信息、客户信息等主数据以及投诉、故障追踪单和报障单等业务数据。用户除了通过CRM网页客户端进行业务数据的操作,还通过外部应用及APIs与CRM中的业务数据作交互。由于CRM提供的业务数据搜索服务不能满足用户的需求,本文构建了一种新的搜索解决方案,关键是从底层将搜索由数据库搜索切换成SAP TREX搜索,形成一个新的SAP CRM搜索,通过该方案的实施改善企业内外部
当前对计算系统高效性和灵活性的需求日益增加。可重构处理器兼具专用集成电路的运算高效性与通用处理器的编程灵活性,近年来受到了广泛关注。细粒度可重构结构(Fine-Grained Reconfigurable Architecture,FGRA)在比特级进行配置,具有良好的配置灵活性。粗粒度可重构结构(Coarse-Grained Reconfigurable Architecture,CGRA)由大
目的研究肥胖型多囊卵巢综合征患者实施营养干预治疗的临床效果。方法选80例肥胖型多囊卵巢综合征患者,根据治疗方法的不同,将其分成对照组和治疗组。对照组40例患者采用二甲双胍联合达因-35进行治疗,治疗组40例患者在对照组基础上,采用低碳水化合物联合低能量饮食实施营养干预治疗。对比两组研究对象在治疗后顺利妊娠率、治疗前后血脂、血糖水平。结果治疗组患者在治疗后顺利妊娠率高于对照组;治疗前后血脂、血糖水平