【摘 要】
:
随着互联网技术的飞速发展,在线论坛已经成为人们争论和辩论的主要媒介,用户针对某一论题或事件持有不同的论点,在互联网上进行论辩和讨论,由此产生了大量的观点评论等论辩文本,如何自动地从非结构文本中提取论辩结构是亟待解决的问题,如何利用好这些论辩文本蕴含了巨大的商业价值,同时带来了巨大的挑战,本文针对论辩挖掘领域的论点识别以及细粒度的论辩部件识别进行了研究,具体而言本文主要完成了以下工作:1.论辩挖掘中
论文部分内容阅读
随着互联网技术的飞速发展,在线论坛已经成为人们争论和辩论的主要媒介,用户针对某一论题或事件持有不同的论点,在互联网上进行论辩和讨论,由此产生了大量的观点评论等论辩文本,如何自动地从非结构文本中提取论辩结构是亟待解决的问题,如何利用好这些论辩文本蕴含了巨大的商业价值,同时带来了巨大的挑战,本文针对论辩挖掘领域的论点识别以及细粒度的论辩部件识别进行了研究,具体而言本文主要完成了以下工作:1.论辩挖掘中的论点识别问题。当前大部分论点识别方法是针对某一特定领域构建特征,使用机器学习方法进行识别。针对某一具体领域的论点识别模型无法直接应用在其他领域,而且对于人类来说,论点的概念也很难用一套紧凑的定义和明确的规则来界定,手动去构建特征来识别论点是一项复杂且耗时的活动。针对以上问题,本文提出了一种BERT-Bi LSTM-Attention的论点识别方法。首先通过预训练的BERT模型获取词向量,然后通过Bi LSTM对更高维的特征进行抽取,更好地结合上下文,使用注意力机制将重要特征突出,在论点识别方面取得了不错的结果,并且后续进行分析了解在论点识别过程中有哪些特征比较重要。2.论辩挖掘中细粒度的论辩部件识别问题。通常情况下一个论点会存在于两个句子中,或者一个句子中包含多个论点,但当前大部分的论辩部件识别都是直接使用整条句子作为论辩单元,这就会导致论辩部件识别不准确,无法识别到子句级别的论辩部件。针对以上问题我们将细粒度的论辩部件识别任务视为序列标注任务和分类任务,进行多任务学习,具体是提出了一种基于BERT-Bi LSTM-CRF的细粒度论辩部件识别方法,将句子输入到神经网络中,既能够对句子进行序列标注,自动识别论辩部件的边界,也能使用多元分类将切割后的子句区分为论点,论据和无关的句子。3.论辩部件识别原型系统的实现。为了能够更加清楚的展示论辩挖掘系统中论辩部件的识别,本文在前两个工作的基础上实现了原型系统来进行展示。该论辩部件识别原型系统主要分为数据收集模块、论点识别模块、细粒度论辩单元识别模块和用户展示界面。用户可以自主选择两种模式,一种是直接展示爬取数据的论辩单元识别,另一种是用户输入一篇文章到系统中就能自动识别文章中的论点及论据,帮助用户更好的理解文章所表达的核心观点。
其他文献
“一带一路”的提出,为沿线国家相互合作、共赢互利提供了平台。虽然“一带一路”沿线国家的平均经济增长率高于世界的平均水平,但是能源使用量和CO2排放量却超过世界平均水平,其中CO2排放量更是占到全球CO2排放总量的近1/2,交通运输的CO2排放量占CO2排放总量的1/4。“一带一路”运输和物流系统的全球可持续发展已提上议程。因此,如何转变成低消耗、低排放与高效率的物流发展模式,实现经济社会发展与生态
第5代移动通信(The 5th Generation Telecommunication,5G)技术已经给我们的生活带来了极大的便利,但用户服务需求日益提高的同时,通信所需的频谱资源和能源也急剧上升。作为近年来快速发展和应用的无线传感网络因其高性能和低成本的优点迅速融入了以5G为中心的新一代无线通信网络中,由于传感节点对电源的过度依赖,如何保证通信的能量效率(Energy Efficiency,E
随着国民经济的飞速发展,现代人的消费观念已经发生很大转变。越来越多的人愿意花钱买“方便”,由此也催生了很多懒人经济下的产物,其中即时配送服务便是最具代表性的新兴产业之一,而外卖服务则是即时配送服务最为典型的服务类型。近年来,众包骑手(接包方)、商家(发包方)与外卖平台间的矛盾频发,外卖平台对众包骑手及商家服务提成的收取问题成为社会热门话题。本文首先通过研究国内主流外卖平台,发现外卖平台以及加入平台
根据文本自动生成图像有广泛的应用基础,例如文字联想图片、文字自动配图,以及通过文本存储代替图像存储实现图像压缩等。同时该研究还能有效推动视觉和语言的跨模态学习和推理的研究进展。在医学领域从诊断报告生成病例图像可以为医生提供疾病诊断的参考,也可以一定程度上解决医院定期删除数据造成的对过往病例图像查询困难的问题,为医院节省存储资源。目前所有的文本到图像生成研究都基于自然图像,由于自然图像追求内容的丰富
车载云计算是目前车联网技术中的研究热点之一,而计算卸载是车载云计算中重要的技术组成部分,它是平衡车联网中多样化业务需求和车载计算机有限能力之间矛盾的有效技术之一。本文以车载云为研究背景,重点研究车载云计算中的任务卸载策略。在对现有计算任务卸载技术进行总结和分析的基础上,分别从资源分配和任务分配两个方面对车载云计算中的任务卸载策略展开深入的研究,主要工作内容如下:1.现有基于博弈的车载云计算的资源分
商品商标一般由商标图案与商标文字两部分组成。随着商品经济的不断发展与人们的知识产权意识不断提升,商标在商品流通过程中扮演着越来越重要的角色,商标申请数量逐年上升,商标侵权案件特别是与商标文字相关的案件也逐年增多。现有主管部门的相关工作需要自动化手段的辅助,因此商标文本检测作为多种自动化手段开发的首要步骤有着重要意义。然而,由于商标文本结构复杂,背景干扰丰富等问题,现有文本检测方法在检测商标文本时会
自2008年比特币诞生以来,作为比特币底层技术的区块链,在金融、医疗和保险等众多领域得到了广泛的应用。但由于区块链技术本身的特点,大多数的区块链应用都是一个个独立的网络,不同的区块链之间难以进行有效的资产或者数据的流通,所以产生了区块链跨链技术来解决不同区块链之间的价值交换的问题,在当前的跨链技术中,应用最广泛的是原子交换技术,但当前的原子交换技术还存在着安全性低、交易速度慢等问题,针对此类问题,
随着互联网不断超出预期的快速发展,单一的集中式控制器已经无法满足当今运营商、互联网企业以及用户的需求。据估计SDN未来产值在2024年将会达到704.1亿美元,单一的控制器架构延伸到多控制器架构是必然趋势。实用拜占庭算法就是多控制器同步算法之一,但是其通信和时间复杂度达到了O(2)。同时在分布式SDN选路过程中,在计算控制层面的逻辑节点拓扑时需要考虑每一个控制器所管控的交换机拓扑情况,只针对控制器
随着移动互联网和移动定位技术的快速发展,海量轨迹数据得以汇聚。轨迹分类是时空数据挖掘领域的重要研究内容。近年来,不少学者将深度学习应用在轨迹分类领域,并取得了不错的进展,但如何有效利用轨迹的时空信息一直是一个研究难点。本文以提高轨迹分类精度为目标,立足于时空信息增强和神经网络模型构建两方面,针对数据集是否含有标签,开展有监督和无监督的轨迹分类研究。主要研究工作包括:1.在轨迹数据时空信息增强方面,
随着智能手机与个人电脑的普及,以及先进的通信技术支持下,不论何时都有海量的文本信息、音频、图像等数字信息在互联网上传输。数字图像作为网络上最主要的信息载体之一,其安全问题尤其重要。图像加密技术是最常用的保护图像信息的手段,由于数字图像具有众多与传统文本信息不同的特性,导致传统的文本加密技术不再适用于图像加密。混沌系统的伪随机性、初值敏感性、遍历性等混沌特性与密码学的要求不谋而合。因此研究中将混沌系