【摘 要】
:
智能问答是NLP领域的一个重要任务。2011年,以深度问答技术为核心的IBM Watson自动问答机器人在智力竞赛节目中战胜人类选手后,各大公司均加入到自动问答的研究和应用中。现有的智能问答系统以知识基础核心,包括以结构化文本为主的知识图谱和以非结构化文本为主的FAQ知识库。其中,知识图谱对简单事实类问题有很好的处理能力,但对事实陈述、推理、描述和观点类问题,其处理能力捉襟见肘。目前而言,FAQ知
论文部分内容阅读
智能问答是NLP领域的一个重要任务。2011年,以深度问答技术为核心的IBM Watson自动问答机器人在智力竞赛节目中战胜人类选手后,各大公司均加入到自动问答的研究和应用中。现有的智能问答系统以知识基础核心,包括以结构化文本为主的知识图谱和以非结构化文本为主的FAQ知识库。其中,知识图谱对简单事实类问题有很好的处理能力,但对事实陈述、推理、描述和观点类问题,其处理能力捉襟见肘。目前而言,FAQ知识库是后者最好的选择。但当前FAQ知识库的构建需要大量的人工参与,对问题和答案进行筛选审核,此项任务的工作量巨大且成本高昂。因此,FAQ知识库的自动化构建一直是智能问答领域的一个研究重点和难点。具体来说,自动构建FAQ知识库的困难在于非结构化文本的形式多种多样。无论数据的预处理、问题的识别和还是答案选择等,各阶段的工作均都有不小的工作量。而且,现有的答案选择算法并不能够达到很高的准确度。但非结构化数据的难点也是非结构化数据的优势,其存在形式广泛,数据量庞大,使得其应用场景相当丰富。基于此,本文选择从较为简单的对话文本入手,提出一个基于对话文本构建FAQ知识库的方法和思路。本文的主要工作有:问题识别、答案选择、多轮问答识别等。本文的思想是充分利用对话文本具有一定规则的特点,将基于规则的方法和基于深度学习的方法相结合。首先,对话文本本身就有句子和段落的分割。每一条对话内容都只涉及一个话题,不需要对文本进行段落或句子级别的切分;其次,对话文本中的信息较丰富,其不仅记录了对话内容,还保留了说话人、时间以及顺序关系;第三,对话文本在互联网的记录中存在很多的标识符,如“@”、“回复”、“点赞”等,通过这些规则能使得对文本的处理更加方便和简单。另一方面,深度学习在自然语言处理中已经表现出强劲能力。无论是传统的LSTM和CNN,还是现在非常流行的Attention机制和BERT预训练模型,其均在NLP领域取得了不小的成功,研究成果丰富。在现有研究成果的基础上,结合对话文本的特点加以调整和改进,使其能够适应于本文的研究对象和研究目的。正是基于以上两点,本文提出将规则和深度学习结合起来,实现FAQ知识库的自动构建。深度学习方法在公开数据集上的测试结果已经在大量论文中得以展示,本文的结果除在公开的中文问答数据集上进行测试外,还增加了以实际的微信聊天记录为测试数据的测试结果。最终,在5个对话文本,每个包含1000条,共计5000条微信聊天记录数据上,问题识别和答案选择的准确度分别为91.2%和80.0%。
其他文献
随着电子技术和通讯设备的发展,越来越多的新型应用不断出现,如虚拟/增强现实(VR/AR)、全息通信、触觉网络等。这些应用都有着超低时延要求的特点,而且很多应用还有确定性时延要求(即时延要求有上、下界),这对通信网络提出了巨大的挑战。目前虽然提出了一些资源管理和控制技术来满足部分低时延应用的需求,如时间敏感网络和确定性网络等概念和技术。但是这些技术只集中在对低时延数据传输的问题上,没有考虑到它们的传
技术创新是驱动创新发展的主要原因,同时也推动着国家经济稳定发展。对于任何行业或者企业来说,技术创新活动需要投入大量资金并具有不确定性,这也成为限制创新的因素,而国家对企业进行研发资助成为各国政府推动技术创新的普遍做法。新能源汽车行业作为新兴的行业,它的发展需要技术的推进,国家为了促进行业发展,出台了相关的政策和补助措施。随着新能源汽车走进大家的视野,国家对新能源汽车行业的补助效果成为关注的问题,也
在当今社会科技的高速发展和日渐成熟下,高强钢不仅在航天航空、潜艇以及各类军事装备等对于材料的性能有特殊要求的领域获得相当多的使用,而且在车辆、轨道、矿产、建筑和机械制造等领域也获得了普遍的应用。Si2Cr2Mn2Mo VNb钢作为一种新开发的高强钢,具有良好的力学性能,有着广阔的应用前景,但是目前对该高强钢的热成形工艺的制定和优化还很不完善。因此,需要对该高强钢高温变形行为进行研究,从而为制定和优
基于外电场积分方程建立的混合源积分方程(Combined Source Integral Equation),能够用于求解理想电导体(Perfect Electrical Conductor)的表面电流和磁流分布。矩量法(Method of Moments)是一种将线性积分方程转化为矩阵向量方程再求解矩阵向量方程的方法,常用在低频区电磁散射与辐射问题中。通过Rao-Wilton-Glisson(R
物联网中的无线传感器网络具有内存、计算和资源有限等特点,这些约束限制使得计算复杂度高、能耗较大的传统密码学(如RSA算法、AES算法)加密不适用于此。同时,这些传感器网络可能还承担着关键任务,发挥着重要的作用。因此,需要保证数据传输的安全。物理层安全采用正交频分复用技术,它在保护当前和未来网络数据传输方面前景广阔。OFDM是现代网络中多载波调制的基本构件,如物联网、车载自组网以及4G/5G系统。大
在中国的高中英语教学中,词汇的教与学是最基本的内容。随着英语课程标准(2011年版)的颁布,对学生的英语学习要求也有了很大提高。但是,当下的英语教学情况不理想,出现了很多问题,如,学生容易在很短的时间内忘记单词的拼写及意思、记忆时间短,又如普通的英语词汇教学不能激发学生们的学习兴趣,教学效果一般等。为此,英语教师需要不断探索新的教学方法来改变现状。通过对情境认知理论、社会建构主义理论的研究,作者尝
在监护仪产品的开发过程中,测试是至关重要的一环。为了验证产品的功能,需要运用各种真实模块来验证。可是,各种参数模块不仅体积大而且造价都比较昂贵,并且受制于体积或条件影响,运用真实模块来进行产品验证很不方便,造成了在测试工作中投入的人力和物力也很大。本文针对上述测试工作中的难题,从而设计实现了监护仪参数模块的测试软件供测试人员使用。运用该测试软件后,测试人员可以很方便地完成监护仪的功能测试任务,可以
短波通信是中远距离通信的主要技术手段之一,广泛应用于多样的通信场景中。越发多变的信道环境和复杂的通信系统对信道质量的检测和分析也提出了更高的要求。如何更加智能、准确对信道参数进行估计,是实现自适应通信系统发展要求的关键问题。本文针对当前短波信道参数估计领域“重应用、少更新”的问题,从多角度全面分析和探讨了短波信道的参数估计问题,主要研究了以下几个方面的内容:针对短波信道复杂的时变问题,本文对电离层