【摘 要】
:
随着智能对话系统的广泛应用,人们需要智能设备正确识别自己的问题或者请求,所以对用户进行意图的识别面临着很大的挑战。在意图识别所对应的小样本文本分类中存在数据不足、特征表示不充分、距离度量效果差等等问题。本文基于小样本学习问题的思想,针对上述问题进行研究,在特征表示和距离度量等方面提出了改进方案,并给出了模型融合的方案。本文主要内容和创新点如下:1.在智能系统中所对应的小样本文本分类问题,由于样本资
论文部分内容阅读
随着智能对话系统的广泛应用,人们需要智能设备正确识别自己的问题或者请求,所以对用户进行意图的识别面临着很大的挑战。在意图识别所对应的小样本文本分类中存在数据不足、特征表示不充分、距离度量效果差等等问题。本文基于小样本学习问题的思想,针对上述问题进行研究,在特征表示和距离度量等方面提出了改进方案,并给出了模型融合的方案。本文主要内容和创新点如下:1.在智能系统中所对应的小样本文本分类问题,由于样本资源的限制,小样本学习模型存在特征表示不充分的问题,导致模型效果较差。针对小样本特征表示不充分的问题,本文提出了基于Wide&Deep的a Bi-LSTM模型(简记为WDAB-LSTM)用于优化文本特征表示。该模型包含浅层神经网络和深层神经网络两部分,其中浅层神经网络用于提取文本中的浅层信息如句法结构等,深层神经网络用于提取文本中的深层信息如语意信息等。同时,基于Wide&Deep的a Bi-LSTM模型用于文本特征表示时增加了Bi-LSTM模型中正向LSTM中的词注意力,使得输出的向量表示包含上下文中的相关重要信息。2.在智能系统中所对应的小样本文本分类问题,已有的小样本模型的分类效果往往不够显著。针对小样本文本分类效果不显著的问题,本文在已有的小样本学习模型上进行了优化,提出了WDAB-LSTM孪生网络、WDAB-LSTM原型网络、WDAB-LSTM关系网络、WDAB-LSTM归纳网络。为解决距离度量模块不够好的问题,在本文提出的上述小样本文本分类模型中进行了距离度量模块的优化。在所提出的基于Wide&Deep的a Bi-LSTM归纳网络中的归纳模块,将原本的“routing softmax”的归一化优化为系数比率,使得各个系数的影响更加公平。依据前人所采取的平均准确率作为指标,本文提出的上述各个WDAB-LSTM模型与原模型相比分别提升了约8.78%、4.18%、1.42%、1.02%。实验结果表明本文所提出的各个WDAB-LSTM模型在特征表示方面均比原有网络更加有效,分类效果与其他工作相比得到了较好地提升。3.本文提出了一种面向小样本的文本分类模型融合方案:基于动态核岭回归的Stacking模型融合(简记为Dynamic KRR Stacking Net)。对已提出的WDAB-LSTM孪生网络、WDAB-LSTM原型网络、WDAB-LSTM关系网络、WDAB-LSTM归纳网络进行集成,以解决单一小样本模型在复杂计算中易陷入局部最优解的问题,同时通过组合多个模型解决单一模型效果较差的问题。本文所提出的Dynamic KRR Stacking Net模型的平均准确率指标为87.64%,与单模型以及已有模型的实验效果对比,该融合模型得到了较好的提升。
其他文献
随着人工智能的高速发展,计算机辅助诊疗手段逐渐成为医疗与智能技术相结合最为常见的方式之一。医疗图像分割是计算机辅助诊疗中至关重要的一步,在实际的临床应用中,医生主要通过对医疗图像进行逐像素的标注来得到分割结果。这种纯手工标注的方式不仅对医生专业能力要求高,而且十分耗时且枯燥(尤其针对三维图像)。随着人工智能技术的不断发展,基于深度学习的自动分割算法能够在很大程度上提高医疗图像的分割效率。然而在实际
随着创新日益成为我国经济在新常态下增长的重要推动力,国有企业作为我国经济的重要组成部分,在建设创新型社会和创新型国家的背景下,其创新行为就成为了国家和社会创新的重要力量。从众多的研究文献中我们可以看出,由于管理层在企业中地位的特殊性,其薪酬会对企业的创新行为产生举足轻重的影响。由此可见,我国在2014推行的“限薪令”到底会对国有企业的创新行为产生怎样的影响,是值得我们进行深入研究的一个课题。为此,
目前,大气红外遥感探测通过卫星搭载傅立叶光谱仪来探测大气温度和湿度信息,为数值气象预报提供数据来源。随着数值气象预报对高光谱分辨率探测的实时性要求不断提高,星载傅立叶光谱仪需要配置更大规模的焦平面探测器以加快观测频率,探测器采集到的海量红外干涉信号呈指数级增长。如何在探测元规模较大的情况下实现红外干涉信号的高速采集,并将这些海量数据稳定可靠地传输并进行分析和处理,成为高速干涉信号采集与传输系统集成
2018年我国的个税改革效果显著。一方面,从分类征收模式转变为混合征收模式,初步建立分类与综合相结合的现代化个人所得税制度;另一方面,提高免征额、调整适用税率,增加专项附加扣除项目等减税措施,减轻纳税人税收负担,改善民生,使个人所得税更具公平性、科学性。但是,自互联网革命以来,经济全球化发展迅速,纳税人的经济活动呈现出复杂化,收入来源多元化,税源分布广泛,加之税务部门往往难以及时准确的获取纳税人的
水体中氮素过高会导致水华蓝藻爆发。为降低进入自然水体的氮素,通常采用工程手段来强化反硝化达到脱除目的,但是有机碳是反硝化的限制因素。前期研究表明,蓝藻死亡沉积后会向水体分泌碳水化合物,促进反硝化过程,因此本文从培养蓝藻作为反硝化碳源的工程应用出发,探究提升蓝藻糖含量及作为反硝化碳源的可行性方法,研究蓝藻在经过限氮培养后胞内有用物质变化并应用为反硝化碳源应用的工程参数。论文结论如下:水华蓝藻培养的光
我国当前的信贷市场和法治环境并不完善,诉讼风险已经成为影响公司经营和发展的重要因素。法律诉讼意味着高成本和高代价,只是一种次优的解决冲突的方案,被诉一方因诉讼引起的或有负债一旦转化为真实负债,就会造成公司财富流失,破坏稳定的经营环境,干扰资金的合理配置,显著提高公司的风险水平,无疑增加公司外部融资的成本。随着我国股权融资市场与债务融资市场的不断发展,债务融资方式已经凭借财务杠杆与节税效应这两大优势
罗莎·卢森堡在其短暂的48年生涯中写下了诸多富有深远影响但又极具争议的著作,1913年的《资本积累论》无疑是其极为重要的政治经济学著作。在此文本中,卢森堡研究了马克思资本扩大再生产模式,提出了自己的帝国主义理论和资本积累理论。深入解读卢森堡的资本积累理论对于研究后金融危机时代资本主义的新发展、新趋势以及在中国特色社会主义进入新时代的语境中审视当代东西方国家的关系提供了很好的视角。在对马克思社会再生
相邻的神经元之间通过发射和接收锋电位进行通信,因此,记录并分析神经元的锋电位序列是研究神经科学的重要手段。早期使用的胞外记录电极只能搭载一个记录位点,得到的原始数据处理起来较为简单。随着电极制造水平的发展,现在广泛使用的高密度电极阵列能够搭载上千个记录位点,相邻位点的间距极小,同一个神经元的锋电位能够同时被多个位点记录。高密度电极阵列产生的数据规模陡增,处理难度也不可同日而语。本文选取高密度电极阵
社会信任问题是当前我国经济社会中较为突出的问题,社会信任在聚集社会资本、降低信息不对称和交易成本方面具有重要作用。而教育一方面可以通过培育个体对正确的价值观和社会制度的认同,进而增强个体对他人的信任程度;另一方面教育对个体收入具有极强的正向反馈作用。受教育程度越高、受教育年限越长,一般会有更好的工作、更高更稳定的收入。收入的增加会提升个体经济实力和经济地位,个体抵御他人潜在失信行为的能力也会相应的
历次技术革命对人类的就业产生了深刻的影响,进而引发了劳动力结构的改变。人工智能作为一项划时代的技术进步,其对劳动力结构也会产生深远的影响。本文主要以马克思的相关理论为基础,借鉴西方相关理论,从中国产业的劳动力结构和劳动力的技能结构的角度,分析人工智能对我国劳动力结构产生的影响,并对其具体影响进行了实证检验,结合研究的结论提出了针对性的建议。通过对国内外相关研究成果的梳理,选择从中国产业的劳动力分布