【摘 要】
:
互联网社交媒体近年来的迅猛发展,海量文本数据每日在各种社交媒体上生成和传播,伴随着人们对成本要求的提高,自动化的从互联网上的文本信息提取关键信息并生成相应文本就越
论文部分内容阅读
互联网社交媒体近年来的迅猛发展,海量文本数据每日在各种社交媒体上生成和传播,伴随着人们对成本要求的提高,自动化的从互联网上的文本信息提取关键信息并生成相应文本就越发重要。通过文本生成算法输出语义连贯,语序通顺的拟真文本能够节约人力成本。本文的主要工作是研究基于多层文本度量生成对抗网络的文本生成模型来实现文本生成任务,并针对文本生成流程传统文本生成模型中的不足之处,进行探索并提出相应的改进方法。本文的研究工作主要包括以下几个方面:1)针对文本生成模型中常见的离散型数据特征及其相应的特征信息不足的问题,本文根据文本生成过程中对特征提取流程的不同,研究分析了传统的序列到序列模型在特征提取上的欠缺,改进现有特征获取流程。提出基于原始数据集特征空间的补充机制,构建了特征增强文本生成模型。通过将传统的特征提取流程进行优化,提高特征空间完整度。实验表明特征增强模型可以有效利用文本特征,更有效的通过特征提升文本生成效果。2)针对文本生成过程中的词级语序问题,本文根据文本生成过程中对原文本信息处理的需求,受镜像对称的启发,提出基于生成对抗网络的对称训练模型。其中生成对抗网络用于保证生成过程的效果,对称训练机制用于提升文本生成过程中词级语序上的性能要求,将文本生成任务分为编码生成,对称训练,真伪判断三个步骤。实验结果证明对称对抗训练网络可以有效提升生成过程中词级语序优化问题,提升整体文本生成效果。3)针对生成文本的整体语义和词级语序统摄问题,本文通过学习自然语言形成过程中的整体语义统摄词级语序特点,改进文本生成模型生成过程,提出分层结构的文本生成模型。在对称对抗文本生成模型的基础上,使用双层编码解码模型用于处理语义及语序上重要特征,构建分层对称对抗训练模型。实验表明分层对称对抗训练模型在生成文本上的可读性优于传统文本生成模型,并且有效减少了词序和语义交叉的问题,提升了文本生成效果。
其他文献
随着气候变暖等一系列环境问题日益突出,加快新能源替代传统化石能源已成为普遍共识和一致行动。近年来,我国大力推动新能源的发展,目前新能源装机容量已位居世界第一。光伏发电作为最具开发前景的新能源发电之一,具有广阔的发展空间。然而,由于分布式光伏发电受季节、天气、时刻、温度等因素影响,其出力具有波动性和随机性,且随着较高渗透率的分布式光伏接入配电网,带来电压越限等问题,严重制约了分布式光伏的大规模消纳。
局部放电是造成高压电气设备最终发生绝缘击穿的重要原因。对局部放电进行在线监测,并及时排除可能发生的故障,对保障人民生活生产用电具有重要的意义。本文针对光纤传感技术
本研究采用具有低毒性、较大体表面积、良好生物相容性、粒径易于合成从30nm到1OOnm并且易于生物大分子结合特点的中空金纳米粒(Hollow gold nanospheres,HAuNs)作为主要材料;硫辛酸(Lipoic acid,TA)与具有质子海绵效应的聚乙烯亚胺(Polyethylenimine,PEI 2kDa)反应获得聚乙烯亚胺-硫辛酸(PEI-TA)再连接到HAuNs表面,从而构建了
近几年来,过渡金属硫族化合物(TMDs)由于其优异的机械、电学、光学和热学等物理性质而越来越引人关注。MoTe2是TMDs材料的一种,有着各向异性的晶体结构和高载流子迁移率,其吸收光谱范围能覆盖可见光和近红外区域,因此在电子学和光电子学领域有着巨大的应用潜力。到目前为止,大面积合成高质量的MoTe2晶体的技术尚未成熟,这使得了 MoTe2始终难以应用到实际中去。针对这些问题,本论文系统研究了 CV
随着工厂转型升级,工厂自动化、智能化水平不断提升,打造智能化工厂成为许多生产企业发展的新战略。在工厂物流的智能化升级中,物流机器人是其重要一环。物流系统中,通常都是
随着光伏的大规模接入电网和需求响应的深入开展,光伏功率预测和需求侧资源的整合越来越重要。需求侧资源(用户、光伏)是需求响应实施的主要对象,这些资源的调度潜力大,但大
家用空调室外机是空调噪声的主要噪声源,空调室外机的噪声与其振动有着直接的关系。在空调出厂前,空调生产商根据空调室外机的振动对其进行故障检测。在生产线上,主要是依靠
伴随社会的全面发展,居民不但物质生活水平得以提高,消费观念和居住认知也在潜移默化中发生了微妙的调整,居民更加注重健康生活,对体育运动的消费需求相应增加,体育地产的建
降水是地球水循环的重要过程,与水文、气象等过程密切相关,降水研究对于气候变化、水文循环、干旱监测等科学研究都具有重要意义。高精度、高时空分辨率的降水产品对水文过程
机器学习已在很多现实任务中取得了成功。成功背后往往依赖于充分的标注数据。然而,在现实任务中,标记数据的获取困难,数据产生的速度远大于数据标注的速度。不依赖充分标记