社区问答平台上多因素融合的答案选择与问题推荐关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mir80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据用户的历史轨迹,推荐其感兴趣的问题集合,以此来增加平台黏性和用户的参与度。但是这两个任务都面临一些挑战。第一,两个任务都面临数据稀疏问题。对于答案选择任务来说,数据稀疏问题来自于问题和答案文本对中的词汇不匹配但是语义上相关。对于问题推荐任务来说,一个用户发生交互的问题集合的数量与整个问题集合的数量相比,显得非常少,因此会导致数据稀疏。第二,社区问答平台上存在着多种异构的信息源,如何利用这些信息来缓解数据稀疏不是一个容易的问题。本文提出三种融合模型,把深度学习方法与不同的数据信息相结合,来处理社区问答平台中的这两个任务。
  1.对于答案选择任务,提出一种混合注意力机制来对用户一答案对进行建模。对于问题/答案中的每一个单词,计算其句子内的注意力权重,以此来表示单词的局部重要性;还计算该词与对方句子的句子间的注意力权重,以此来表示单词对于对方句子的重要性。句子间的注意力权重通过文本的交互得到,通过组合这两种注意力机制,能够对齐问题一答案对中的最具有信息含量的部分,以此达到一个好的匹配效果。同时用户更有可能在其专长的领域提供正确的答案这个假设,使用用户提供的历史答案对用户进行建模,以此来表示用户的专长分布。采用注意力机制来对齐用户的专长程度与问题的主题,作为答案的一个补充信息,以此来缓解数据稀疏问题。
  2.对于问题推荐任务,提出一种融合隐式因素和显式因素的深度学习模型。模型能够处理显式的异构数据源,包括文本信息、交互信息。同时,还考虑用户的隐式分组因素,从一个更高的层次对用户进行建模,这样可以在一个共享的潜在空间中建立起用户的语义联系,缓解数据稀疏问题。模型把隐式因素和显式因素综合融入一个端到端的神经网络模型中,并把用户的社交网络结构建模成一个正则项。根据定义的目标函数,模型同时对参数和用户分组信息进行学习。在两个数据集上进行实验,其结果证明了模型的有效性。并且,还分析了模型的各个组成部分对于结果的影响。
  3.对于问题推荐任务,提出另一种能够融合异构信息空间的模型,包括交互信息空间(用户一问题)、结构信息空间(用户一用户)和语义信息空间(用户一属性)。与其他的对每一种信息空间进行单独建模的模型不同的是,采用的是一种联合建模方法。采用注意力机制使得用户对其社交邻居(结构信息空间)施加不同的注意力,这些注意力权重根据用户的属性信息(语义信息空间)计算得到,然后在推荐任务(交互信息空间)中协同学习。通过这种方式,各个信息空间的内容可以相互补充,从而能够学到一种综合的特征向量表示,并达到一个更优的推荐结果。还证明了基于注意力机制的用户向量表示方法是传统的社交正则和网络嵌入方法的泛化模型。两个数据集上的实验结果证明了模型的有效性。
其他文献
随着我国工业化和城市化的迅速发展,大量农耕土壤受到了重金属的威胁,其中土壤铅(Pb)污染尤为严重。我国蔬菜产业发达,Pb在蔬菜中过量积累会对人类健康产生极大威胁。利用微生物固定重金属、保障蔬菜安全生产的技术可实现“边生产边修复”,是一种适用于中轻度重金属污染农田的修复技术。基于生物膜能吸附固定重金属的前提,本研究选取本实验室保藏的Pb抗性Bacillus amyloliquefaciens P29
学位
采用自然工质CO2的跨临界循环技术具有广阔的应用前景。本文以CO2制冷剂跨临界循环系统中的主要设备—气体冷却器作为研究对象,通过理论分析、数值计算和实验研究相结合,进行优化研究。分析了超临界CO2的物性特点和不同条件对超临界CO2管内对流换热时影响。整理了超临界CO2换热关联式、压降关联式、润滑油的物性关联式以及水的换热关联式、压降关联式,运用动量平衡方程式建立了管内CO2/PAG混合物的两相流的
在通信、汽车、航空航天、数据处理等领域,小型化的模块电源被广泛的应用。提升电路的工作频率,可以减小系统中无源元件的体积,提升系统的功率密度。但高频化会带来开关损耗的增加,电路中的寄生参数对电路的影响变得显著等一系列问题。为了应对这些问题,可以从电路的拓扑结构,开关器件的选型及磁性元件结构的设计等方面进行相应的优化。  首先根据高效率高功率密度的要求,本课题采用的开关器件为宽禁带半导体材料GaN器件
无线能量传输技术具有灵活方便、电气隔离、免维护、环境适应性强等优点,有望应用于航空航天、电动汽车、植入式医疗、消费电子、智能家居等领域,已成为学术界和工业界的研究热点。但是,无线能量传输技术仍存在补偿元件多、抗偏移性能差、能量传输效率低、系统成本高等问题,阻碍了无线能量传输技术的实用化进程。  本文从磁耦合结构的角度出发,基于Maxwell仿真给出的磁场强度分布情况,得到了十字螺线管型抗偏移磁耦合
现代电子技术的飞速发展,手机、平板、电脑、智能手环等各类移动电子产品已成为信息传播的重要载体。在消费电子市场尤其是低压应用领域,Buck型DC-DC变换器作为不可或缺的稳压电源得到广泛应用。基于COT控制的Buck变换器因其电路结构简单、瞬态响应速度好和良好的电磁兼容性能而倍受青睐。但其劣势在于依赖于输出电压的的纹波参与系统控制,易受噪声干扰、破坏系统稳定性。  基于现有的COT控制架构,本文采用
学位
面对5G海量连接、高容量、低时延和高频谱效率的需求,非正交多址接入(NOMA) 是满足这些需求的关键技术之一。为了进一步提高非正交多址接入系统的性能,本文从系统的可达吞吐量、波束成形和能量效率等问题展开研究工作。  针对基于FDD单小区NOMA系统中存在的簇间干扰和用户间干扰问题,本文从用户分簇、预编码和功率分配三方面进行优化设计。提出了一种改进的k-means分簇算法,利用空间相关性将小区内的用
图象分割就是把图象空间划分成若干个具有某些一致性属性的不重叠区域.它是图象分析与理解的基础,是计算机视觉领域中最基本最困难的问题之一.这是因为至今没有一种方法适合所有分割问题,不同的问题必需寻找不同的方法.该文对三类不同的问题:一般图象分割理论、脑白质病变核磁图象、细胞显微图象的分割进行了深入的研究,并对于这三类不同的问题分别提出不同的解决方法.
学位
随着各个行业数据量的增加,数据外包存储得到了飞速发展。但是目前数据外包存储仍然存在较大的安全问题,云存储作为一种新型数据外包方式,自然存在较多的安全性问题。与传统的托管在服务器端的外包存储不一样,云存储相对更加开放、数据更易被攻击者轻易获取,这样数据外包存储在云端更容易遭受各种攻击和威胁。目前,数据外包存储面临的主要问题即是安全性问题。在另一方面,当前云环境下的隐私数据保护方法大都采用传统的加密技
学位
随着信息技术的快速发展,万物互连正在加快实现。物理域组件和信息域组件正在加快融合,形成信息物理系统(Cyber-Physical System,CPS)。  许多大规模的信息物理系统如智能电网、智能交通和智能工厂等的广泛应用为人民群众提供高效的服务,然而,其高度的开放性也使得系统面临严峻的网络攻击威胁。特别地,数据注入攻击能够简单地实施和引起物理子系统性能严重降级或组件破坏。数据注入攻击是指攻击者
台风的准确预报可以减少由于台风破坏和人员疏散造成的损失,对于沿海城市的防灾减灾具有重要意义。海表风矢量是台风模拟和预报的不可或缺的参数,而卫星遥感得到的海表风观测的有效同化对于改善台风路径预报和强度预报具有重要作用。然而受限于目前资料同化的处理流程,大量风场观测在台风强对流天气条件下并没有被很好地利用起来。此外,不精确的背景场,缺乏流依赖信息的背景误差协方差,高风速风场观测误差的不准确描述都会影响