论文部分内容阅读
社区问答平台成为了一种流行的社交媒介,在这种社交网络中,用户可以提出问题来获取信息,其他用户也可以提供专业答案来分享知识。与搜索引擎相比,社区问答能以一种更直接的方式满足用户的信息需求。面对海量的以问答对形式组织而成的知识库,用户容易面临信息过载。一个研究任务是,给定一个问题,系统自动地从其答案集合中选择一部分符合该问题的答案,以此来提高平台的智能化水平,节省用户的时间成本。另一个研究任务是,根据用户的历史轨迹,推荐其感兴趣的问题集合,以此来增加平台黏性和用户的参与度。但是这两个任务都面临一些挑战。第一,两个任务都面临数据稀疏问题。对于答案选择任务来说,数据稀疏问题来自于问题和答案文本对中的词汇不匹配但是语义上相关。对于问题推荐任务来说,一个用户发生交互的问题集合的数量与整个问题集合的数量相比,显得非常少,因此会导致数据稀疏。第二,社区问答平台上存在着多种异构的信息源,如何利用这些信息来缓解数据稀疏不是一个容易的问题。本文提出三种融合模型,把深度学习方法与不同的数据信息相结合,来处理社区问答平台中的这两个任务。
1.对于答案选择任务,提出一种混合注意力机制来对用户一答案对进行建模。对于问题/答案中的每一个单词,计算其句子内的注意力权重,以此来表示单词的局部重要性;还计算该词与对方句子的句子间的注意力权重,以此来表示单词对于对方句子的重要性。句子间的注意力权重通过文本的交互得到,通过组合这两种注意力机制,能够对齐问题一答案对中的最具有信息含量的部分,以此达到一个好的匹配效果。同时用户更有可能在其专长的领域提供正确的答案这个假设,使用用户提供的历史答案对用户进行建模,以此来表示用户的专长分布。采用注意力机制来对齐用户的专长程度与问题的主题,作为答案的一个补充信息,以此来缓解数据稀疏问题。
2.对于问题推荐任务,提出一种融合隐式因素和显式因素的深度学习模型。模型能够处理显式的异构数据源,包括文本信息、交互信息。同时,还考虑用户的隐式分组因素,从一个更高的层次对用户进行建模,这样可以在一个共享的潜在空间中建立起用户的语义联系,缓解数据稀疏问题。模型把隐式因素和显式因素综合融入一个端到端的神经网络模型中,并把用户的社交网络结构建模成一个正则项。根据定义的目标函数,模型同时对参数和用户分组信息进行学习。在两个数据集上进行实验,其结果证明了模型的有效性。并且,还分析了模型的各个组成部分对于结果的影响。
3.对于问题推荐任务,提出另一种能够融合异构信息空间的模型,包括交互信息空间(用户一问题)、结构信息空间(用户一用户)和语义信息空间(用户一属性)。与其他的对每一种信息空间进行单独建模的模型不同的是,采用的是一种联合建模方法。采用注意力机制使得用户对其社交邻居(结构信息空间)施加不同的注意力,这些注意力权重根据用户的属性信息(语义信息空间)计算得到,然后在推荐任务(交互信息空间)中协同学习。通过这种方式,各个信息空间的内容可以相互补充,从而能够学到一种综合的特征向量表示,并达到一个更优的推荐结果。还证明了基于注意力机制的用户向量表示方法是传统的社交正则和网络嵌入方法的泛化模型。两个数据集上的实验结果证明了模型的有效性。
1.对于答案选择任务,提出一种混合注意力机制来对用户一答案对进行建模。对于问题/答案中的每一个单词,计算其句子内的注意力权重,以此来表示单词的局部重要性;还计算该词与对方句子的句子间的注意力权重,以此来表示单词对于对方句子的重要性。句子间的注意力权重通过文本的交互得到,通过组合这两种注意力机制,能够对齐问题一答案对中的最具有信息含量的部分,以此达到一个好的匹配效果。同时用户更有可能在其专长的领域提供正确的答案这个假设,使用用户提供的历史答案对用户进行建模,以此来表示用户的专长分布。采用注意力机制来对齐用户的专长程度与问题的主题,作为答案的一个补充信息,以此来缓解数据稀疏问题。
2.对于问题推荐任务,提出一种融合隐式因素和显式因素的深度学习模型。模型能够处理显式的异构数据源,包括文本信息、交互信息。同时,还考虑用户的隐式分组因素,从一个更高的层次对用户进行建模,这样可以在一个共享的潜在空间中建立起用户的语义联系,缓解数据稀疏问题。模型把隐式因素和显式因素综合融入一个端到端的神经网络模型中,并把用户的社交网络结构建模成一个正则项。根据定义的目标函数,模型同时对参数和用户分组信息进行学习。在两个数据集上进行实验,其结果证明了模型的有效性。并且,还分析了模型的各个组成部分对于结果的影响。
3.对于问题推荐任务,提出另一种能够融合异构信息空间的模型,包括交互信息空间(用户一问题)、结构信息空间(用户一用户)和语义信息空间(用户一属性)。与其他的对每一种信息空间进行单独建模的模型不同的是,采用的是一种联合建模方法。采用注意力机制使得用户对其社交邻居(结构信息空间)施加不同的注意力,这些注意力权重根据用户的属性信息(语义信息空间)计算得到,然后在推荐任务(交互信息空间)中协同学习。通过这种方式,各个信息空间的内容可以相互补充,从而能够学到一种综合的特征向量表示,并达到一个更优的推荐结果。还证明了基于注意力机制的用户向量表示方法是传统的社交正则和网络嵌入方法的泛化模型。两个数据集上的实验结果证明了模型的有效性。