论文部分内容阅读
近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近些年来越来越吸引学术界和商业界的广泛关注,并已成功地应用在互联网的诸多领域。传统的社会媒体文本分析研究工作主要专注于从数据本身入手进行建模,往往忽视人类的语言逻辑,从而影响了文本分析的质量。
本文针对目前社会媒体文本分析存在的问题,利用模糊理论和粗糙集理论在不确定性分析领域所具有的优势,在多标签情感强度分析、多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐这四个方面进行研究,提出了新的算法,并构建了相应的模型。具体来说,本文的主要研究工作和创新点如下:
(1)目前社会媒体文本情感分析中主要针对情感倾向分析或者情感单标签预测,而较少考虑多标签细粒度的情感、特别是未考虑情感强度。针对此研究现状,本文提出一种基于模糊-粗糙集理论的多标签情感强度分析方法。首先应用模糊关系方程来对训练集文本中出现的情感词进行建模,继而得到的情感词强度范围,然后将其代入到测试集文本中,利用改进的模糊粗糙集理论对这些文本进行建模,最终得到测试集文本的情感标签和情感强度。在中文博客数据集上的实验结果表明,本文所阐述的多标签情感强度分析模型在句子、段落和篇章这三个文本层级均具有优势和实用性,该模型可以更好地对多标签情感属性和强度作出预测。
(2)目前流行的情感检索模型绝大部分基于关键词或者情感标签匹配,没有考虑到文本中所含有的多标签细粒度情感。针对此研究现状,提出了一种基于模糊关系度量的多标签细粒度情感检索方法。首先应用模糊关系方程来对情感词的情感标签及值域范围进行运算,然后基于模糊格贴近度将所得到的情感标签和强度进行建模,在此基础上计算文本之间情感标签及强度相似性距离,得到检索结果。在中文博客数据集上的实验结果表明,本文提出的方法在准确度和实用性的综合考量下具有明显的优势。
(3)目前基于TransE改进的众多翻译模型为了达到更好的分类结果,频繁地引入其他复杂数学模型,从而导致其算法复杂度越来越高,所需要的训练集越来越大,训练时间越来越长。针对此研究现状,提出了一种基于模糊集理论的社会媒体知识图谱构建方法。应用模糊关系矩阵运算的方法对现有的基于翻译的知识图谱模型进行改进,将模糊矩阵方程运算与深度学习的模型互相融合,构建了基于模糊理论的TransF模型。在WordNet和FreeBase中选取的数据集上的实验结果表明,本文所构建的基于模糊理论的知识图谱模型不但减少了所需参数并简化了训练过程,缩短了训练时间,而且在数据集规模不大的情况下表现出更大的优势。
(4)现有的学术论文资源推荐的系统应用中大多仅仅根据关键词匹配,在同一概念对应不同关键词的情况下,很难推荐出相关论文。针对此现状,提出了一种基于粗糙-模糊集理论的学术论文资源推荐方法。首先利用TF-IDF算法提取学术文献中的关键词,再使用WordNet计算待推荐论文库中存在的关键词与输入查询论文关键词之间的相似性,最后利用粗糙模糊集模型针对这些关键词相似性建模,从而计算出两篇文档的相似性,最终依据相似性的排序向用户推荐感兴趣的论文。在UCI数据集上的实验结果表明,构建的推荐模型在准确性、时间性能以及综合实用性方面都有着更佳的表现。
综上所述,本文基于模糊理论和粗糙集理论在处理不确定性问题和人类语言逻辑方面所具有的优势,研究社会媒体文本分析和处理的方法和技术。在多标签情感强度分析、基于多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐四个方面取得了研究成果。实验结果表明模糊集理论和粗糙集理论在社会媒体分析的研究中可以发挥很大的作用。本文的研究成果将为更好地建立和实现社会媒体文本处理的相关工作提供理论基础和技术支持。
本文针对目前社会媒体文本分析存在的问题,利用模糊理论和粗糙集理论在不确定性分析领域所具有的优势,在多标签情感强度分析、多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐这四个方面进行研究,提出了新的算法,并构建了相应的模型。具体来说,本文的主要研究工作和创新点如下:
(1)目前社会媒体文本情感分析中主要针对情感倾向分析或者情感单标签预测,而较少考虑多标签细粒度的情感、特别是未考虑情感强度。针对此研究现状,本文提出一种基于模糊-粗糙集理论的多标签情感强度分析方法。首先应用模糊关系方程来对训练集文本中出现的情感词进行建模,继而得到的情感词强度范围,然后将其代入到测试集文本中,利用改进的模糊粗糙集理论对这些文本进行建模,最终得到测试集文本的情感标签和情感强度。在中文博客数据集上的实验结果表明,本文所阐述的多标签情感强度分析模型在句子、段落和篇章这三个文本层级均具有优势和实用性,该模型可以更好地对多标签情感属性和强度作出预测。
(2)目前流行的情感检索模型绝大部分基于关键词或者情感标签匹配,没有考虑到文本中所含有的多标签细粒度情感。针对此研究现状,提出了一种基于模糊关系度量的多标签细粒度情感检索方法。首先应用模糊关系方程来对情感词的情感标签及值域范围进行运算,然后基于模糊格贴近度将所得到的情感标签和强度进行建模,在此基础上计算文本之间情感标签及强度相似性距离,得到检索结果。在中文博客数据集上的实验结果表明,本文提出的方法在准确度和实用性的综合考量下具有明显的优势。
(3)目前基于TransE改进的众多翻译模型为了达到更好的分类结果,频繁地引入其他复杂数学模型,从而导致其算法复杂度越来越高,所需要的训练集越来越大,训练时间越来越长。针对此研究现状,提出了一种基于模糊集理论的社会媒体知识图谱构建方法。应用模糊关系矩阵运算的方法对现有的基于翻译的知识图谱模型进行改进,将模糊矩阵方程运算与深度学习的模型互相融合,构建了基于模糊理论的TransF模型。在WordNet和FreeBase中选取的数据集上的实验结果表明,本文所构建的基于模糊理论的知识图谱模型不但减少了所需参数并简化了训练过程,缩短了训练时间,而且在数据集规模不大的情况下表现出更大的优势。
(4)现有的学术论文资源推荐的系统应用中大多仅仅根据关键词匹配,在同一概念对应不同关键词的情况下,很难推荐出相关论文。针对此现状,提出了一种基于粗糙-模糊集理论的学术论文资源推荐方法。首先利用TF-IDF算法提取学术文献中的关键词,再使用WordNet计算待推荐论文库中存在的关键词与输入查询论文关键词之间的相似性,最后利用粗糙模糊集模型针对这些关键词相似性建模,从而计算出两篇文档的相似性,最终依据相似性的排序向用户推荐感兴趣的论文。在UCI数据集上的实验结果表明,构建的推荐模型在准确性、时间性能以及综合实用性方面都有着更佳的表现。
综上所述,本文基于模糊理论和粗糙集理论在处理不确定性问题和人类语言逻辑方面所具有的优势,研究社会媒体文本分析和处理的方法和技术。在多标签情感强度分析、基于多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐四个方面取得了研究成果。实验结果表明模糊集理论和粗糙集理论在社会媒体分析的研究中可以发挥很大的作用。本文的研究成果将为更好地建立和实现社会媒体文本处理的相关工作提供理论基础和技术支持。