基于模糊--粗糙集理论的社会媒体文本处理技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liunanr0306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近些年来越来越吸引学术界和商业界的广泛关注,并已成功地应用在互联网的诸多领域。传统的社会媒体文本分析研究工作主要专注于从数据本身入手进行建模,往往忽视人类的语言逻辑,从而影响了文本分析的质量。
  本文针对目前社会媒体文本分析存在的问题,利用模糊理论和粗糙集理论在不确定性分析领域所具有的优势,在多标签情感强度分析、多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐这四个方面进行研究,提出了新的算法,并构建了相应的模型。具体来说,本文的主要研究工作和创新点如下:
  (1)目前社会媒体文本情感分析中主要针对情感倾向分析或者情感单标签预测,而较少考虑多标签细粒度的情感、特别是未考虑情感强度。针对此研究现状,本文提出一种基于模糊-粗糙集理论的多标签情感强度分析方法。首先应用模糊关系方程来对训练集文本中出现的情感词进行建模,继而得到的情感词强度范围,然后将其代入到测试集文本中,利用改进的模糊粗糙集理论对这些文本进行建模,最终得到测试集文本的情感标签和情感强度。在中文博客数据集上的实验结果表明,本文所阐述的多标签情感强度分析模型在句子、段落和篇章这三个文本层级均具有优势和实用性,该模型可以更好地对多标签情感属性和强度作出预测。
  (2)目前流行的情感检索模型绝大部分基于关键词或者情感标签匹配,没有考虑到文本中所含有的多标签细粒度情感。针对此研究现状,提出了一种基于模糊关系度量的多标签细粒度情感检索方法。首先应用模糊关系方程来对情感词的情感标签及值域范围进行运算,然后基于模糊格贴近度将所得到的情感标签和强度进行建模,在此基础上计算文本之间情感标签及强度相似性距离,得到检索结果。在中文博客数据集上的实验结果表明,本文提出的方法在准确度和实用性的综合考量下具有明显的优势。
  (3)目前基于TransE改进的众多翻译模型为了达到更好的分类结果,频繁地引入其他复杂数学模型,从而导致其算法复杂度越来越高,所需要的训练集越来越大,训练时间越来越长。针对此研究现状,提出了一种基于模糊集理论的社会媒体知识图谱构建方法。应用模糊关系矩阵运算的方法对现有的基于翻译的知识图谱模型进行改进,将模糊矩阵方程运算与深度学习的模型互相融合,构建了基于模糊理论的TransF模型。在WordNet和FreeBase中选取的数据集上的实验结果表明,本文所构建的基于模糊理论的知识图谱模型不但减少了所需参数并简化了训练过程,缩短了训练时间,而且在数据集规模不大的情况下表现出更大的优势。
  (4)现有的学术论文资源推荐的系统应用中大多仅仅根据关键词匹配,在同一概念对应不同关键词的情况下,很难推荐出相关论文。针对此现状,提出了一种基于粗糙-模糊集理论的学术论文资源推荐方法。首先利用TF-IDF算法提取学术文献中的关键词,再使用WordNet计算待推荐论文库中存在的关键词与输入查询论文关键词之间的相似性,最后利用粗糙模糊集模型针对这些关键词相似性建模,从而计算出两篇文档的相似性,最终依据相似性的排序向用户推荐感兴趣的论文。在UCI数据集上的实验结果表明,构建的推荐模型在准确性、时间性能以及综合实用性方面都有着更佳的表现。
  综上所述,本文基于模糊理论和粗糙集理论在处理不确定性问题和人类语言逻辑方面所具有的优势,研究社会媒体文本分析和处理的方法和技术。在多标签情感强度分析、基于多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐四个方面取得了研究成果。实验结果表明模糊集理论和粗糙集理论在社会媒体分析的研究中可以发挥很大的作用。本文的研究成果将为更好地建立和实现社会媒体文本处理的相关工作提供理论基础和技术支持。
其他文献
该文首先对现有陶瓷成型方法进行了系统分类,并扼要地介绍了各种成型方法的原理及优缺点,阐明了现代技术陶瓷对成型工艺的要求,重点介绍了凝胶注模成型工艺的原理、优点、发展及应用.论文系统研究了BaTiO基半导体陶瓷凝胶注模成型工艺,包括高固相含量低粘度浆料的制备、凝胶注模成型、坯体的干燥和烧成、陶瓷的显微结构与性能等方面,并成功地制备了显微结构均匀、形状复杂的陶瓷制品,如蜂窝状陶瓷发热体等.
该文介绍了一种用于高功率CO激光器的新的功率智能测控系统.功率采样单元主要由一具有稳定低透过率的全反球面介质镜和一薄膜型热电偶探测器组成.该单元将功率信号转化为探测器上电压信号实现功率采样.功率测控单元主要通过编辑实现对功率的检测并输出控制信号,通过与外部电路的接口,使功率在要求的范围内保持稳定.PLC通过对功率采样信号的处理,将其转化为实测的功率值.并与要求的功率进行比较,再采用一定的算法,输出
学位
文章首先介绍了射频激励CO激光器二十多年的发展历史及研究现状.接着从原理入手,给出射频激励CO激光器放电理论模型及放电腔的等效阻抗计算方法,分析了射频激励频率对激光器工作特性的影响,并介绍了射频激励CO激光器功率控制原理.然后,以25W射频激励CO激光器为例,论述了射频电源各部分的设计方法,给出了采用新型高频大功率晶体管放大器模块及以微带线作为阻抗匹配网络的新型电源设计方案,并对采用该设计电源的射
学位
随着数字图书馆等多媒体数据库的广泛应用,对多媒体数据库,特别是图像数据库的管理和查询成为制约这些应用的瓶颈,因此基于内容的图像检索成为人们研究的热点.由于基于内容的图像检索涉及到图像识别和多媒体数据库两个方面的知识.因此该文首先从图像识别出发,研究基于颜色和纹理的特征提取,然后从多媒体数据库出发,研究了面向对象的多媒体数据模型,最后设计了一个图像检索系统用来实现前面提出的算法.该文的重点在于:1.
学位
云计算作为一种新的高速网络计算服务受到越来越多的青睐,云计算技术广泛应用于通讯、交通、金融、制造等领域。通过实施任务的最优调度,充分利用现有资源实现任务的最快完成,是云计算中任务调度算法研究的目标。随着云计算的高速发展,云系统底层技术构架发生了明显变化,云系统结构越来越复杂,资源节点数量越来越多,不同云之间的差异性越来越明显。同时,用户数量多、行业普及、服务需求多、时效性期望高、数据海量且多样化等
学位
近年来,随着通信和位置感知技术的发展,基于位置的服务(Location Based Service,LBS)需求不断增加。位置预测是LBS的研究内容之一,在广告服务、位置导航等领域具有重要的应用。已有的位置预测方法多通过建立Markov位置预测模型和频繁轨迹挖掘来实现,尽管此类模型和方法可以较好地适用于GPS轨迹数据,可以有效地用于位置预测,但却存在模型阶数不好确定,轨迹挖掘过程只涉及轨迹数据本身
学位
近年来,伴随着互联网科技的迅猛发展,得益于低廉的维护和管理成本、可伸缩的软硬件配置和随时随地的便捷访问,越来越多的企业、组织、科研机构和个人将数据外包到云服务器。然而凡事具有两面性。在人们享受云存储带来的低成本和高效率的同时,数据安全性的问题随之而来。对于外包数据,用户失去了物理上的控制权。尽管云服务提供商会对数据提供一般性的保护,但此类手段完全依赖于厂商的信誉和技术水平,用户毫无掌控权。除此以外
学位
目标的位置与运动轨迹是无线传感器网络的基础信息,是基于位置服务实现的基础。卫星定位系统为室外环境下的目标定位与轨迹跟踪问题提供了解决方案。据统计,人类有80%以上的时间是在室内度过的,提供高精度的室内位置或者轨迹,是许多应用的基础。卫星无线信号会受到建筑物、墙壁等障碍物的严重影响,不能有效地在室内环境中工作。无线网络定位与轨迹跟踪问题涉及到计算机、通信、自动化与物理等多个学科的相关研究领域,为了提
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。  由于短语是自然、低歧
学位
行人检测技术应用于计算机视觉的多个领域,如视频监控、动作行为分析、汽车辅助驾驶、机器人控制等,具有广泛的应用前景和研究价值。多年来,行人检测技术取得了一定的研究成果,但由于行人较大的类内差异和场景的复杂性,仍然存在很多未很好解决的问题,需要进一步的研究。本文进行行人检测算法的研究选择了预处理环节、基于部位建模的分类器和自适应场景的模型推荐三个角度,并提出了改进方案。本文的主要研究工作和成果体现在以
学位