面向短语的文本挖掘与分析方法

来源 :东北大学 | 被引量 : 0次 | 上传用户:man1300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。
  由于短语是自然、低歧义和有意义的语义单元,因此研究短语粒度的文本挖掘和分析技术,对于提高管理和理解非结构化文本数据的能力和效率具有十分重要的意义。然而,现有的面向短语的文本挖掘和分析技术存在短语质量低下、主题短语内聚性差、不能自适应地学习短语组合性以及大规模数据集下的可扩展性较差等问题。因此,研究如何解决现有工作的上述问题,提高面向短语的文本挖掘和分析的能力和效率是一项重要的挑战和难点。
  针对上述问题,本文深入研究了可以有效支持文本挖掘和分析的短语挖掘、主题短语挖掘以及短语嵌入方法。具体来说,本文的主要研究内容和创新成果包括以下几个方面:
  (1)针对短语挖掘中短语质量和挖掘效率问题,提出了高质量短语的高效挖掘方法。该方法通过消除顺序敏感导致的短语不完整性提高了短语质量。针对完整短语挖掘计算复杂度过高的问题,提出了基于动态规划策略的方法、基于分区搜索策略的方法以及基于种子短语扩展的方法三种高效的算法设计,从而极大地降低了时间开销。此外,针对传统数据结构在短语频率计数和检索操作中的效率低下的问题,提出了一种新的数据结构PhraseTrie来提高频率计数和检索的效率。实验证实,本文提出的方法比目前最先进的方法快3~18.7倍。
  (2)针对主题短语挖掘中错误的重叠短语划分问题,提出了同时考虑内部共现性和划分的隔离性的重叠短语划分方法。同时,针对重叠短语划分模型中的未知参数以及推导最优划分的计算复杂度过高的问题,提出了未知参数估计和基于动态规划的最优划分推导方法降低计算复杂度。针对惯用短语成分单词主题分配错误的问题,提出了一种基于“短语袋”假设的主题模型CPhrLDA,该模型可以更灵活地分配成分单词的主题。此外,针对领域术语缺失问题,提出了基于密度峰值的k-means聚类以及迭代模式以发现领域术语。上述技术可以显著地提高主题短语的内聚性和计算效率。实验证实,相比最先进的方法,本文提出方法的在主题内聚性方面平均提升了12%。
  (3)针对短语嵌入中不能自适应地学习短语组合性的问题,提出了支持不同组合性短语嵌入的层次组合模型。该模型利用可组合性概念隐式表达组合权重,因此可以极大地降低模型复杂度。基于层次组合模型,提出了基于期望最大化策略的短语嵌入方法,包含短语结构的推理和模型参数学习两个部分。针对短语结构推理复杂度过高的问题,提出了基于动态规划策略的最优成分划分方法降低计算复杂度。对于模型参数学习部分,利用学习到的短语可组合性自适应地更新层次结构和嵌入向量。上述方法可以自适应地学习短语组合性,提高短语嵌入的有效性。实验证实,相比目前最先进的模型,本文提出的方法在语义相似性任务上提升了1.8%,在类比推理任务上提升了5.5%。
  总之,本文提出了一套数据驱动、高可扩展性、针对短语粒度的挖掘和语义学习方法,包括高质量短语高效挖掘方法、高内聚的主题短语挖掘方法以及自适应的短语嵌入层次组合模型。通过在多组真实数据集上进行的,包含多种文本挖掘和分析任务的实验证实,本文提出的方法在有效性和效率方面均超过了目前最先进的方法。
其他文献
随着天然能源的日益枯竭以及人类对环保意识的加强,开发清洁新能源已迫在眉睫。氢能作为一种清洁的二次能源引起人们的广泛关注。人们通过研究贮氢材料有效的解决了氢的储存和运输问题。本文以AB3型La0.67Mg0.33Ni2.5M0.5(M=Co,Cu)贮氢合金作为研究对象,用铁磁性元素Co及抗磁性元素Cu分别部分取代磁性元素Ni。首先通过真空感应熔炼法制备La0.67Mg0.33Ni3.0,La0.67
学位
无轴承电机是一种能够同时实现转矩控制与悬浮控制的新型电机,作为高速、超高速电机发展的重要方向之一,受到了国内外众多专家学者的广泛关注。其中无轴承异步电机因其易于弱磁、结构简单、可靠性高等特点,成为研究最早、最多的类型之一。当无轴承异步电机在高速、超高速运行时,采用普通测速仪器进行转速测量时存在较大的困难,在一定程度上影响了电机的高性能矢量控制。采用无速度传感器技术替代普通测速仪器成为了电机高速、超
该文首先对现有陶瓷成型方法进行了系统分类,并扼要地介绍了各种成型方法的原理及优缺点,阐明了现代技术陶瓷对成型工艺的要求,重点介绍了凝胶注模成型工艺的原理、优点、发展及应用.论文系统研究了BaTiO基半导体陶瓷凝胶注模成型工艺,包括高固相含量低粘度浆料的制备、凝胶注模成型、坯体的干燥和烧成、陶瓷的显微结构与性能等方面,并成功地制备了显微结构均匀、形状复杂的陶瓷制品,如蜂窝状陶瓷发热体等.
该文介绍了一种用于高功率CO激光器的新的功率智能测控系统.功率采样单元主要由一具有稳定低透过率的全反球面介质镜和一薄膜型热电偶探测器组成.该单元将功率信号转化为探测器上电压信号实现功率采样.功率测控单元主要通过编辑实现对功率的检测并输出控制信号,通过与外部电路的接口,使功率在要求的范围内保持稳定.PLC通过对功率采样信号的处理,将其转化为实测的功率值.并与要求的功率进行比较,再采用一定的算法,输出
学位
文章首先介绍了射频激励CO激光器二十多年的发展历史及研究现状.接着从原理入手,给出射频激励CO激光器放电理论模型及放电腔的等效阻抗计算方法,分析了射频激励频率对激光器工作特性的影响,并介绍了射频激励CO激光器功率控制原理.然后,以25W射频激励CO激光器为例,论述了射频电源各部分的设计方法,给出了采用新型高频大功率晶体管放大器模块及以微带线作为阻抗匹配网络的新型电源设计方案,并对采用该设计电源的射
学位
随着数字图书馆等多媒体数据库的广泛应用,对多媒体数据库,特别是图像数据库的管理和查询成为制约这些应用的瓶颈,因此基于内容的图像检索成为人们研究的热点.由于基于内容的图像检索涉及到图像识别和多媒体数据库两个方面的知识.因此该文首先从图像识别出发,研究基于颜色和纹理的特征提取,然后从多媒体数据库出发,研究了面向对象的多媒体数据模型,最后设计了一个图像检索系统用来实现前面提出的算法.该文的重点在于:1.
学位
云计算作为一种新的高速网络计算服务受到越来越多的青睐,云计算技术广泛应用于通讯、交通、金融、制造等领域。通过实施任务的最优调度,充分利用现有资源实现任务的最快完成,是云计算中任务调度算法研究的目标。随着云计算的高速发展,云系统底层技术构架发生了明显变化,云系统结构越来越复杂,资源节点数量越来越多,不同云之间的差异性越来越明显。同时,用户数量多、行业普及、服务需求多、时效性期望高、数据海量且多样化等
学位
近年来,随着通信和位置感知技术的发展,基于位置的服务(Location Based Service,LBS)需求不断增加。位置预测是LBS的研究内容之一,在广告服务、位置导航等领域具有重要的应用。已有的位置预测方法多通过建立Markov位置预测模型和频繁轨迹挖掘来实现,尽管此类模型和方法可以较好地适用于GPS轨迹数据,可以有效地用于位置预测,但却存在模型阶数不好确定,轨迹挖掘过程只涉及轨迹数据本身
学位
近年来,伴随着互联网科技的迅猛发展,得益于低廉的维护和管理成本、可伸缩的软硬件配置和随时随地的便捷访问,越来越多的企业、组织、科研机构和个人将数据外包到云服务器。然而凡事具有两面性。在人们享受云存储带来的低成本和高效率的同时,数据安全性的问题随之而来。对于外包数据,用户失去了物理上的控制权。尽管云服务提供商会对数据提供一般性的保护,但此类手段完全依赖于厂商的信誉和技术水平,用户毫无掌控权。除此以外
学位
目标的位置与运动轨迹是无线传感器网络的基础信息,是基于位置服务实现的基础。卫星定位系统为室外环境下的目标定位与轨迹跟踪问题提供了解决方案。据统计,人类有80%以上的时间是在室内度过的,提供高精度的室内位置或者轨迹,是许多应用的基础。卫星无线信号会受到建筑物、墙壁等障碍物的严重影响,不能有效地在室内环境中工作。无线网络定位与轨迹跟踪问题涉及到计算机、通信、自动化与物理等多个学科的相关研究领域,为了提