论文部分内容阅读
随着互联网技术发展,信息的总量和增长速度严重超出了个人或传统的数据管理和分析方法所能接受、处理和有效利用的极限,引起信息过载问题。其中大多数信息过载问题源于非结构化文本数据,例如,社交媒体文本、网页、新闻文档以及学术论文等。因此,从大量文本数据中自动发现知识的文本挖掘和分析技术引起了学术界和工业界极大的研究兴趣和热度,成为大数据时代数据挖掘和自然语言处理领域的核心研究问题。
由于短语是自然、低歧义和有意义的语义单元,因此研究短语粒度的文本挖掘和分析技术,对于提高管理和理解非结构化文本数据的能力和效率具有十分重要的意义。然而,现有的面向短语的文本挖掘和分析技术存在短语质量低下、主题短语内聚性差、不能自适应地学习短语组合性以及大规模数据集下的可扩展性较差等问题。因此,研究如何解决现有工作的上述问题,提高面向短语的文本挖掘和分析的能力和效率是一项重要的挑战和难点。
针对上述问题,本文深入研究了可以有效支持文本挖掘和分析的短语挖掘、主题短语挖掘以及短语嵌入方法。具体来说,本文的主要研究内容和创新成果包括以下几个方面:
(1)针对短语挖掘中短语质量和挖掘效率问题,提出了高质量短语的高效挖掘方法。该方法通过消除顺序敏感导致的短语不完整性提高了短语质量。针对完整短语挖掘计算复杂度过高的问题,提出了基于动态规划策略的方法、基于分区搜索策略的方法以及基于种子短语扩展的方法三种高效的算法设计,从而极大地降低了时间开销。此外,针对传统数据结构在短语频率计数和检索操作中的效率低下的问题,提出了一种新的数据结构PhraseTrie来提高频率计数和检索的效率。实验证实,本文提出的方法比目前最先进的方法快3~18.7倍。
(2)针对主题短语挖掘中错误的重叠短语划分问题,提出了同时考虑内部共现性和划分的隔离性的重叠短语划分方法。同时,针对重叠短语划分模型中的未知参数以及推导最优划分的计算复杂度过高的问题,提出了未知参数估计和基于动态规划的最优划分推导方法降低计算复杂度。针对惯用短语成分单词主题分配错误的问题,提出了一种基于“短语袋”假设的主题模型CPhrLDA,该模型可以更灵活地分配成分单词的主题。此外,针对领域术语缺失问题,提出了基于密度峰值的k-means聚类以及迭代模式以发现领域术语。上述技术可以显著地提高主题短语的内聚性和计算效率。实验证实,相比最先进的方法,本文提出方法的在主题内聚性方面平均提升了12%。
(3)针对短语嵌入中不能自适应地学习短语组合性的问题,提出了支持不同组合性短语嵌入的层次组合模型。该模型利用可组合性概念隐式表达组合权重,因此可以极大地降低模型复杂度。基于层次组合模型,提出了基于期望最大化策略的短语嵌入方法,包含短语结构的推理和模型参数学习两个部分。针对短语结构推理复杂度过高的问题,提出了基于动态规划策略的最优成分划分方法降低计算复杂度。对于模型参数学习部分,利用学习到的短语可组合性自适应地更新层次结构和嵌入向量。上述方法可以自适应地学习短语组合性,提高短语嵌入的有效性。实验证实,相比目前最先进的模型,本文提出的方法在语义相似性任务上提升了1.8%,在类比推理任务上提升了5.5%。
总之,本文提出了一套数据驱动、高可扩展性、针对短语粒度的挖掘和语义学习方法,包括高质量短语高效挖掘方法、高内聚的主题短语挖掘方法以及自适应的短语嵌入层次组合模型。通过在多组真实数据集上进行的,包含多种文本挖掘和分析任务的实验证实,本文提出的方法在有效性和效率方面均超过了目前最先进的方法。
由于短语是自然、低歧义和有意义的语义单元,因此研究短语粒度的文本挖掘和分析技术,对于提高管理和理解非结构化文本数据的能力和效率具有十分重要的意义。然而,现有的面向短语的文本挖掘和分析技术存在短语质量低下、主题短语内聚性差、不能自适应地学习短语组合性以及大规模数据集下的可扩展性较差等问题。因此,研究如何解决现有工作的上述问题,提高面向短语的文本挖掘和分析的能力和效率是一项重要的挑战和难点。
针对上述问题,本文深入研究了可以有效支持文本挖掘和分析的短语挖掘、主题短语挖掘以及短语嵌入方法。具体来说,本文的主要研究内容和创新成果包括以下几个方面:
(1)针对短语挖掘中短语质量和挖掘效率问题,提出了高质量短语的高效挖掘方法。该方法通过消除顺序敏感导致的短语不完整性提高了短语质量。针对完整短语挖掘计算复杂度过高的问题,提出了基于动态规划策略的方法、基于分区搜索策略的方法以及基于种子短语扩展的方法三种高效的算法设计,从而极大地降低了时间开销。此外,针对传统数据结构在短语频率计数和检索操作中的效率低下的问题,提出了一种新的数据结构PhraseTrie来提高频率计数和检索的效率。实验证实,本文提出的方法比目前最先进的方法快3~18.7倍。
(2)针对主题短语挖掘中错误的重叠短语划分问题,提出了同时考虑内部共现性和划分的隔离性的重叠短语划分方法。同时,针对重叠短语划分模型中的未知参数以及推导最优划分的计算复杂度过高的问题,提出了未知参数估计和基于动态规划的最优划分推导方法降低计算复杂度。针对惯用短语成分单词主题分配错误的问题,提出了一种基于“短语袋”假设的主题模型CPhrLDA,该模型可以更灵活地分配成分单词的主题。此外,针对领域术语缺失问题,提出了基于密度峰值的k-means聚类以及迭代模式以发现领域术语。上述技术可以显著地提高主题短语的内聚性和计算效率。实验证实,相比最先进的方法,本文提出方法的在主题内聚性方面平均提升了12%。
(3)针对短语嵌入中不能自适应地学习短语组合性的问题,提出了支持不同组合性短语嵌入的层次组合模型。该模型利用可组合性概念隐式表达组合权重,因此可以极大地降低模型复杂度。基于层次组合模型,提出了基于期望最大化策略的短语嵌入方法,包含短语结构的推理和模型参数学习两个部分。针对短语结构推理复杂度过高的问题,提出了基于动态规划策略的最优成分划分方法降低计算复杂度。对于模型参数学习部分,利用学习到的短语可组合性自适应地更新层次结构和嵌入向量。上述方法可以自适应地学习短语组合性,提高短语嵌入的有效性。实验证实,相比目前最先进的模型,本文提出的方法在语义相似性任务上提升了1.8%,在类比推理任务上提升了5.5%。
总之,本文提出了一套数据驱动、高可扩展性、针对短语粒度的挖掘和语义学习方法,包括高质量短语高效挖掘方法、高内聚的主题短语挖掘方法以及自适应的短语嵌入层次组合模型。通过在多组真实数据集上进行的,包含多种文本挖掘和分析任务的实验证实,本文提出的方法在有效性和效率方面均超过了目前最先进的方法。