论文部分内容阅读
语义相关度分析足自然语言处理领域的一项基本研究内容,是文本智能化处理和分析的关键技术,主要研究的是文本中词语之间语义关联程度。语义相关度分析可以有效改善传统文本处理分析中忽略了文本中词语之间的语义关联的问题,本文主要研究的是基于语料库的词语语义相关度计算,及其在文本智能处理中应用。论文首先对文本中词语语义相关度分析相关技术进行了深入调研,分析了现有语义分析技术的发展现状和应用方向,比较了现有各种分析计算方法的优缺点。在此基础上,本文完成重点创新工作和主要研究成果包括如下三个方面:1.基于激活力复杂网络模型,利用词语在上下文语境中的共现关系,提出一种动态词语义网络(DWSN, Dynamic Word Semantic Network)的构建方法,用于分析特定的应用环境下词语之间的语义相关度。实验表明,与现有的基于语料库的语义相关度分析方法相比,动态词网络算法不论从语义分析的准确性,还是从算法的效率上都有比较大的改进。2.基于上述DWSN算法,提出了基于语义分析的实体关系分析方法,挖掘命名实体隐含在其相关上下文中的潜在关系。该算法已用于校园信息垂直搜索引擎COSE中,用于学校老师潜在社交关系的挖掘与展示。3.基于DWSN算法,提出了基于语义分析的特征选择迁移学习算法。通过选取训练样本和测试样本中语义一致的特征作为分类时采用的特征,以解决文本分类过程中训练样本和测试样本特征空间不一致的问题。实验表明我们提出的算法相对传统分类算法可以提高10%-20%的分类准确率