基于词项聚类的文本语义标签抽取研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:hawkwang2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。
其他文献
科技服务创新运营模式是推动高新技术产业,加快科技创新发展的前提与重要保障。哈长城市群综合科技服务平台作为东北区域共享平台之一,自2009年成立以来,平台在体制和运营模
使用HP-Plot Q色谱柱与FID检测器检测消毒剂中复配的正丙醇与乙醇含量,最大方法相对偏差(RSD)为2.14%,最小方法回收率为100.0%,乙醇与正丙醇的检出浓度为0.025%,是一种快速准