基于概率模型与共现图的标签学习

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hfg595
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化标注是用户在Web上自由组织、管理、分享资源的一种方式,它不要求用户有专业知识背景,能适应网络环境的动态变化。本体作为规范的结构化知识库能表现语义概念的层次划分,是一种知识的组织方式,被广泛用于各种语义处理场合。以社会化标签为数据源进行语义挖掘,得到类似本体的知识库是目前Web语义挖掘的研究热点。社会化标签作为大众智慧的结晶能体现网络资源中的语义知识,但用户认知水平的差异会造成标签的歧义性,模糊了标签语义关系,以至将标签作为数据源进行语义挖掘和本体学习很难达到理想效果。  基于社会化标签的本体学习主要存在以下两个问题:一方面,社会化标注方法采用的是自底向上的浮出语义模式,而本体的语义析取方法则是从顶层往下的,所以现有的本体学习方法在标签数据上难以取得理想的效果;另一方面,传统分类法在处理社会化标注系统中庞大的用户与标签数据时会出现性能瓶颈。  基于概率模型与共现图的标签学习方法,针对以上两个难点,能挖掘出隐藏在大量标注数据中的语义信息。首先研究标注系统中用户、资源、标签三者之间的关联,对标注行为建立概率模型,参照本体中领域的概念,将标签映射到不同的语义范围;然后对划分领域后的各个语义范围内的标签建立标签共现图,根据共现图中节点连接的紧密程度计算标签的核度,得到标签的核度层次划分;最后根据相邻层次间标签簇的相似度,对标签簇进行自顶向下的层次聚类,得到类似本体的概念层次结构。  在社会化标注系统的标签数据上进行实验,实验结果表明经过语义空间映射后的标签作为概念词,能代表不同领域的语义信息。先将标签划分领域后再进行聚类分析能有效解决聚类算法在数据量较大时的性能瓶颈。与传统的聚类方法相比,通过核度划分与自顶向下层次间聚类方法学习到的本体结构能体现较精准的概念层次关系。
其他文献
视频监控可以使人们通过网络监控远端现场发生的事情,这种系统在工业生产和社会生活的各个领域得到了广泛的应用。而采用无线网络传输的视频监控的应用范围则更为广阔,因为这
中间件系统、操作系统和数据库系统是计算机科学领域内的基础技术,很多应用系统都使用到了中间件系统或者中间件系统的概念。消息中间件是中间件技术的发展热点,它作为一个消
科技的飞速发展,需要处理的信息量迅速增加,迫切需要一种能从大量科学数据中发现有价值知识的有效方法。知识发现是研究如何从大量的、模糊的、随机的数据中,提取隐含在其中
本论文以某重点型号工程飞行控制分组件测试系统的研制为背景,探讨了在QNX实时操作系统上搭建测试平台的设计和实现方法。 飞行控制系统中的接口分组件测试设备,以工控机为
粒子群优化算法(ParticleSwarmOptimization,PSO算法)是一种基于群智能方法的演化计算技术,是进化计算领域中的一个新的分支。它的主要特点是简单、收敛速度较快,且所需领域知识
目前,随着计算机技术以及网络技术的迅速发展,信息系统也正朝着分布式与信息资源共享两个方面发展,所以如何有效地解决分布式信息系统下的信息资源共享问题,已经成为信息系统
在复杂的应用系统中,往往存在一组互不关联的对象模块之间有一些共同行为动作需要处理,这些共同的行为动作可被称为“横切关注点(crosscutting concerns)”,其特点是它们都跨越
开发利用信息资源,既是企业信息化的出发点,又是企业信息化的归宿。信息资源规划(简称IRP)的思想和理念,已渗透到企业信息化建设过程中,而且越来越多的企业进行了全面的信息
随着Internet的飞速发展,目前基于IPv4的互联网在实际应用中越来越暴露出其不足之处:如地址空间的日益耗尽、服务质量、网络安全等问题。这些问题已经成为制约互联网发展的严
近年来,多核处理器以其高性能和低能耗逐渐代替传统单核处理器,成为商用处理器的主流,但在多核处理器架构上编程由于需要考虑核间任务负载均衡、通信同步开销仍然很复杂。数据流