面向本体学习的动态语料库构建方法

来源 :东南大学 | 被引量 : 0次 | 上传用户：tomzhang155

【摘要】

：

随着信息技术的高速发展，信息资源的规模愈发庞人，导致管理难度大大增加，因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解，确定了该领域内共

【作者】

：

戴明

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2007年期

【关键词】

：

语料库本体技术爬虫系统网页特征向量 ReleRank算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的高速发展，信息资源的规模愈发庞人，导致管理难度大大增加，因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解，确定了该领域内共同认可的术语，并定义了术语之间的关系，所以,可以利用这些特点把本体运用到知识管理中。采用本体技术进行知识管理存在着知识获取瓶颈的问题，因此需要采用自动或半自动的方法(本体学习)来构建本体。本文构建的语料库以Web页面为主且和时间相关，所以称为动态语料库，可用于动态本体学习。本文主要取得了以下一些研究成累。 1)设计了候选语料的获取与增量式更新方法。该方法应用于本文实现的小型爬虫系统。增量式网页更新方法解决了语料库初次构建而后续更新效率低的问题，该爬虫系统能以较高的效率获取新增网页。 2)提出了一种领域主题向量的生成方法，为语料库特征向量的生成提供支持。该方法基于少量和领域高度相关的网页，利用词的代表度从网页集合中选择一部分词构建领域特征向量。相比于已有的特征选择方法，本文的方法在基于网络的开放环境、无法提供足够数量的分类学习数据时仍可取得较好的结果，为在无分类信息的训练集合中进行特征选择提供了一条新的途径。 3)提山了ReleRank算法，它综合利用了网页标题、止文内容、结构信息、超链接关系和锚文本等网页基本信息，来计算每个网页与领域相关的概率，以这个概率值作为该网页与领域相关程度的刻划。 4)构建了一个小型的人工智能领域的动态语料库。通过运行本文设计的系统，并利用本文提出的Web页面分类方法，从实验数据集合中选择出部分网页，提取这些Web页面的标题、正文内容、锚文本以及链接信息，组成动态语料库。实验结果显示，利用ReleRank算法进行Web页面分类准确率达剑83.6％，对分类出的网页进行人工检查后发现这些网页和领域相关度较高。这表明本文研究工作基本达到了预定的目标。

其他文献

集成与改造Web应用开发框架的研究与实践

互联网技术的迅猛发展和B/S应用的强大诱惑，使得越来越多的系统都要求构造为一种简单、经济而高效的Web应用。这从根本上导致了近年来基于J2EE的应用开发方式逐渐从重量级转向

学位

SpringAjax反射多态Web应用开发集成框架

分布式环境中访问控制模型的研究与应用

网络技术的广泛应用和企业自身发展的需要，使得网络应用系统在企业中得到广泛应用。许多网络应用系统将访问控制作为处理安全管理问题的有效解决方案。然而随着企业网络应用系

学位

访问控制UCON分布式应用组织结构

一个用于辅助审计的数据仓库的设计与实现

随着计算机应用的普及,我国绝大多数企事业单位实现了会计电算化,使得审计工作的对象发生了质的变化,对审计提出了更高的要求。目前的审计工作还不能适应这种变化。面对海量

学位

数据仓库数据挖掘层次聚类密度聚类审计

民航地面运行监控系统的开发与关键技术研究

软件框架技术是当今B／S系统开发的重要技术。本文对J2EE架构的框架技术作了较为深入的分析和研究，阐述了J2EE企业级软件开发架构、设计模式、软件框架及组件技术等相关技术；并且

学位

J2EEStrutsEJB软件框架组件技术

审计系统中指标计算引擎的研究

审计系统是银行进行风险监督和风险管理的重要手段，如何将来自各业务系统的业务数据映射到最终的风险指标体系中的指标，是审计系统成功的关键。因此，设计一套灵活高效，可扩展的柔

学位

非现场审计指标算子分枝限界算法状态空间树

大词汇量手语词语分割的研究

中国手语环境下的自然语言处理是人工智能的一个重要分支，而手语环境下的汉语自动分词是中国自然语言处理的一项基础性工作，也是中文信息处理的一个重要问题，同时也是实现自然语

学位

中国手语词歧义字段Web文本解析词语切分自然语言处理人工智能

基于MAS的合作行为研究

伴随着经济全球化和科学技术的迅猛发展,企业的生存环境和生存方式发生了巨大的变化。在这样的情况下,许多企业为了获得更高的利益,纷纷调整自己的策略,寻求合作的利益、创造

学位

合作信任欺骗AgentMAS合作博弈

生物信息学中的并行处理

生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科，它是整个生命科学发展的重要组成部分，己成为生命科学研究的前沿。生

学位

生物信息学并行处理生物序列

可视化技术的研究及其应用

随着计算机技术的飞速发展，计算机动画、科学计算可视化和虚拟现实成为计算机图形学领域中三大重要技术，而三维真实感图形又是这三大技术的核心内容。OpenGL凭借其强大的渲染功

学位

OpenGL贝塞尔曲线层次细节模型分形理论可视化技术

基于Agent的Web Service访问中间件在移动设备中的应用

由于Web Service具有平台和语言的独立性，使得它受到广泛的应用，目前Web Service已经成为当今Web应用系统中不可缺少的重要内容之一。对于台式PC来说，目前已经有比较成熟的Web S

学位

Java手机智能体Servlet中间件Web Service

面向本体学习的动态语料库构建方法

其他学术论文