论文部分内容阅读
随着互联网的迅速发展,Web资源急剧膨胀,目前已成为最重要的网络资源。Web资源管理的主要目的是让人们准确、迅速的从多而杂的Web资源中找到感兴趣的信息,将大量无序的信息提取出并用结构化方式表示,以便于对资源的进一步操作。本文结合语义网技术对Web资源的获取、识别、分析、抽取、结构化表示和查询等进行了研究。本体是关于概念及概念间关系的描述;RDF (Resource Description Framework)是语义网中用来描述资源的通用框架,使用RDF技术描述Web资源可以为Web资源赋予语义信息,提高资源管理的效率;目前已经出现多种查询RDF的语言,本文使用的SPARQL(SPARQL Protocol and RDF Query Language)语言支持各种平台和语言,对本地或远程使用都适合。本文的主要研究内容和成果如下:(1)Web资源获取与解析。本文采用通过HTTP协议直接获取Web资源的方法,获取Web网页;再使用微软的开源库将网页转换成XML格式,通过遍历XML中所有节点,将有用信息转换成DOM树,最后使用相关控件将DOM树从内存中读取出来,以实现Web资源解析;(2)Web资源抽取。结合用户的需求和本体文件,生成抽取规则;并根据抽取规则遍历DOM树,完成Web资源的抽取;将本体引入信息抽取过程,可以解决同义词或多义词等问题,抽取结果包含了更多用户感兴趣的信息;(3)Web资源的RDF表示。通过对Redland库进行二次开发,将抽取结果用RDF/XML语法表示并存储在XML/RDF文件中;RDF技术的应用使得抽取结果带有更多的语义信息,更容易被机器处理;(4)Web资源的查询。通过研究SPARQL语言的语法、语义以及具体使用等,可以对抽取结果进一步处理。在以上研究工作的基础上,本文设计并实现了一个Web资源管理系统。该系统主要包含Web资源获取与解析、Web资源抽取、Web资源表示并对抽取结果进行查询等功能;本系统简单易用,用户并不需要具备专业知识就可以找到自己需要的信息,实验结果表明将语义网引入Web资源管理系统,可以实现对Web资源方便、有效地管理。