论文部分内容阅读
Web信息资源已十分丰富,利用技术手段对Web上的教育资源进行自动采集,从而形成各种教学资源库,为教学活动提供信息资源服务,这无疑对促进教育信息化建设起到巨大的促进作用。但面对日益庞大的Web规模和越来越复杂的页面结构,研究如何在有限的网络资源和采集规模下,高效地从Internet采集教学资源,具有重要的学术意义和实践价值。本文对主题信息资源自动采集技术进行了系统研究,讨论了主题爬行技术、文本自动分类技术、文本自动抽取技术、本体及本体知识推理技术等,并深入讨论了这些技术在Web教学资源自动采集中的应用。本文以生态学的视角分析了Web主题资源的分布规律,提出了网络生态链(Network Ecological Chain)理论,并据此设计了网络生态链算法。提出了把网站的主题特性判断与具体的链接目标预测相结合的自上而下的主题信息资源采集方法:即通过网络生态链算法,辅以文本自动分类、文本自动抽取和本体知识推理等技术,首先从Web中发现主题网站群,然后结合网站、页面及链接邻近块文本的主题特性,再用主题爬行算法对具体的链接目标进行选择性采集。这样,可以有效地解决主题爬行中的方向迷失问题,提高主题信息资源采集的收获比(Harvest Rate)。为了提高主题爬行中对链接目标的预测能力,本文重点研究了本体(Ontology)技术及其在Web教学资源自动采集中的应用。讨论了本体语言、本体的构建方法及本体开发技术,尝试性地构建了教育本体知识库,开发了教育本体知识推理引擎,探索了教育本体知识推理引擎的具体应用。由于本体具有开放性和标准化的特点,因而教育本体知识库的构建可以通过共建共享的方式实现知识复用。最后,设计开发了一个Web教学资源自动采集原型系统,并以德育教学资源自动采集为例,验证了各种技术的有效性。本文的主要工作和创新之处主要有:系统研究了主题信息资源自动采集技术;提出了网络生态链理论,设计了网络生态链算法,并通过实验数据验证了其有效性;把本体技术应用于教育知识库的构建中,尝试性地开发了教育本体知识推理引擎,探索了它在Web教学资源自动采集中的应用。本文的研究可以为相关系统的设计开发提供了一定的理论指导和技术支持。