Web教学资源抽取技术及其应用研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:godwin_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上个世纪90年代末到至尽,Internet的得到了飞速发展,网络已经成为人们获取信息的主要来源。如何使人们从成千上万的网站中快速方便的获取自己想要的资源和信息已经成为当前急需解决的问题。但是Web上大量存在的有价值的信息都是以HTML格式存在的,这种信息数据的特点是内容分散,以半结构化的形式存在于页面中。为了把这种信息数据以结构化形式表示并通过一致的方式进行访问,Web信息抽取技术随之产生了。随着计算机与网络的应用与普及,国内基础教育的信息化建设空前的繁荣起来,越来越多的教师使用多媒体素材和课件进行授课,并把这种教学资源在网络上共享。于是出现了大量的教学资源专业网站。教师如何从网站获取这些教学资源呢?本文就是利用Web信息抽取技术构建一个专业的Web教学资源抽取系统,以方便广大教师和学生对Web上教学资源的利用。本文先对Web信息抽取技术进行分析,仔细的研究先有系统使用的技术和方法。对现有Web信息抽取的不足之处提出了改进,如原有方法都是真对一个网页的数据进行抽取,没有考虑到抽取对象可能会存在于多个网页中,每个页面都会有对象的属性描述。还有对网页结构的变更,系统如何根据已有的抽取规则适应这种情况的变化等。在此基础之上,构建了一个面向基础教育教学资源的信息抽取系统,对用户指定网站的教学资源数据进行抽取与集成。最后,本文对上述系统进行了实验性能测试,通过对实验数据招回率与抽取率的比较来证明本系统具有实际的可用性。
其他文献
授权代理是访问控制模型十分重要的组成部分,本文在深入研究几种现有权限委托代理模型的基础上,利用RBAC自身管理RBAC的思想,在PBDM模型的基础上提出了一种新的具有自我管理
随着网络教学资源的急剧增加,传统基于关键字的教学资源检索由于缺少在语义层面上的处理和表示,这就造成了检索结果的不全面和不准确性等问题,不能满足用户对于网络资源检索的需
社会网络分析(SNA)是数据挖掘研究领域的一个热点,受到越来越多研究学者的关注,而社区挖掘是社会网络分析的一个主要研究方向。当前大部分的社区挖掘算法都假定网络中仅存在一
随着通讯技术的发展和Internet的普及,网络与人们的工作、生活联系越来越紧密,使用搜索引擎从网络中获取需要的信息已经成为了人们的一种习惯。但随着信息量的增大和行为方式的
网络技术的飞速发展,因特网呈现了许多新的趋势,人们对因特网也提出了新的要求。随着选播技术在因特网上的推广应用,用户数量是指数级增加的情况下,必须解决选播通信过程中的瓶颈
Ad Hoc无线网络是没有有线基础设施支持的移动网络,网络中的节点均由移动主机构成。Ad hoc网络中,每个移动终端兼备路由器和主机两种功能。因此,Ad hoc无线网络具有无中心、自组
网络并行计算是一种分布式处理系统,它利用现有高速网络互联的处理机、工作站的软硬件资源,实现以前只有专用且昂贵的大规模并行计算机系统才能完成的高性能计算。与专用的大型
目前,在Internet上广泛采用以集中数据存储和网络管理为核心的C/S模式,日益面临着资源的访问延迟、通信错误、服务器过载以及负载不平衡等一系列问题,严重引起了网络局部负荷过大
心血管疾病已经成为世界范围内威胁人类健康的头号杀手。影像科医师则需要借助一些成像工具对这些成像图像进行观察,对一些疑似病灶,如硬化或者狭窄进行判断和确认。虽然目前心
为加强泛珠三角区域合作信息交流,建立统一、快捷、方便的信息交流平台,根据“9+2”政府的共同意愿,由“9+2”日常工作办公室共同主办,南方新闻网承办,建立本区域枢纽式和门户式泛