基于UCL的网页信息自动分类及标引技术研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:hezefgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展,使网络信息急剧增长。人们对信息服务的要求不断提高,未来的信息网络将变得越来越人性化,用户将获得优质的信息服务和个性化的主动服务。而网络信息的内容理解,对真正实现信息主动服务有着重要作用,也是信息处理中十分重要的课题。论文从网页信息的自动分类与自动标引技术方面开展理论与实验研究,以解决共享信息网络中网页信息的内容理解与资源整合问题。 论文首先分析了相关技术的国内外研究现状,论述了UCL技术、文本分类和网页信息自动标引的相关基础理论。 然后,提出基于网站结构的分类算法及适合网络信息资源的UCL分类代码,创建分类特征库,完成了网站结构分类器的构建。采用朴素贝叶斯算法,通过网页预处理、文本分词、特征提取等过程构建了朴素贝叶斯分类器。完成语料库的构建,在统一分类法基础上,测试两种分类器的性能,实验结果表明,网站结构分类器的准确率达97%以上,优于朴素贝叶斯分类器,验证了网站结构分类器的可行性及有效性。 其次,参照都柏林核心元数据规范构建了网页信息的标引框架,提取网页特征信息,采用ADO技术实现了网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。 最后,将分类及标引技术应用到互补结构网络智能代理终端,验证了UCL标引方法的有效性。实验结果表明,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。
其他文献
随着科学技术的进步,人类正在快速进入信息化时代。以视频为代表的多媒体信息丰富了人们的生活,为人们的生活提供了安全保障;然而另一方面,如何管理和使用这些海量的视频数据
低密度奇偶校验码(LDPC)具有低复杂度迭代译码和逼近香农极限性能的优点,在存储及通信等领域得到广泛应用。但LDPC码的迭代译码结果容易出现差错平台问题,严重影响了LDPC码字
图像配准是一种复杂的数字图像处理技术,它在两幅或多幅图像中寻找适当的几何变换,使得图像之间的结构能正确地对应。目前,针对图像配准虽然已有许多方法存在,但它仍然是数字
P2P(Peer-to-Peer)作为Internet的重要技术之一,受到了计算机界越来越多的关注。其核心思想是所有参与系统的节点(指互联网上的计算机)处于完全对等的地位,没有客户机和服务
科技高速发展的今天,流媒体技术已经在各个领域内得到了广泛的应用,自从第一个Internet流媒体的播放器诞生以后,Internet流媒体应用就呈现跳跃式的增长。如今互联网的成熟更
随着计算机技术的快速发展,纺织业正朝着自动化方向迅速发展。纺织业的自动化不仅仅是纺织设备的高度自动化,还包括与之相关的纺织品设计、检测、分类等诸多方面。随着图像采
在大容量光纤通信系统中,传统的石英基质掺铒光纤放大器(EDFA)具有高增益、低噪声等许多优良的特性已得到广泛的应用,但是由于其放大带宽只有35nm左右,仅仅覆盖了光纤低损耗窗
本论文是基于OMAP5912的移动终端嵌入式系统(Embedded System)项目设计与实现的组成部分。该系统包括TFT-LCD液晶屏显示、短波无线传输和信号的调制解调等三个子系统。本文给