论文部分内容阅读
互联网的迅猛发展,使网络信息急剧增长。人们对信息服务的要求不断提高,未来的信息网络将变得越来越人性化,用户将获得优质的信息服务和个性化的主动服务。而网络信息的内容理解,对真正实现信息主动服务有着重要作用,也是信息处理中十分重要的课题。论文从网页信息的自动分类与自动标引技术方面开展理论与实验研究,以解决共享信息网络中网页信息的内容理解与资源整合问题。
论文首先分析了相关技术的国内外研究现状,论述了UCL技术、文本分类和网页信息自动标引的相关基础理论。
然后,提出基于网站结构的分类算法及适合网络信息资源的UCL分类代码,创建分类特征库,完成了网站结构分类器的构建。采用朴素贝叶斯算法,通过网页预处理、文本分词、特征提取等过程构建了朴素贝叶斯分类器。完成语料库的构建,在统一分类法基础上,测试两种分类器的性能,实验结果表明,网站结构分类器的准确率达97%以上,优于朴素贝叶斯分类器,验证了网站结构分类器的可行性及有效性。
其次,参照都柏林核心元数据规范构建了网页信息的标引框架,提取网页特征信息,采用ADO技术实现了网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。
最后,将分类及标引技术应用到互补结构网络智能代理终端,验证了UCL标引方法的有效性。实验结果表明,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。