基于网页自动分类的新闻检索系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jiansilang2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网页数量呈指数增长。面对互联网上的海量信息,如何快速、准确地从海量信息中找到自己需要的信息成为当前亟待解决的问题。网页分类作为信息组织和处理的关键技术,可以用于解决海量网络信息带来的问题,成为Web领域的一个研究热点。目前,网页自动分类技术在主题搜索、个性化信息检索、信息过滤、主动信息推送服务等领域得到了广泛的应用。尽管当前自动分类效果不错,但是还不能满足工业化应用的需求,有待从特征和算法上进一步改进。  论文通过设计并实现自动分类的新闻检索系统,将网页分类技术与搜索引擎紧密的结合。为了提高网页分类的效果,本文从网页信息抽取、特征权重和特征选择等方面入手寻求改进,以提高网页分类的效果。  本文的研究内容主要包括以下几个方面:  (1)通过分析新闻类网页的页面源码,提取出与网页分类相关的标题、导航及内容等文本信息,并比较这些信息在网页分类中的作用。实验发现,新闻网页的页面导航信息有助于提高分类效果,而之前的网页分类研究通常没有重视这一信息。  (2)对传统的tf-idf权重计算提出改进,加入类别分布对特征词权重的影响,并引入调整参数,提高权重对特征词的表达能力。  (3)将前面提出的特征与方法应用到基于网页自动分类的新闻检索系统中,并提供新闻检索和聚类两种形式提供新闻信息服务。  本文提出的特征和改进方法在Newsgroups等4个数据集上进行了对比实验,实验结果表明页面导航信息对提高网页分类性能具有明显促进作用;改进的权重计算公式在不同数据集上的微观F值都有所提高,达到了预期的效果。
其他文献
随着信息化系统在企业中不断普及,Web服务的发展已经成为企业中实现资源共享的一种推动力,然而Web服务作为资源在异构系统之间共享很容易导致Web服务安全受到威胁。访问控制技
随着大数据时代的来临,各领域产生的信息呈现出几何式爆炸增长的趋势,其中有些高速的海量数据需要被实时处理。在这种背景下,流处理系统应运而生。大部分流处理系统采用的是连续
人类对自身之美的研究已经有几千年的历史了,人类对美的不断追求,促进了人的审美意识不断提高,同时也促进了社会的发展,而面部美学又是其中的研究重点。古今中外对于人脸美学的研
随着计算机和网络技术的高速发展,以并发性、分布性和实时性为主要特征的并发与分布式系统已成为计算机的主流研究方向。从C.A. Petri提出Petri网以来,各种从不同侧面反映并
BGP协议是目前Internet上唯一应用的域间路由协议,其任务是依据特定的路由策略,维护那些构成 Internet的自治系统之间的可达性。但是当前对 BGP协议的应用已经远远超出其最初的
随着近代计算机技术的飞速发展,语音识别技术日趋成熟,尤其是孤立词语音识别技术取得了较高的识别准确率,然而随着语音识别技术限制条件的放宽及实际应用环境的限制,仍存在一系列
网络技术的迅速发展,给人们的生活及生产带来了巨大转变,它在丰富人们精神生活的同时,也给人们的工作带来便捷。但是,计算机网络是一柄双刃剑,它具有联结形式多样性、终端分
数字视频属于国家重点发展的信息产业领域,宽带网络和数字电视的迅速发展,使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据,对视频摘要技术的研究
骨肿瘤是发生于骨骼或其附属组织(血管、神经、骨髓等)的肿瘤,是一种常见病。骨肿瘤有良性,恶性之分。良性骨肿瘤易根治,预后良好。恶性骨肿瘤发展迅速,预后不佳,死亡率高。
SaaS软件服务模式通过将离散的软件买断模式转化为集中的软件租用模式,使用者可以根据自己的业务特点和需要灵活的定制数据库的相关功能。同时中间件的发展为SaaS模式提供了