中文信息过滤技术的研究

来源 :北京化工大学 | 被引量 : 4次 | 上传用户:RubbishHP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向等很多问题,为了克服这个问题,有必要对Web信息过滤技术进行研究。中文文本信息过滤是中文信息处理的主要方向之一,它根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。为用户获取和使用信息提供便利。 网页文本的提取是进行信息过滤处理的前提。本文对网页的源码进行结构和控制符进行了分析,实现了文本提取和中文分词的程序,使用该程序可以从这些文本中提取关键词形成关键词集合,文档以这些关键词来表示时,信息的处理就变的简单了。 目前在数据挖掘的诸多方法中,基于ID3算法的决策树方法是信息过滤中采用较广泛的方法。在对ID3算法学习分析研究的基础上,实现了一个基于ID3算法的决策树分类程序,该程序可以对中文信息进行有效的分类。此外,该程序还可以从分类数据中提取分类规则,这些规则可以根据需要进行增加、删除和修改。实验结果表明决策树分类器确实是一种有效的分类技术。 基于贝叶斯网络模型的分类是当前数据挖掘领域的一个有实用价值的研究热点。本文从两个方面对贝叶斯分类模型进行了研究和程序实现:朴素贝叶斯分类与属性关联贝叶斯分类。虽然朴素贝叶斯网是一种简单而有效的分类模型,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能。通过对关键词集合进行分析,根据关键
其他文献
机械臂是一种成功的并且被广泛应用的机械装置,它同时也被广泛地应用在机器人领域。工业上的组装、焊接、高温铸锻等繁重工作,很多都用机械臂辅助人工作业,减轻了劳动强度,提
模型驱动架构(MDA)是一个软件开发框架,是继CORBA、UML之后由OMG推出的重要的软件开发方法学。OMG对MDA的构想是将软件系统的开发行为提升到对更高的抽象层级的关注,通过模型的
当前,随着计算机网络技术的发展,人们对网络通信的功能需求呈现出多样化的趋势。通信业界提供的解决方案也随之逐渐完备化,细密化,能够覆盖哪怕是很细微的用户需求的变化。过去数
基本农田是按照一定时期人口和社会经济发展对农产品的需求,依据土地利用总体规划确定不得占用的耕地。监督管理作为基本农田保障性研究的一项基础性工作,主要方式采用普查登
土地的合理利用是区域经济、社会和生态等因素的综合体现,土地利用优劣程度以及未来发展趋势直接影响到经济的发展、生态环境变化和人们的日常生活。随着科学技术的飞速发展,
网格计算是一种正在迅速发展的计算基础设施,它将分布的计算资源组织起来协同解决复杂的科学计算与工程应用问题。网格中的节点具有高度的自治性和地理上的分散性,网格中的资
随着现有互联网的飞速发展,网格作为一种信息社会的网络基础设施,利用互联网把分散在不同地理位置上的多个资源全面连通和统一分配、管理及协调起来。其优势在于不但数据处理能
70年代初期,在Jeliski-Moranda提出第一个软件可靠性模型后,有关软件可靠性的研究就一直是软件工程领域的热点问题。经过近几十年的研究和发展,软件可靠性和软件可靠性工程的
电信企业在发展,电信运营支撑系统也在发展,目前国内的运营商已经基本完成了以数据仓库技术为基础的经营分析系统的建设,实现了企业级的数据整合和集中。于是,市场向电信运营商提
自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识