基于用户本体模型的文本信息过滤方法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:w19870602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义。传统的文本过滤方法,如基于统计的向量空间模型方法和概率模型方法,速度快,可实现性好,但由于这些方法缺乏语义理解能力,从而使过滤效果难以满足日益复杂的用户需求。目前的研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不好。为了使机器更好地理解用户需求和文本内容,提高文本过滤的准确率和召回率,本文提出了基于用户本体模型(User Ontology Model,UOM)的文本信息过滤模型。该方法主要包括UOM构建、文本结构分析、信息匹配和语义相关度计算等。基于UOM的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高。通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效的为用户提供过滤服务。 本文的主要研究工作有以下几点: 首先,本文给出了过滤技术的历史与现状,给出了文本信息过滤中的关键技术,包括文本信息过滤的含义、基本结构与流程、常用的信息过滤模型、过滤系统的分类、评价指标、以及中文文本过滤中常用的分词理论。 其次,本文介绍了用户需求的表示和获取、本体的相关理论和技术,在此基础上提出了基于UOM的用户需求模型,详细描述了UOM的形式化描述方法和构建过程。 再次,本文提出了基于UOM的文本信息过滤模型,给出了文本结构分析及文本与UOM匹配算法、语义相关度的计算等。 最后,本文将以上研究成果运用到实际应用中,设计并实现了基于UOM的文本信息过滤系统--网络教学资源的智能按需服务系统。
其他文献
入侵检测系统是在目前网络安全问题日益突出的环境下,提出的一种对网络传输进行实时监控,主动保护自己免受攻击的一种网络安全技术。尽管这项技术经历了长足的发展,但是在某
变分优化是指对于给定的问题,首先将问题建立优化模型函数,然后求解函数的极值的过程。变分优化方法是一门应用非常广泛的学科,它已经被广泛的应用到经济计划、工程设计、生
电力负荷预测是电力系统的一项基本工作,是安全调度和经济运行的重要依据,在电力市场下,各电力公司要制定合理的经济模型和具有竞争力的实时电价,必须依赖于准确和快速的负荷
随着多媒体、网络技术的飞速发展,工程图纸数字信息在企业生产部门中的应用日益广泛,如何从大量的工程图纸信息中快速而准确地检索出所需的信息成为一个亟待解决的问题。本文
随着计算机网络和数据库技术的迅速发展,人们对数据库的要求越来越高。传统的集中式数据库一般都被放置在服务器上,这样比较方便管理,但随着网络技术的迅猛发展,数据分布存储
随着Internet技术的发展,安全协议在电子商务和电子政务中的应用越来越多。与此相应的就是人们对协议的安全性更加关注,随之涌现出各种安全协议的形式化分析方法。本文简要介
延迟容忍网络(Delay Tolerant Networks, DTNs)是一种新型Ad-hoc网络。在这种网络中,由于节点移动过于频繁,以及节点密度过于稀疏,导致整个网络中不存在端到端完整而稳定的通
随着科技技术的飞速发展,互联网的广泛使用,单一应用系统不再能够满足政府和企业客户的多样性需求,因此,多个具有独立用户身份认证模块但又彼此互相联系的系统和网站涌现到用
面向方面的程序设计(Aspect-Oriented Programming,AOP)是一种全新的程序设计方法,其核心旨在克服面向对象程序设计中抽象建模的局限性,在系统设计时将分散在各个模块中的横
路由协议是移动自组网(MANET,Mobile Ad hoc Network)的重要组成部分。基于位置的路由协议因无状态性而具备良好的可扩展性,能适用于大规模的网络。我们将基于位置的路由思想