【摘 要】
:
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。由
论文部分内容阅读
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。由于通用搜索引擎通常优先返回具有通用意义的资源很难满足用户对某些专业领域的信息需求。而且,网络信息的海量性和动态性,也使得任何一个搜索引擎都不可能对所有信息进行索引。因此,面向某个特定领域的主题搜索引擎就成为一个重要的发展趋势。文本自动分类是这重要趋势中的一个重要环节,它是指在给定的分类体系下,根据文本的内容自动判定文本类别的过程,以便于信息的检索。本文首先介绍了文本自动分类在国内外的研究现状。其次,对文本自动分类的一般过程和所涉及的关键技术,包括训练样本集、特征选取算法、阈值策略以及关键的分类算法,通过实验进行了研究和探索分析。最后提出了一种中文网页分类器的设计方案,并介绍了基于向量空间模型的中文文本分类系统的总体框架,系统流程和功能模块。
其他文献
随着市场的发展电信运营商之间的竞争越来越激烈,这使每个运营商都必须以客户为中心,随时准确了解用户消费情况和消费动向,作为运营商的老大为了保住绝对老大,就必须作这方面的改
在设计现实环境中的Agent时,BDI模型是一种常用的Agent体系结构设计方法。在该模型中,Agent根据它的信念来选择一定的愿望(目标),作为它要实现的意图。由于现实环境通常具有如下
随着人工神经网络的深入研究,人工神经网络方法已在许多领域获得成功运用。神经网络的主要特点体现在其具有信息处理的并行性、分布式的信息存储、自组织性和自适应性、具有
在知识发现的诸多理论之中,粗糙集理论是一种对处理复杂数据较为有效的方法,它并不要求提供问题所需处理的数据集之外的任何先验信息,并且与其它的处理不确定性问题的理论有
本文针对目前基于内容的图像检索算法在算法效率和准确性方面存在的局限性,探讨了基于内容的图像检索技术中若干重要问题,提出了一种注意力驱动的两阶段图像检索方案,着重研
视觉跟踪是虚拟现实、人机交互、视觉监控等领域内的关键技术,具有巨大的应用前景。由于存在遮挡、图像处理复杂等特点,视觉跟踪的实时性一直难以提高,实时性是目前视觉跟踪技术
移动边缘计算(Mobile Edge Computing,MEC)技术作为云计算服务模式在边缘网络中的扩展,能够在边缘网络中支持资源密集型应用,并为用户提供实时服务,解决了传统云计算中心提供
随着计算机网络技术的迅速发展,互联网已成为人们日常生活中不可或缺的一部分,网络给人们带来方便的同时其安全性也经受着巨大的挑战,数据加解密技术作为信息安全领域的关键技术
本文提出了一种改进的支持向量分类方法和一种针对支持向量机的增量学习算法。根据支持向量机中支持向量不会出现在两类样本集间隔以外的正确划分区的理论,通过引入类质心,类半
进入二十一世纪以来,因特网迅速发展,逐渐普及。随之而来的网络娱乐业也进入了一个迅猛发展期,其中网络游戏扮演了重要角色。2001年,全球的游戏市场达到165亿美元,超过电影160亿美