网页分类特征选择方法研究及系统实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展不仅体现在传统互联网行业的日新月异,更体现在“互联网+”的日益兴起,它正在悄然地改变着更多的行业和领域。这也导致,各行各业的信息资源都大量散落在Internet上,且主要以文本形式存在,并呈现指数级的增长趋势。行业用户要想获取这些资源或者查询所需行业信息主要通过网络搜索,但是,用户往往需要从大量的搜索结果中排除掉许多无用信息,才能找到自己真正需要的那一小部分信息,这样不仅效率不高,还导致用户查询信息的体验不够理想,如何从庞大繁杂的互联网资源中挖掘出有价值的行业信息,一直是领域研究的热点。本文关于中文网页的特征选择方法与分类研究首先抽取出中文网页中的标题、正文等代表网页主题的文本信息,再研究并改进相关文本特征选择和表示方法对网页文本信息进行特征提取,将中文网页表示成计算机能够识别与处理的网页中间形式,最后设计实现一个中文网页分类系统对爬虫采集的生物医学领域相关中文网页进行分类,将其细分为六个子类别,为后续建立主题信息系统提供领域知识,使得面向主题的信息查询范围更加专业化,查询效率和准确率更高,满足生物医学领域对于知识查询的需求。  本文完成的主要工作及创新点如下:  (1)基于课题的研究内容,对爬虫采集的生物医学领域相关中文网页进行“去噪”处理,运用正则表达式技术设计一种匹配模型抽取出中文网页中的标题、正文等代表网页主题的文本信息,便于从中提取出网页特征,以用于网页分类。  (2)研究分析了常用文本特征选择和表示方法,针对 CHI方法的不足,提出一种改进的CHI方法,通过消除特征词负相关性引起的干扰,并引入词频、类内离散度来对CHI值进行适当修正。  (3)设计实现了基于SVM分类算法的中文网页分类系统,分别采用信息增益方法、CHI方法与本文改进后的CHI方法进行性能测试分析与对比,验证了其正确有效。  (4)将实现的分类系统应用在生物医学领域相关中文网页的分类,计算分类结果查全率、准确率以及F1值,证明了系统的实用价值。
其他文献
地理信息系统(GIS)以地理空间信息数据库为基础,提供多种空间和动态的地理信息,利用各种地理信息分析方法,提供地理研究所必需的地理数据和决策支持。但是作为一个对空间信息
医学图像三维可视化涉及数字图像处理、计算机图形学及人机交互等技术,是一个交叉学科的研究领域。医学图像三维可视化通过重建出人体组织器官的三维模型,得到人体组织器官的立
船舶交通管理系统(Vessel Traffic Services,VTS),是由法定主管机关履行的一种旨在保障船舶航行安全,提高营运效率,保护水域环境,加强水上交通安全的服务。在VTS覆盖水域内,这种服务
随着计算机技术和图像处理技术的革命性发展,计算机视频监测技术的发展有了强有力的技术支持。论文研究的视频交通信息检测技术在智能交通系统(ITS)的应用中占有很重要的地位,
量子遗传算法(Quantum Genetic Algorithm)作为量子计算理论和遗传算法原理相结合的一种新兴的全局优化算法,因算法具有种群规模小、寻优能力强、收敛速度快和计算时间短的特
近年来,由于纤维增强型复合材料以其质量轻、强度高、耐腐蚀、易于成型等优点在航空航天运载器等尖端科技领域得到了越来越多的重视。不同于常规应用环境,在上述领域的复合材料
Ad Hoc网络是一种动态多跳无线网络,是一种通过无线链路连接的移动节点的自组织系统。Ad Hoc网络已成为无线移动通信网络的一种应用方案而得到广泛应用,研究无线Ad Hoc网络的Qo
电力系统通信的迅速发展使得电力通信网的通信设备越来越复杂,通信线路也越来越多,这就给通信网资源管理带来了严峻的挑战。在本文中,分析了电力通信网资源管理的现状,并结合
在静止、步行、车速移动三种环境下,第三代移动通信标准要满足用户信息速率分别达到2Mbps、384Kbps和144Kbps的要求。TD-SCDMA(对分同步码分多址)标准是由中国提出的第三代移