论文部分内容阅读
互联网技术的蓬勃发展不仅体现在传统互联网行业的日新月异,更体现在“互联网+”的日益兴起,它正在悄然地改变着更多的行业和领域。这也导致,各行各业的信息资源都大量散落在Internet上,且主要以文本形式存在,并呈现指数级的增长趋势。行业用户要想获取这些资源或者查询所需行业信息主要通过网络搜索,但是,用户往往需要从大量的搜索结果中排除掉许多无用信息,才能找到自己真正需要的那一小部分信息,这样不仅效率不高,还导致用户查询信息的体验不够理想,如何从庞大繁杂的互联网资源中挖掘出有价值的行业信息,一直是领域研究的热点。本文关于中文网页的特征选择方法与分类研究首先抽取出中文网页中的标题、正文等代表网页主题的文本信息,再研究并改进相关文本特征选择和表示方法对网页文本信息进行特征提取,将中文网页表示成计算机能够识别与处理的网页中间形式,最后设计实现一个中文网页分类系统对爬虫采集的生物医学领域相关中文网页进行分类,将其细分为六个子类别,为后续建立主题信息系统提供领域知识,使得面向主题的信息查询范围更加专业化,查询效率和准确率更高,满足生物医学领域对于知识查询的需求。 本文完成的主要工作及创新点如下: (1)基于课题的研究内容,对爬虫采集的生物医学领域相关中文网页进行“去噪”处理,运用正则表达式技术设计一种匹配模型抽取出中文网页中的标题、正文等代表网页主题的文本信息,便于从中提取出网页特征,以用于网页分类。 (2)研究分析了常用文本特征选择和表示方法,针对 CHI方法的不足,提出一种改进的CHI方法,通过消除特征词负相关性引起的干扰,并引入词频、类内离散度来对CHI值进行适当修正。 (3)设计实现了基于SVM分类算法的中文网页分类系统,分别采用信息增益方法、CHI方法与本文改进后的CHI方法进行性能测试分析与对比,验证了其正确有效。 (4)将实现的分类系统应用在生物医学领域相关中文网页的分类,计算分类结果查全率、准确率以及F1值,证明了系统的实用价值。